Кафедра информатики и тсо курсовая работа





НазваниеКафедра информатики и тсо курсовая работа
страница2/4
Дата публикации24.01.2015
Размер0.53 Mb.
ТипКурсовая
100-bal.ru > Информатика > Курсовая
1   2   3   4

Гибридные системы


В стремлении повысить качество работы поисковых служб есть попытки совместить оба подхода. При этом возможны два варианта: поисковые каталоги привлекают возможности поисковых указателей, переадресуя им запрос. Например, до последнего времени поисковый каталог Yahoo переадресовывал особо сложные запросы поисковому указателю Alta Vista.:

Сегодня Yahoo! привлекает средства другого партнера — Inktomi. '

С другой стороны, поисковые указатели научились выполнять автоматическую каталогизацию своих ресурсов и предоставлять к ним доступ так как это принято в поисковых каталогах. Пример такого подхода являет самый мощный сегодня поисковый указатель Fast Search
Метапоисковые системы

К метапиисковым системам относится множество поисковых служб вто­рого эшелона. Они принимают от пользователя запрос и размещают его сразу на нескольких поисковых серверах. Потом они собирают поступив­шую от них информацию, обобщают ее, структурируют, рафинируют (очи­щают) и передают клиенту. Увеличенное время исполнения запроса компенсируется улучшенным качеством результатов поиска.

Первое время крупные поисковые системы спокойно смотрели на суще- , ствование «под собой» метапоисковых систем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаются запреть! на метапоиск. А если говорить точнее, крупные поисковые сис­темы начали заниматься им сами, привлекая ресурсы коллег на взаимо­выгодной основе.

Порталы


Входя в World Wide Web с помощью броузера, мы попадаем на какую-то страницу, которая задана в настройках броузера в качестве начальной. Пользователь может легко перенастроить свой броузер на работу с другой начальной страницы. Какую именно страницу он будет использовать — его личное дело. Опыт показывает, что очень удобно иметь в качестве началь­ной страницы такую, на которой уже представлено несколько ссылок на основные поисковые системы. Удобно здесь же иметь доступ к электрон­ной почте. Неплохо, если на этой странице всегда отображаются послед­ние новости из мира политики, искусства, спорта, бизнеса и т. п. Такие « готовые» начальные страницы называются порталами. В мире существу­ет множество порталов — настройте свой броузер на тот, который наилуч­шим образом соответствует вашим личным интересам. Хорошие порталы предоставляют пользователю возможность персональной настройки «под себя». Надо только включить флажки против тех поставщиков информа­ции, которые вам интересны, и выключить у тех, которые для вас неакту­альны.

Борясь за клиентов, многие поисковые системы превращаются в порталы. Это означает, что они не только готовы поставлять результаты поиска, но II способны выполнять другие услуги. Часто название порталов начинается со слова My (Мой/Моя/Мое). Например, если на поисковых системах Yahoo!, Alta Vista или DejaNews вам предлагают подписаться на службу MyYahoo, MyAltaVista или MyDejaNews, то, значит, речь идет о том, чтобы стать посто­янным клиентом удобного портала.

Другой причиной того, что поисковые системы постепенно превращаются в порталы, стал тот факт, что им стало трудно одновременно и «копиро­вать» пространство WWW, и индексировать гигантские базы данных, и "Услуживать запросы клиентов. Поисковые системы начинают распреде­лять обязанности. Задачи по контролю за Web-пространством постепенно передаются на партнерских основаниях «третьим» фирмам, а сами поис­ковые системы сосредоточиваются на обслуживании клиентов и привле­чении рекламодателей, то есть превращаются в порталы.

Рейтинговые службы

В последние три года появился новый тип служб, позволяющих быстро разыскивать информацию в Сети, — это так называемые реитинговые службы. Они занимают промежуточное положение между поисковыми службами и порталами и могут использоваться как в том, так и в другом качестве.

Суть рейтинговой службы состоит в том, что на ее сервере создаются тема­тические СП1-1СКИ ссылок на наиболее популярные Web-ресурсы. Хоть эти списки и небольшие, представительность их велика, поскольку именно эти ссылки предпочитают большинство клиентов Сети.

Когда мы выбираем одну из ссылок, представленных на сервере службы, срабатывает счетчик, и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит, сколько «нащелкали» его предшественники, и понимает, какой ресурс ему стоит посмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск «по рекомендациям». Разумеется, он не может претендовать на объективность, но когда речь идет о темах, имеющих общественный интерес, таких как новости, поли­тика, спорт, кино, музыка, компьютерные игры и т. п., этим «рекоменда­циям» можно доверять. Самая популярная отечественная рейтинговая служба — Rambler (www.rambler.ru). Наиболее популярная зарубежная рей­тинговая служба — Webside Story (www.hitbox.com)

Основные поисковые системы

AltaVista (http://www.altavista.com/)

По количеству индексированных Web-страниц Alta-Vista — одна из крупнейших (но не самая крупная, как это иногда считается) поисковых систем мира. Огромный объем охвата Web-пространства и мощ­ный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуа­тацию в декабре 1995 г. и долгое время считалась молодой, но бурно развива­ющейся. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поис­ковую службу — Ask Jeeves (см. ниже). Несмотря на то, что сегодня Alta Vista уже не является самым удобным средством поиска и владеет не самым большим индексом, ее популярность по-прежнему выше, чем у служб, кото­рые превзошли ее по многим показателям, что связано с устоявшимися привычками миллионов пользователей.

Ask Jeeves (http://www.askjeeves.com/)

Эта система представляет образец человеческого (неавтоматизированного) подхода к индексации и хранению информации о Web-документах. Ее цель не в том, чтобы выдать в ответ на запрос как можно больше возможных ссылок, в том, чтобы они были наиболее точны. В идеале система должна вас направить именно к той Web-странице, которая вам как раз и нужна. Сис­тема была введена в эксплуатацию в июне 1997 г. Результаты поиска в этой системе используются и при размещении запроса в Alta Vista.

Direct Hit (http://www.directhit.com/)

Систему Direct Hit можно назвать системой «рафинирования» результатов поиска, выдаваемых другими поисковыми системами. Она контролирует, какими результатами поисков клиенты пользуются наиболее часто и, тем самым, создает некий рейтинг популярности Web-стра­ниц. Этот рейтинг она предоставляет другим поисковым системам, и они учитывают его при выдаче результатов. Технология Direct Hit напрямую используется поисковой системой HotBot. Она также учитывается систе­мами Lycos, LookSmart и MSN Search.

Excite (http://www.exc1te.com/)

Excite — одна из самых популярных поисковых систем World Wide Web. Она имеет указатель среднего размера и кроме поиска Web-страниц предоставляет услуги по поиску других материалов, например сведений о компаниях или результатов спортивных соревнований. Система была создана в конце 1995 г., прошла этап бурного развития и в 1996 г. погло­тила двух ближайших конкурентов: систему Magellan и WebCrawler, хотя те по-прежнему сохраняют свои торговые марки и предоставляют поис­ковые услуги как самостоятельные службы.

FAST Search (http://www.alltheweb.com/)

Эта система, принадлежащая норвежской компании, ранее называлась All TheWeb. Несмотря на то, что она была запущена совсем недавно (в мае 1999 г.), перед ней ставится задача обогнать конкурентов в полноте коллекций ссылой;

на Web-страницы. Кажется, ей это удается. Летом 1999 г. FAST Search первое перешагнула 200-миллионный рубеж проиндексированных Web-докумеатов. Кроме системы FAST Search та же компания контролирует подразделение системы Lycos, занимающееся поиском музыкальных файлов в формате МРЗ. л!

Go/Infoseek (http://www.go.com/)

Go/lhfoseek — это сочетание известной в прошлом поисковой системы Infoseek (была основана в 1995 г.) и современного портала Go (создан в 1999 г. и принадлежит небезызвестной Walt Disney Co). Кроме поисковых возможностей Infoseek портал пре-| доставляет зарегистрированным пользователям возможность персональной настройки среды, бесплатную электронную почту и другие полезные cepвисы. Пользователи этой системы отмечают высокое качество ссылок, возвращаемых системой, что объясняется специальным «фирменным» алгоритмом! поиска. Кроме автоматизированного указателя система имеет также обширный каталог Web-узлов, составляемый вручную.

GoTo (http://www.goto.com/)

Поисковая служба GoTo не имеет отношения к порталу Go , и известна тем, что формирует результаты поиска на коммерческой основе. Компании, владеющие Web-узлами, за определенную плату могут договориться, чтобы ссылки на них появлялись на более высоких местах в списках итоговых результатов. Насколько известно, более никто, кроме Alta Vista, не занимается такими махинациями. Впрочем, служба GoTo не считает это махинацией, а полагает, что платежеспособность Web-издателя напрямую связана с качеством поставляемой им информации, и потому для пользователя такой подход полезен. При формировании списка служба берет оплаченные ссылки из собственной базы данных, а неоплаченные черпает от поисковой системы Inktomi (см. ниже).

Служба была запущена в 1997 г. В ее основу был положен Web-краулер World Wide Web Worm, приобретенный у разработчика — университета штата Колорадо. С его помощью собиралась первичная база указателя. В 1998 г. служба перешла на нынешнюю «коммерческую» модель обслуживания и начала использовать систему Inktomi в качестве генератора «некоммерчес­ких» ссылок.

Google (http://www.google.com/)

Служба Google известна тем, что при генерации списка ссылок в первую очередь выдает ссылки на те Web-страницы, к которым из других документов ведет наибольшее количество ссылок. Это дает очень интересный эффект. На большинстве поисковых систем совершенно бесполез­но искать информацию по таким тривиальным словам как Cars (Автомобили), Internet, WWW, Games (Игры). Поиск по этим словам вернет столько ссылок, что среди них невозможно найти самые полезные. Служба Google при про­ведении поиска по тривиальным словам дает отличные результаты, посколь­ку руководствуется мнением других пользователей, ранее осуществлявших подобный поиск.

HotBot (http://hotbot.lycos.com/)

По популярности среди сетевой общественности HotBot приближается к Alta Vista. Как и Alta Vista, эта служба имеет огромный поисковый указатель и много полезных функций. При генерации первой "^^S^^^^^ страницы ссылок HotBot использует результаты, поступающие от системы Direct Hit (см. выше). При генерации последующих страниц используется система Inktomi (см. ниже), услугами которой пользуются и другие поис­ковые службы. Кроме поиска по ключевым словам служба предоставляет также возможность поиска по тематическому каталогу. Данные для ката­лога черпаются из проекта Open Directory (см. ниже).

Служба HotBot была создана в мае 1996 г. компанией Wired Digitals, кото­рую в 1998 г. перекупила поисковая служба Lycos. Несмотря на это, HotBot продолжает функционировать как самостоятельная поисковая служба, парал­лельно с Lycos.

Inktomi (http://www.inktorm.com/)

Ядро поисковой системы Inktomi было разработано вуниверситете Калифорнии в Беркли. Несколько позже создатели системы учредили одноименную компанию и сформировали указатель ссылок Inktomi, который был использован в качестве основы службой HotBot. Сегодня этот указатель используют и некоторые другие поисковые службы. Несмотря на то, что при ответе на запрос пользователя все подключенные службы обращаются к одной и той же базе данных, результаты выдаются разные. Это связано с тем, что хотя Inktomi и обеспечивает партнерам доступ к общей базе указателей, система всетаки различает партнеров и приме­няет системы рейтингования и фильтрации результатов в соответствии с их идеологией.

LookSmart (http://www.looksmart.com/)

Служба LookSmart — ближайший последователь концепции Yahoo! в том, что касается «человеческого фактора» при составлении каталогов Web-ресурсов. Она предоставляет доступ к своему каталогу службе Alta Vista и другим партнерам. В тех случаях, когда поиск по архивам LookSmart не дает результата, ей помогает своими указателями Alta Vista.

Служба LookSmart была создана в 1996 г. при финансовой поддержке концерна Reader's Digest, но примерно через год ее учредители откупили ' службу, и сегодня она независима.

Lycos (http://www.lycos.com/)

Первоначально служба Lycos была запущена как поисковая система, основанная на программе-роботе, собирающей информацию из WWW. Запущенная в эксплуатацию еще в мае 1994 г., сегодня она счита­ется одной из старейших поисковых служб. Однако совсем недавно, в 1999 г. служба перешла на другую модель, похожую на Yahoo! и основанную на каталогизации Web-узлов. Свои основные каталоги служба получает от проекта Open Directory, а дополнительные возможности поиска опираются на мониторинг WWW с помощью программ-роботов. В качестве альтер­нативной услуги Lycos ведет еще один каталог — каталог Web-узлов Lycos Community Guides.

Название компании образовано из латинского словосочетания, которое можно перевести примерно как волкопаук. В 1998 г. служба Lycos выку­пила акции своего ближайшего конкурента HotBot, который продолжает автономную работу под общим управлением Lycos.

MSN Search (http://search.msn.com/)

Служба MSN Search, принадлежащая компании Microsoft была создана в 1998 г. и является порталом, на котором представлены и другие поисковые службы. В основу результатов поиска, выдаваемых службой, положен указатель, поставляемый системой Inktomi.

Netscape Search (http://search.netscape.com/)

Поисковая служба Netscape Search получает первичные результаты поиска от проекта Open Directory и собственной базы Smart Browsing. Вторичные результаты Search поставляются службой Google. На портале Netscape NetCenter кроме этой соб­ственной службы присутствуют ссылки и на другие поисковые службы.

Yahoo! (http://www.yahoo.com/)

Yahoo'—одна из старейших и наиболее популярных поисковых служб. Ее каталог был запущен в эксплуатацию еще в 1994 г. Секрет успеха Yahoo' в < чело­веческом факкоре». На службу работают около 150 редакторов, неустанно улучшающих и пополняющих множество тематических разделов огром­ною каталога. В каталоге содержатся данные по одному миллиону Web-узлов. Если поиск по собственному каталогу не дает результата, привле­каются ресурсы поискового указателя Inktomi.

Отечественные поисковые службы

С большим удовлетворением мы должны отметить, что российский сектор Интернета развивается очень бурно. Сегодня ситуация такова, что даже если западный сектор по каким-либо причинам «прикажет долго жить», российский сектор достаточно автономен, чтобы развиваться самостоя­тельно и достойно обслуживать отечественных клиентов.

Важную роль в становлении и развитии отечественного сектора Интернета сыграли отечественные поисковые службы (за что им огромное спасибо). Не знаем, смогли ли они к сегодняшнему дню подойти к самоокупаемости, но в первые годы без сомнения работали на энтузиазме, доброй воле своих сотрудников и вере в будущее. В России есть как универсальные, так и специализированные поисковые службы. Как и везде в мире, в первую оче­редь развиваются поисковые указатели и рейтинговые системы, но имеется и полноценный каталог — @Rus, в прошлом «Ау'».
Aport (http://www.aport.ru/)

«Апорт» — один из первых поисковых указателей российского Интернета — детище компании « Агама » (http://www.agama.ru/). В прошлом служба предоставляла традиционные общепринятые средства поиска, но в конце 1999 года внедрила новую систему («Апорт 2000») и сделала большой шаг вперед, особенно в том, что касается представления результатов поиска. Выше мы уже отмечали, что сегодня владение самым большим проиндексированным пространством Web уже не является самоцелью. Главное — наилучшим образом обеспечить потребности пользователя, afl простейший путь к этому лежит не в безмерном увеличении индекса, а вs применении новых технологий при обработке результатов. Прежде всего следует отметить, что системе «Апорт 2000» удается мастерски сочетать «машинный» и «человеческий» факторы. Это достигнуто за счет тесной интеграции с партнерским каталогом @Rus. Так, например, когда по результатам поиска выводится адрес Web-страницы, он может сопровождаться кратким описанием Web-узла, взятым из каталога @Rus. Хотя пользователь и не видит глубинных процессов, но система «Апорт 2000» уделяет особое внимание рейтингованию результатов поиска. В частности, она использует наиболее эффективную сегодня систему рейтингования по количеству ссылок, ведущих к данному ресурсу (по индексу цитирования). По способу представления результатов поиска служба «Апорт 2000" в настоящее время является одной из самых передовых не только в России, но и в мире. Страница результатов поиска доставляет настоящее эстетическое удовольствие, хотя и требует разрешения экрана не менее, чем 600х800 точек
Атрус (@Rus) (http://www.atms.ru/)

@Rus —популярнейший отечественный поисковый каталог, известный в прошлом под именем «Ау!» (http://www.au.ru/). Каталог разработан компанией « Web Tech» в сотрудничестве с компанией «Агама». При его наполнении активно используются средства поисковой системы «Апорт 2000», а результаты поиска могут предоставляться как самостоятельно через службу @Rus, так и в составе результатов поиска, проведенного службой «Апорт 2000». |

Кроме средств поиска служба @Rus предоставляет удобный каталог-портал Мой @Rus. Пользователь может настроить его на быстрое получение наиболее нужной ему информации. Средства настройки каталога позволяют также отключить все лишнее на основной странице поисковой сиетемы, что делает работу с ней особенно быстрой и удобной.

Rambler (http://www.rambler.ru/) \

Rambler — это рейтинговая система, обладающая всеми основными функциями поисковых указателей. Как поисковый указатель, служба обладает одним из крупнейших индексов в России, но ей явно недостает быстро­действия и современных алгоритмов рейтингования результатов поиска. Впрочем, это не очень существенно, ведь основную популярность служба приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему и оценить их популярность по количеству посещений за последние сутки. Мы уже говорили о том, что эта характеристика качественности Web-ресурса является относительной, но в тех случаях, когда речь идет о теме, имеющей общественный интерес, ей можно доверять.

Япс1ех (http://www.yandex.ru/)

яndex — мощная поисковая служба, основанная на указателе, обладающая как большой и представительной базой данных по отечественным Web-ресурсам, так и изощренной системой индексации. Функционирование службы обеспечивает компания CompTek (http://www.comptek.ru/).

На основной странице службы сказано, что «поиск — это искусство». Одна­ко это не означает, что для работы с ней надо быть особо искусным. Про­сто для тех, кто предпочитает подходить к поиску творчески и стремится развивать свое мастерство, Яndех предоставляет уникальные в своем роде инструменты, сосредоточенные в разделе расширенного поиска. Возможно, он даже несколько опережают свое время и украсили бы западную поис­ковую службу, имеющую дело с сотнями миллионов проиндексированных документов. А в российском секторе, где пока проиндексировано лишь 10-20 млн документов, мы нередко обходимся средствами простого поиска.

Но и в области простого поиска служба Яndех имеет ряд технологических достижений, прежде всего интеллектуальный механизм морфологичес­кого разбора слов, что особенно важно для русского языка.

Интересна новая услуга, предоставляемая службой. Для корпоративных клиентов она бесплатно предоставляет «облегченную» версию программы Яndeх.site, выполняющей индексацию содержимого Web-узла. Это удобно тем владельцам Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах собственного узла. В то время как большинство поисковых служб хранят свои средства индексации как < зеницу ока>, этот шаг компании CompTek выглядит удачным маркетин­говым ходом, способствующим росту популярности службы.

Приемы простого поиска информации в WWW

Каждая поисковая система предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинации ключевых слов. Однако есть общие элементы, одинаково справедливые для большинства поисковых систем.

Прежде всего, надо заметить, что чем точнее сформулировано задание на поиск, тем точнее будут и результаты. Например, если вы хотите найти документы с описанием замеченных ошибок Windows 98, то так и надо формулировать запрос: ошибки Windows 98, а не просто Windows. На англо­язычных серверах очень часто срабатывает простое человеческое описа­ние проблемы: printer works incorrectly (принтер работает неправильно).
Ловушка для начинающих

Обычно наша задача состоит в том, чтобы выделить в пространстве Web самые нужные документы, однако многие начинающие ловятся на один и тот же крючок. Например, если вы хотите найти информацию о компьютерных играх (computer games), то кажется, что так и надо оформить запрос:

computer games

Увы, для большинства поисковых систем этот запрос будет ошибочным. При таком запросе система будет искать все Web-страницы, в которых встречается либо слово computer, либо слово games, либо оба вместе. В WWW полно страниц, на которых упоминаются компьютеры и нет ни слова про игры. Точно так же там полно страниц со спортивными, настольными и другими играми, которые нам не интересны. Вот всю эту массу и надо как-то отсеять, а мы наоборот ее запрашиваем.

Вот список поисковых систем, которые рассматривают группу слов, вве­денных через пробел, как задание на поиск любого из этих слов:

AltaVista Excite GoTo

Infoseek LookSmart Netscape Search

Snap WebCrawler Yahoo!

Следующие системы тоже способны выполнять поиск по любому из слов группы, но для этого надо либо установить соответствующий флажок, либо выбрать соответствующий пункт в меню:

HotBot (через меню);

Lycos (в режиме расширенного поиска);

MSN Search (через меню);

Rambler (после установки флажка Все словоформы).

Система Northern Light позволяет производить поиск по любому из ключе вых слов только путем использования логической команды OR (см. ниже). Система Google вообще не имеет средств для такого поиска («ловушка для начинающих» в ней принудительно закрыта).

Сложение наоборот


Если нам надо, чтобы поисковая система нашла страницы, на которых одно временно присутствуют все использованные ключевые слова, то перед каж­дым из них надо поставить знак «+». Предположим, вы хотите узнать, не 'было ли в жизни известного лица каких-нибудь щекотливых ситуаций. В этом случае в условии поиска надо указать:

+Клинтон +скандал

'Поисковая система выдаст список страниц, на которых встречаются оба слова, хотя, конечно, не исключено, что между ними нет прямой связи. Список слов может быть больше — тогда результаты поиска будут точнее, например:

+свет +оптика +линза

Использование знака «+» особенно полезно, если вы провели поиск по рас­пространенному слову, но в ответ получили так много ссылок, что не знаeтe, как с ними поступить. Используя знак «+», мы сужаем круг поиска и уменьшаем количество возможных ссылок.

Знак «+» понимают все основные поисковые системы, за исключением LookSmart. А следующие системы выполняют такой поиск по умолчанию, рдаже если знак «+» не указан:
Google HotBot

Lycos MSN Search

Northern Light Aport 2000

Rambler (в режиме простого поиска при сброшенном флажке Все словоформы).

Имеет отличия и российская система Яndex. Если слова разделены пробелами, то система ищет одновременное появление этих слов, но только в пределах одного предложения. Если же требуется одновременность в пределах всего документа, надо использовать знак «+».Интересную особенность имеет и российская система Rambler. В ней знак«+» можно использовать для управления весовым коэффициентом при рейтинговании результатов. Так, например, поставив несколько знаков «+» перед каким-либо словом, можно форсировать отображение страниц, содер­жащих его, в вершине результирующего списка.

Арифметика вычитания

Интересно, что сужать круг поиска можно не только знаком «+», но и знаком «-».Допустим, вам надо написать для детского сада реферат о деятельности президента Клинтона, но при этом не хочется вникать в его исто­рию с Моникой Ленински. Исключить Ленински из рассмотрения можно знаком «минус», например так.

Клинтон -Левински

Если, к примеру, нам надо написать реферат по оптике, но только по гео­метрической, а не по волновой, то поиск может быть таким:

+свет -оптика -волна

Последняя команда разыщет все страницы, где присутствуют слова свет и оптика, но покажет только ссылки на страницы, не содержащие слова волна.

Знак «-» понимают практически все основные поисковые системы.

Применим джокера

Возьмем следующее предложение:

В геометрической оптике световой луч рассматривается как прямая линия.

Интересно отметить, что поиск по команде +свет +оптика может его и но найти, хотя это самая настоящая геометрическая оптика. Мы дали команду искать слово свет, а в документе написано: световой. Мы дали команду искать слово оптика, а в документе написано: оптике. Разумеется, многие поисковые системы производят нормализацию слов, но не все и не всегда, так что не стоит на это полагаться, а следует использовать подстановочный символ «*». Как джокер в карточной колоде может заменить любую карту, так этот символ может заменить любой другой символ или набор любых символов до конца слова. Если бы мы сформировали свой запрос так:

+свет* +оптик* -волн* то наверное его результаты были бы шире без особой потери точности. Подстановочный символ «*» можно использовать в следующих поиско­вых системах:

AltaVista HotBot

MSN Search Northern Light

Snap Yahoo!

Некоторые из крупнейших поисковых служб поддерживают нормализа­цию слов по умолчанию, то есть, они уже учитывают сокращение слов до основы, и потому в них не надо использовать подстановочный символ. В частности, к таким службам относится Infoseek.

Контекстный поиск

А почему бы нам сразу не искать то, что надо?

+геометрическая +оптика

Может быть, это и было бы хорошим решением, но такой поиск выдаст ссылки на страницы, где упоминаются оба эти слова, причем совсем не Необязательно, что вместе. То есть, слово геометрическая может быть в одном конце текста, а слово оптика — совсем в другом. Если же мы хотим объедить оба эти слова в одно сочетание, то надо применить кавычки:

"Геометрическая оптика" "геометрическая оптика"

случае использования кавычек поисковая система разыскивает документы, в которых абсолютно точно есть тот текст, который в них заключен. Поиск с помощью кавычек называется контекстным поиском.

Роль прописных букв

Прописные буквы при проведении поиска имеют особый статус. Вам ведь понятна разница между сочетаниями красная шапочка и Красная Шапочка? прописными буквами поисковые системы обращаются буквально, то есть разыскивают тексты, в которых слова записаны точно такими же буквами. Со строчными буквами все происходит демократичнее. Совпадения засчитываются и в том случае, когда в тексте стоит прописная буква, и в том случае, когда буква строчная.

поиск по словам:

+красная +шапочка

вернет результаты, в которых будут и красная шапочка, и Красная шапочка, ДЦ красная Шапочка, и Красная Шапочка.

Ир Другой стороны, поиск по словам:

И| +красная +шапочка Издаст гораздо более узкий результат: Красная Шапочка, — и все.

Поиск по заголовкам

Каждая Web-страница может иметь заголовок, если Web-мастер не поленился его создать. Когда мы разыскиваем Web-страницы с помощью поисковых систем, то по результатам поиска нам обычно выдается ссылка, в которой присутствует заголовок Web-страницы, если он есть. Если его нет, то обычно выдается одно-два предложения первого абзаца.

Многие поисковые системы позволяют разыскивать Web-документы по тексту, содержащемуся в заголовках. Такой поиск существенно уменьшает количество возвращаемых ссылок, но очень точно выводит на нужные мате­риалы. Например, если вам нужны данные для доклада о Солнечной сис­теме, имеет смысл искать не просто словосочетание Solar System (Солнечная система), а страницы, в которых это сочетание присутствует в заголовке. Командой такого поиска является title:, например:

title: Solar System или (лучше)

title: solar system

Поиск заголовков Web-страниц по команде title: поддерживают следующие поисковые системы:

AltaVista GoTo HotBot Infoseek MSN Search Northern Light

Snap

Поисковый каталог Yahoo! тоже имеет команду для поиска заголовков. Она записывается так:

t: solar system

Система Lycos разыскивает заголовки только в режиме расширенного поиска.

Поисковая система Aport 2000 имеет несколько альтернативных команд для поиска заголовков. Основная команда — title = . Примеры:

title = Солнечная система

t = Солнечная система

заг = Солнечная система

з = Солнечная система В поисковой системе Япс1ех команда поиска в заголовке записывается так:

$title (Солнечная система) а в поисковой системе Rambler — похоже, но без скобок, через двоеточие:

$title:Солнечная система

Поиск Web-узлов

Сам по себе поиск Web-узлов используется достаточно редко, но команды этого поиска часто применяют для сокращения числа ссылок, возвращен­ных другими методами и ограничения их одним Web-узлом или, наобо­рот, исключения некоего Web-узла из результатов поиска.

Одной из команд такого поиска является команда host:.Например, на поисковой системе Alta Vista команда host: microsoft.ru разыщет все Web-страницы, принадлежащие доменному имени mycrosoft.ru.

Эту команду обычно комбинируют с другими. Если, например, нас интересуют планеты солнечной системы, но мы уже сыты по горло трудами Национального управления по исследованию космического пространства

США (NASA), то сервер NASA можно исключить из поиска командой:

+solar + system -host: nasa .:

В команду можно включать не полное доменное имя сервера, а только его часть, например только имя домена. Так, если мы хотим обыскать только российские серверы, то можно использовать имя домена ru, например:

+cookies +host: ru

По этой команде мы узнаем, что пишут о маркерах cookies на российских Web-узлах.

Не все поисковые системы позволяют проводить поиск по Web-узлам, да

и команда поиска у них может быть различной. Вот список систем, кото­рые такой поиск выполняют:

Alta Vista host:

Hot Bot domain:

& f InfoSeek site:

MSN Search domain:

GoTo domain:

Snap domain:

Поисковая система Lycos выполняет поиск Web-узлов только в режиме расширенного поиска.
Поиск URL-адресов
Этот поиск очень похож на поиск Web-узлов. Суть и смысл его те же, только Команда другая — uri:. Эту команду поддерживают следующие поисковые службы:

AltaVista Infoseek

Northern Light
Поисковый каталог Yahoo! использует команду u:, а система Lycos реализует поиск URL-адресов с помощью команд расширенного режима. В России поисковая система Яndex использует команду #url=, после которой следует записать URL-адрес в кавычках. Поисковая система Апорт 2000 , обходится более простым синтаксисом, например url=www.intel.ru, а в поисковой системе Rambler команда должна начинаться с символа <$>, например так:

$uri: www.intel.ru
Поиск ссылок

Поиск ссылок бывает полезен владельцам Web-страниц и Web-мастерам. Он позволяет, к примеру, количественно оценить динамику популярности своей страницы регулярным контролем числа ссылок, которые к ней ведут. Типовая команда для такого поиска — link:.

Например, команда link: http://www.mywebsite.com/mypage/index.htm позволит выявить ссылки, которые ведут к титульной странице index, htm на Web-узле mypage, размещенном на Web-сервере www.mywebsite.com.

Команду link: поддерживают следующие поисковые службы:

AltaVista Infoseek Google

Некоторые поисковые службы поддерживают команду linkpage:

GoTo HotBot S MSN Search Snap

Как обычно, российские поисковые системы имеют свои особенности. Например. Апорт 2000 поддерживает четыре разных представления команды:

Link=

L=

Ссылка=

Сс=

Система Яndex поддерживает команду #link:, после которой адрес ссылки должен записываться в кавычках.
Средства расширенного поиска

Выше мы рассмотрели лишь десять методов формулирования задания на поиск, однако их достаточно для проведения 90% поисковых работ в 90% поисковых служб. Все рассмотренные выше методы являются методами простого поиска. Кроме средства простого поиска обычно поисковые службы предоставляют средства расширенного поиска. Эти средства позволяют более точно формулировать поисковое задание, но требуют определенного опыта и работают заметно медленнее. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд и рассчитаны на профессионалов. Удобство использования логических команд в частности связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного поиска — наиболее стандартными.
Команда OR

Логическая команда OR (ИЛИ) служит для формирования поискового зада­ния, состоящего из нескольких ключевых слов, если надо, чтобы разыс­киваемый документ содержал любые из этих слов в любой комбинации. Например, по команде solutions OR hints будут разысканы Web-страницы, содержащие решения к компьютерным играм (solutions) или подсказки к ним (hints).

Команду OR поддерживают абсолютное большинство основных поисковых служб, за исключением следующих:

Google Infoseek LookSmart Yahoo!

Службы Infoseek, LookSmart и Yahoo! по умолчанию выполняют поиск по принципу ИЛИ, если через пробел задано несколько ключевых слов, и поэтому нс нуждаются в этой команде. Лишь поисковая система Google вообще не имеет таких средств.

«Апорт 2000» позволяет использовать как английское ключевое слово OR, так н русское ИЛИ. Можно также использовать знак « | ». Система Rambler использует или слово OR, или знак « | », а система Яndeх — только знак « | ».

Команда AND

Логическая команда AND (И) служит для формирования поискового зада­ния, когда надо, чтобы разыскиваемый документ содержал одновременно все слова, введенные пользователем. Это аналог команды «+» простого поиска. Например, по команде свет AND луч будут разысканы все Web-стра­ницы, содержащие оба эти слова.

Команду AND поддерживают абсолютное большинство основных поиско­вых служб, за исключением следующих, которые используют знак «+»:

Google Infoseek LookSmart Yahoo!

Апорт 2000 позволяет использовать как английское ключевое слово AND, так и русское И, а также знаки «&» и «+». Система Rambler использует ключевое слово AND или знак «&», а система Япс1ех — знак «&» или пробел, если требу­ется одновременное присутствие слов в одном предложении, или пару знаков «&&», если требуется одновременное присутствие слов во всем документе.

Команда NOT

Логической командой NOT (HE) устанавливают исключения из результатов поиска, то есть это аналог рассмотренной выше команды простого поиска <• - ». Эту команду поддерживает большинство служб, за исключением:

Google Infoseek LookSmart Yahoo!
Системы AltaVista, Excite, Snap требуют специальной формы записи этой команды: вместо NOT в них следует давать команду AND NOT.

Наряду с командой NOT в системе Апорт 2000 разрешается использовать команду «НЕ», а в системе Rambler — команду «!». Интересна особенность системы Яndех. Она реализует логическую команду И НЕ, которая записывается значком «~», если относится к одному предложению и парой значков «~~», если относится ко всему документу.

Команда NEAR

Это одна из самых удобных команд расширенного поиска. Она позволяет совместить достоинства поиска по ключевым словам и контекстного поиска при глубоком поиске самые лучшие результаты возвращаются с помощью этой команды. Пример: поисковая команда Quake NEAR hints позволит разыскать документы, в которых присутствуют слова Quake и hints одновременна причем находятся поблизости друг от друга.

К сожалению, редкие поисковые службы поддерживают поиск с помощью команды NEAR. При этом у разных служб разное представление о том, что значит «близкое» размещение слов друг к другу:

AltaVista (в пределах 10 слов, жестко); Lycos (в пределах 25 слов, гибко); WebCrawler (в пределах 2 слов, гибко);

И Lycos, и WebCrawler позволяют управлять размером интервала, в котором разыскиваются ключевые слова. Для этого команду NEAR задают(параметром /#. Например, команда ночь NEAR/10 река позволит разыскат произведения, в которых есть описание реки ночью, если слова ночь и река отстоят друг от друга не более, чем на десять слов.

В российской поисковой системе Rambler аналогичная команда начинается со знака «$» и заканчивается двоеточием ($NEAR:). В поисковой системе Апорт 2000 расстояние между словами задается командой СЛ# (..., ..., ...), где вместо знака « # » следует подставить цифру или число, обозначающее предельное расстояние, а вместо многоточий — список ключевых слов. В поис­ковой системе Яndех расстояние задается в круглых скобках после дробной черты. При этом указать расстояния можно как «вперед», так и «назад» :

средство поиск/ (-2 4)

Такая команда позволит разыскать на только средства расширенного поиска, но и поисковые средства.

Вложение команд

Вложение команд позволяет создавать весьма сложные запросы. Оно выпол­няется с помощью круглых скобок ( ). Команда, стоящая в скобках, выпол­няется в первую очередь. Рассмотрим пример поиска решений или подсказок к компьютерной игре Diablo:

diablo AND (solution OR hint)

В этом случае сначала будут отобраны документы, в которых приводятся подсказки или решения для компьютерных игр, а потом из них будут выбра­ны те, в которых упоминается игра Diablo.

Использование круглых скобок для управления порядком исполнения зада­ния на поиск разрешается большинством крупнейших поисковых систем, за редким исключением:

Google Infoseek LookSmart Yahoo!

Выбор поисковой службы

Выбор средства поиска зависит от задачи. Есть задачи, для которых подхо­дят крупнейшие поисковые системы, но есть задачи, для которых неболь­шой список на пару сотен ссылок будет гораздо полезнее. Правда, его тоже надо еще разыскать, но это уже проще, поскольку если он существует не один год, то наверное хорошо известен поисковым системам.

Как проверить незнакомую поисковую службу

Лет пять назад лучшей считалась та служба, которая владела наибольшим индексом. Пока Web-страниц было немного, в результатах поиска можно было ориентироваться относительно легко. Тогда проверить незнакомую службу было очень просто — надо было набрать достаточно распростра­ненное слово, например Pentium, и сравнить, сколько ссылок на него дают разные поисковые системы.

Сегодня величина индекса уже не имеет того значения, как его качество, хотя принцип проверки остается тем же самым. Введите простое и понятное слово и посмотрите, насколько найденные Web-страницы соответствуют вашим ожиданиям. Если, например, при поиске по слову Шахматы поис­ковая система в качестве первой (самой важной!) ссылки выдает Web-стра-ннцу, посвященную скульптуре, то этой системе нужно еще какое-то время на адаптацию, прежде чем ею можно будет пользоваться

Реферативный поиск

Предполагается, что вам задана тема, которую надо осветить, но по ней нет никакой информации. Так обычно бывает, когда надо написать реферат, подготовить выступление, статью, отчет, справку и т. п. Часто реферат делают не по заданию, а «для себя», в порядке подготовки к другой, более крупной работе, например к написанию диссертации или книги.

В этом случае начинать исследование темы надо с поискового каталога. Это ничего, что в нем отражен только один миллион страниц — нам и этого много. Двух-трех страниц с содержательной информацией обычно бывает доста­точно, чтобы сделать свое дело. К тому же эти страницы тоже имеют полез­ные ссылки. Вы можете быть уверены в том, что лучшая часть сетевой информации в таких каталогах, как Yahoo! обязательно присутствует.

Например, ваша собака заболела демодекозом. Вы слышали, что болезнь эта неизлечимая, но интересно проверить, что по этому поводу говорят мировые светила. Вы можете получить сотни ссылок с помощью поискового указателя типа Alta Vista. Среди них, конечно же, будут ссылки на самого лучшего специалиста в мире по данному вопросу, но как их угадать? С помошью Yahoo! вы гораздо быстрее найдете его Web-узел.

Углубленный поиск

Углубленный поиск предполагает, что общее знакомство с вопросом уже ость, но нужны какие-то мелкие детали и тонкие нюансы. Поисковый ката­лог здесь может не помочь — слишком поверхностно его знание о ресурсах WWW. В этом случае надо использовать поисковый указатель, а лучше — не один. Однако для того чтобы отфильтровать информацию и сузить результаты поиска, надо применять специальные средства, в частности средства расширенного поиска (см. выше). Методы простого поиска могут дать слишком много побочной информации.

Каждый, кто является специалистом в какой-то области, знает ключевые слова, характерные для нее, а умение грамотно сформулировать задание на поиск достигается методом проб и ошибок. Допустим, вы считаете себя специалистом в области стратегических игр реального времени и с основ­ными достижениями в этой области уже знакомы. Допустим, вы хотите найти новую для себя информацию. Вряд ли Yahoo! даст то, чего вы не зна­ете — все это вы уже читали. Попробуйте с помощью системы Alta Vista сде­лать поиск по ключевым словам:

( realtime NEAR strategy) AND computer AND game

Это пример расширенного поиска. Он вернет ссылки на документы, в кото­рых присутствуют все эти слова и, более того, слово realtime находится рядом (NEAR) со словом strategy. В ответ на такой запрос вы получите немало ссы­лок. Но вы же специалист! Вы уже знаете основные ресурсы и сумеете в этом длинном списке выделить те ссылки, которые ведут к ранее неизвест­ным ресурсам.

Специальный поиск

Специальный поиск труден и в поисковых каталогах, и в поисковых ука­зателях. Если, например, вы занимаетесь физикой лазеров, то утонете в ссылках, ведущих к научно-фантастическим романам, в которых упомина­ются лазеры. Как специалисту, вам лучше всего пользоваться списками ссылок, составленными другими специалистами или небольшими поис­ковыми системами научных учреждений. А чтобы выйти на них, следует начинать с поискового каталога.

Выводы и рекомендации

Обобщая все сказанное выше, можно дать следующие рекомендации:

• для реферативного поиска пользуйтесь поисковыми каталогами;

• для углубленного поиска пользуйтесь поисковыми указателями;

• для специального поиска предварительно разыщите персональные списки ссылок, составленные коллегами;

• для поиска «скомпрометированной информации», например хаккерской, пользуйтесь рейтинговыми системами;

• при выборе службы для контекстного поиска в России лучше остано­виться на «Апорт 200» или «Яndех», а за рубежом альтернатив мало — лучше всего использовать поисковую службу Alta Vista.
1   2   3   4

Похожие:

Кафедра информатики и тсо курсовая работа iconКурсовая работа по дисциплине «Информатика и программирование»
Кафедра «Программное обеспечение вычислительной техники и автоматизированных систем»
Кафедра информатики и тсо курсовая работа iconКурсовая работа на тему : Формирование рынка ценных бумаг в Украине
Курсовая работа содержит 38 листов, 2 рисунка, 2 таблицы и было использовано 11 источников
Кафедра информатики и тсо курсовая работа iconКурсовая работа
Курсовая работа оформляется в виде электронного файла и прикрепляется к своей странице в системе мониторинга нир. Распечатывать работу...
Кафедра информатики и тсо курсовая работа iconКафедра технической теплофизики курсовая работа по гидравлике
Продолжить работу по созданию благоприятного психологического климата в классном коллективе
Кафедра информатики и тсо курсовая работа iconКурсовая работа по дисциплине Электромагнитная совместимость систем...
Курсовая работа состоит из 20 с, в которых содержаться: 3 рисунка, 3 таблицы, 6 формул и 4 ссылки на литературу
Кафедра информатики и тсо курсовая работа iconКурсовая работа по дисциплине «Предпринимательское право»
Курсовая работа имеет целью систематизацию, закрепление и расширение теоретических знаний, углубленное изучение и решение студентом...
Кафедра информатики и тсо курсовая работа iconКурсовой работы. Составитель: доцент Корляков А. С. Екатеринбург...
Курсовая работа самостоятельная работа студента, выполняемая в соответствии с типовой программой учебного процесса по подготовке...
Кафедра информатики и тсо курсовая работа iconКафедра социологии
Курсовая работа по дисциплине «Бухгалтерский учет» выполняется студентами в соответствии с учебным планом на завершающем этапе обучения...
Кафедра информатики и тсо курсовая работа iconРекомендации к оформлению курсовой и дипломной работы по истории искусства. Курсовая работа
Курсовая работа задание, которое выполняется студентами в определённый срок и по определённым требованиям. Защита курсовых работ...
Кафедра информатики и тсо курсовая работа iconПермский Государственный Технический Университет Кафедра мкмк курсовая работа
Задача о бесконечной ортотропной пластинке с эллиптическим отверстием. Анализ ндс вблизи отверстия
Кафедра информатики и тсо курсовая работа iconРоссийской Федерации Федеральное агентство по образованию социально-экономический...
Страны с «переходной» экономикой» (постсоциалистические) и социалистические страны
Кафедра информатики и тсо курсовая работа iconКурсовая работа является обязательным видом итогового контроля по...
Курсовая работа – это первый этап в самостоятельном теоретическом осмыслении материала, накопленного в ходе обучения в университете,...
Кафедра информатики и тсо курсовая работа iconКурсовая работа на тему «Открытый урок»
Данная курсовая работа выполнена для того, чтобы учителя русского языка и литературы могли использовать разработанные мною уроки...
Кафедра информатики и тсо курсовая работа iconКурсовая работа ‘’Синтез голографического изображения с помощью компьютера.’’
«Именно работы по цифровой голографии во многом стимулировали появление компьютерной оптики как самостоятельного научного направления...
Кафедра информатики и тсо курсовая работа iconКурсовая работа учебно-методическое пособие для студентов, обучающихся...
Курсовая работа: Учебно-методическое пособие / Автор составитель Е. М. Крупеня. М.: 30 с
Кафедра информатики и тсо курсовая работа iconКурсовая работа учебно-методическое пособие для студентов, обучающихся...
Курсовая работа: Учебно-методическое пособие / Автор составитель Е. М. Крупеня. М.: 30 с


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск