Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet





НазваниеWeb 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница8/30
Дата публикации29.11.2014
Размер5.03 Mb.
ТипРеферат
100-bal.ru > Информатика > Реферат
1   ...   4   5   6   7   8   9   10   11   ...   30

Тернистый путь прогресса

Синтаксис запросов к популярным поисковым системам в последнее время значительно упростился. Вместе с тем, качество откликов постоянно улучшает­ся, несмотря на лавинообразный рост ресурсов Сети.

Традиционные подходы к поиску, основанные на использовании логических операторов, потерпели крах одновременно с бумом Web-технологий. Первые скрипки в поисковых системах стали играть не инструменты индексирования баз данных и организации логического поиска, а новые семантические алгорит­мы. Можно признать, что пионером в этом стала компания Google, сделавшая ставку на ранжирование выдачи и алгоритмы, основанные на цитируемости.

Незавидна роль традиционных систем искусственного интеллекта в этой "семантической революции". Системы, основанные на базах знаний, в большин­стве своем не выдержали силы потока Internet-информации. При этом речь идет не столько об объемах, сколько о политематичности и динамике, т.е. о постоян­ном обновлении информации, которое, к тому же, не имеет очевидной тематиче­ской направленности и регулярности.

При этом возник новый класс систем, который все же позволяет справляться с проблемой "размерности" Сети. Как один из удивительных феноменов, сегодня можно рассматривать тот факт, что содержательные, семантически наполненные результаты формируются без непосредственного привлечения методов искусствен­ного интеллекта, объемных баз знаний и даже экспертов как таковых, лишь путем использования частотно-лингвистических и эвристических методов. И сегодня эф­фективно работают в основном системы, базирующиеся именно на таких методах.
2.13. Популярные сетевые информационно-поисковые службы

Безусловно, для обеспечения полноты поиска необходимо знать степень охва­та информационных ресурсов Internet поисковыми системами. Сегодня ведущи­ми по охвату информационных ресурсов Internet являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь тре­тью часть существующих Web-страниц. Количество поисковых серверов, охва­тывающих Internet, а не отдельные его части, ограничено несколькими десятка­ми. Лидерами здесь являются такие поисковые машины, как:

  1. http://www.google.com

  2. http://search.yahoo.com.

  3. http://www.ask.com

  4. http://www.alltheweb.com

  5. http://www.altavista.com

  6. http://www.lycos.com

Среди российских поисковых серверов особого внимания заслуживают три — это Hndex (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru). В Украине две лидирующие поисковые систе­мы: МЕТА (http://meta.ua) — по стабильной части украинского сегмента Се­ти, и UAport (http://uaport.net) — по новостной части.

i

2.13.1. Крупнейшие зарубежные службы

Google

В январе 1996 года будущие основатели Google, студенты Сергей Брин и Лар-ри Пэйдж, начали совместную работу над поисковой системой под названием BackRub. В сентябре 1998 года ими была основана компания Google. Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хотела подчеркнуть свое намерение индексировать и обрабатывать большие объемы информации.

К 2000 году служба Google заняла лидирующее положение на рынке сетевых по­исковых систем; трафик к ней непрерывно растет в течение шести лет. В 2002 году Google на короткое время отдала первенство по объему поискового индекса системе Alltheweb, но в настоящее время вновь заняла устойчивое первое место, охватывая свыше 4 млрд документов, и осуществляет более 200 млн поисковых операций в день. Поисковая машина Google позволяет искать как без учетов специфики ал­фавитов и языков, так и с учетом особенностей свыше 97 языков (рис. 2.6).

Компания является лидером поискового рынка во всем мире. В СП1А ее предпочитают 34,7% пользователей, тогда как в мире доля Google на рынке англоязычного поиска достигает 43,3%. Большинство пользователей службы на­ходятся за пределами США. Самым близким преследователем Google является компания Yahoo!, до недавнего времени также применявшая поисковую техно­логию Google, но в начале 2004 года сменившая ее на собственную систему.

Сегодня 95% всех поисковых операций в Сети в США осуществляется через эти две компании, Google и Yahoo!, либо напрямую, либо через другие сайты, ис­пользующие их технологию. Множество компаний используют поисковую тех­нологию Google в своих сервисах, например Интернет-провайдер America Online и российский холдинг Mail.ru.

Google позволяет проводить поиск в таких сегментах, как обычные Web-документы, изображения, телеконференции Usenet, новости, а также в собствен­ном каталоге.

Очень удобной функцией является cache. Благодаря этой функции пользова­тель может просмотреть проиндексированную страницу, даже если она удалена или сервер, на котором расположена страница, недоступен. Так, в середине 2002 года правительство КНР временно запретило доступ китайских пользователей к Google именно из-за наличия этой функции, поскольку система в полном объ­еме предоставила контент сайтов, зафильтрованный по политическим мотивам.

Yahoo! Search

Традиционно служба Yahoo! позиционировалась как развитый каталог Web-ресурсов. Однако в апреле 2003 года, после поглощения компании Inktomi и приобретения Overture, компания Yahoo! стала обладательницей всех основ­ных поисковых технологий на рынке, кроме технологии Google. В результате этой компании принадлежат такие поисковые службы, как Inktomi, Altavista и FAST. Сама YahooJ на базе технологий Overture и Inktomi разработала гло­бальную поисковую систему Yahoo! Search (http://search.yahoo.com) и пре­кратила использование на своем сайте поисковой системы основного конкурента — Google. (Примечательно, что Yahoo! останется одним из главных акционеров Google: ей принадлежит около 2,4% бизнеса конкурента.)

В новую поисковую систему (рис. 2.7) встроены функции по работе с инфор­мационными каналами в форматах XML/RSS. Кроме того, Yahoo! Search облада­ет уникальными технологиями борьбы со спамом, с помощью которых осущест­вляется фильтрация избыточных ссылок и поискового мусора. Помимо Web-страниц, с помощью Yahoo! Search возможен поиск изображений, новостей, то­варов. Естественно, возможен поиск и в собственном каталоге Yahoo!. Компания активно использует поисковую систему для привлечения дополнительных дохо­дов путем платного занесения ссылок в базу данных, размещения контекстной рекламы в результатах поиска, а также лицензирования поисковых технологий.

Коммерческая инициатива Yahoo! — Content Acquisition Program — позволя­ет владельцам сайтов добиться более полного индексирования своих ресурсов в Yahoo! Search и более оперативного обновления информации в поисковой базе данных. Content Acquisition Program предполагает включение информации в ба­зу данных на платной основе.

Само собой разумеется, что от бесплатного включения сайтов в базу данных поисковой системы Yahoo! также не отказывается. По словам вице-президента Yahoo! по поиску Тима Кадогана (Tim Cadogan), 99% ресурсов в базе данных Yahoo! Search будут индексироваться бесплатно. Однако никаких гарантий в случае бесплатного индексирования компания Yahoo! дать не может.

Ask Jeeves

Поисковая система Ask Jeeves (http://www.ask.com)— одна из лидирую­щих в области информационного поиска — обслуживает более 16 млн пользова­телей в месяц. Главной особенностью Ask Jeeves считается способность работать с запросами на естественном языке (рис.2.8). Кроме того, в результаты поиска попадает не только информация из автоматически обновляемой базы данных, но и ссылки, подобранные вручную.



Рис. 2.8. Ash.com один из самых популярных поисковиков в США

Система Ask Jeeves способна распознать некоторое количество популярных вопросов пользователей, таких, например, как расшифровка аббревиатур, указа­ния о том, как добраться в определенное место, даты праздников и т.д. Для по­иска информации на эти темы Ask Jeeves предоставляет специализированные интерактивные средства. В частности, если спросить о дате какого-либо празд­ника, то на первом месте среди результатов окажется именно ответ на данный вопрос. Запросы для поиска карт, изображений или новостей также распознают­ся автоматически. Очень часто, вместо того чтобы переходить на вспомогательные страницы поиска с помощью закладок, достаточно набрать запрос на естествен­ном языке. Например, в ответ на запрос map of Russia (карта России) на страни­це результатов выводятся сначала картинки, а затем уж и обычные ссылки.

В свое время компания Ask Jeeves приобрела компанию Теота (http://www.teoma.com) и внедрила у себя одноименную поисковую техноло­гию. Поисковая технология Теота использует в качестве критерия релевантно­сти принцип, аналогичный используемому в Google, — число ссылок на данный ресурс с других страниц. Однако Теота при этом учитывает еще и тематику от­дельных сайтов, ссылающихся на данную страницу, что обеспечивает большую точность и избирательность поиска.

Вице-президент управления производством компании Ask Jeeves Джим Лан-зоне так охарактеризовал коммерческую деятельность службы: "Наша компания извлекает прибыль из размещения рекламы. Существуют три основных способа размещения рекламы: графический (рекламные баннеры), оплачиваемое разме­щение (спонсорские ссылки) и новая программа, получившая название «Paid Inclusion» (плата вносится за включение сайта в индекс поисковой системы)".

Недавно поисковая система Ask Jeeves объявила о внедрении локального поиска, лицензировав соответствующие базы данных у компании CitySearch. Компания Ask Jeeves является партнером Google как поставщик оплаченных рекламных ссылок.

По информации Nielsen NetRatings по состоянию на июнь 2004 года, как отме­чает SearchengineJournal, Ask Jeeves является девятым по популярности сайтом в американской части Internet с количеством уникальных посетителей более 32 млн.

Alltheweb

Поисковая служба Alltheweb была основана в Норвегии в 1997 году компани­ей Fast Search and Transfer. В 1999 году в результате партнерства с компанией Dell был создан поисковый сервер http://www.alltheweb.com (рис. 2.9). В 2002 году на некоторое время была достигнута главная цель поисковой службы — создана самая большая база данных Web-документов объемом свыше 2 млрд записей. Но позже первенство все же было упущено.

Сегодня поисковая технология Alltheweb, получившая название Fast, счита­ется наиболее близкой по своим возможностям к Google, признанной лидером среди сетевых ИПС. Alltheweb отличается высокой скоростью, время ее ответа на поисковый запрос не более 0,05 секунд. Система Alltheweb обеспечивает поиск Web-документов, новостей, изображений, видео, аудио,-файлов на FTP-серверах.

В начале 2003 года компания Overture Services Inc., специализирующаяся на размещении рекламы в результатах поиска, приобрела службу Alltheweb у ком­пании Fast Search and Trans. Сама же компания Overture с октября 2003 года принадлежит Yahoo!.

AltaVista

Служба AltaVista (http://www.altavista.com или http://www.av.com) появилась в11995 году и вначале принадлежала компании Digital Equipment (прежний адрес службы http://www.altavista.digital.com). После этого AltaVista перешла компании Compaq, а затем выделилась в отдельную фирму. В апреле 2003 года была куплена компанией Overture Services Inc., принадлежа­щей в настоящее время Yahoo!. Преимущество этой системы — развитые, мощные средства сложного поиска. Одно из самых слабых мест системы — недостаточная актуальность ее базы данных. Со страниц сервера, кроме поиска HTML-файлов, возможен поиск графических изображений, музыкальных произведений в фор­мате МРЗ, видеоклипов, а также текущих новостей (рис. 2.10).

AltaVista была и остается одной из самых популярных поисковых служб. "Мы считаем, что AltaVista — это по-прежнему очень сильный брэнд, у которого есть своя группа пользователей", — заявил вице-президент по инжинирингу Yahoo! Пху Хоанг. По словам Хоанга, AltaVista рассматривается как своеобраз­ный полигон для испытания новых поисковых технологий. По его словам, "применение найдется и для других поисковых систем, ставших в последнее время собственностью Yahoo!".

Lycos

Информационно-поисковый сервер Lycos (http://www.lycos.com) существу­ет с мая 1994 года и является старейшей, представленной в Internet поисковой системой с широким кругом пользователей. Основатели службы Lycos — Carnegie Mellon University и Lycos Inc. Базовая страница Lycos, кроме интерфей­са самой поисковой системы, содержит около 20 справочников (рис. 2.11). Пре­дусмотрен режим расширенного поиска с использованием операций И, ИЛИ и НЕ при выборе зоны поиска (заглавие, адрес, ссылка, весь текст), а также работы со словосочетаниями. В системе имеется возможность поиска в HTML-документах, новостях и в электронных магазинах.

30 октября 2000 года, на пике бума "доткомов", служба Lycos была куплена испанской компанией Terra Networks. В августе 2004 года служба была переку­плена корпорацией Daum, специализирующейся на коммуникациях и смежных сферах и содержащей самый крупный Internet-портал в Южной Корее.

2.13.2. Службы поиска в российском сегменте Сети

Япс1ех

Летом 1996 года руководство и разработчики этой поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание при­кладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий. Тогда в Internet и появился "Hndex". Поисковая машина Yandex.Ru была анонсирована компанией CompTek в сентябре 1997 года. Слово "Япс1ех" было придумано за несколько лет до этого и означает "Языковой index", или, если по-английски, "Yandex" — "Yet Another indexer".

Основными особенностями Yandex.Ru были и остаются проверка уникально­сти документов (исключение копий в разных кодировках), учет морфологии раз­личных языков, поиск с учетом расстояния, оценка релевантности (рис.2.12).

Сегодня Япс1ех представляет собой полнотекстовую поисковую систему, обес­печивающую поиск в таких сегментах русскоязычного Internet, как Web-документы, изображения, товары и услуги (маркет), новости, собственный каталог.

В марте 2004 года в Hndex были реализованы новые поисковые возможности. По словам разработчиков, система теперь может учитывать социальную структуру Сети — она умеет отличать мнение людей от технической, вспомогательной и рекламной информации, т.е. лучше распознавать, какой ресурс является авто­ритетным в сваей области. Япс1ех автоматически определяет, в каком городе на­ходится компьютер, с которого поступил запрос, и, если уточнение по региону имеет смысл, предлагает повторить поиск, ограничив его сайтами данного ре­гиона. В системе реализована очистка результатов поиска от дубликатов. Поль­зователь избавлен от повторения в списке найденного почти одинаковой инфор­мации. Поиск поддерживает шесть языков: к русскому и английскому добавились украинский, белорусский, французский и немецкий. Язык докумен­тов и сайтов определяется автоматически, а ограничить область поиска нужным языком можно в настройках или при расширенном поиске.

Летом 2001 года сайт ЯпЫех, согласно данным исследовательских компаний Комкон-2 и Gallup Media, стал самым большим ресурсом в Рунете по объему ау­дитории. 5 ноября 2002 года компания Япс1ех вышла на самоокупаемость.

Сегодня ежедневная аудитория Япс1ех (включая зарубежных пользователей) составляет около двух миллионов человек, ежемесячная — более 12 миллионов.

Rambler

В 1996 году программист Дмитрий Крюков написал уникальную российскую по­исковую систему для ресурсов Internet, которая сразу же была введена в эксплуата­цию по адресу http://rambler.ru. Со временем был образован Internet-холдинг Rambler, который в настоящее время занимает одну из ведущих позиций в России. Поисковая машина Rambler работает с учетом морфологии русского и английского языков, сама определяет тематику запросов (например, запрос, в котором упомянут "амидопирин" или "клиника", автоматически распознается как "медицинский").

В июне 2003 года компания Rambler запустила новую версию поисковой сис­темы, которая отличается высокой скоростью поиска и оперативностью обновле­ния индекса. Rambler понимает живой язык, опознает общепринятые сокраще­ния и аббревиатуры (рис. 2.13).

В настоящее время поисковая машина Rambler реализует полноценную лин­гвистическую поддержку уже трех языков — русского, английского и украин­ского. В системе реализован механизм ассоциаций, который помогает пользова­телям быстрее и точнее формулировать свои запросы. Так, после выполнения поиска по запросу пользователя перед ним открывается страница, на которой найденные документы расположены в порядке убывания релевантности, а также появляется строка "У нас также ищут". В этой строке приведено несколько слов и словосочетаний, ассоциативно связанных с исходным запросом. Например, на слово "релевантность" в строке "У нас также ищут" выдаются результаты "толковый словарь, словарь релевантность, словарь иностранных слов, релевант­ный ... еще". Если щелкнуть мышью на слове "еще", отображается целый блок ассоциаций, более развернутый. Щелкнув на любом слове из списка и уточнив тем самым запрос, пользователь может продолжить поиск.

Апорт

Поисковый сервер Апорт, принадлежащий Golden Telecom Inc., появился в Се­ти в 1996 году. В октябре 2000 года официально был представлен "Апорт 2000". Оригинальной особенностью системы Апорт является учет "ранга страницы", ко­торый характеризует ее популярность. Он вычисляется по количеству ссылок на ресурс со страниц других Web-сайтов. Обработка запроса при этом ориентирует­ся на гипертекстовую структуру Сети. Это — реальный пример использования коллективного разума владельцев отдельных Web-сайтов. Система ранжирова­ния результатов поиска Page Rank учитывается с весовыми коэффициентами: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного, т.е. разработчики Апорта удачно использовали некоторые идеи, впервые реализован­ные в системе Google. В конечном итоге при выдаче результатов поиска в Апорт одними из первых выдаются сайты, название которых в службах реальных имен является синонимом со словами запроса или совпадает с ними (рис. 2.14).

Поиск в системе Апорт осуществляется в таких сегментах Internet, как Web-сай­ты, рефераты, товары, работа, знакомства, МРЗ, новости, энциклопедия "Кругосвет".

У системы Апорт есть ряд ключевых особенностей — в качестве результатов поиска она предоставляет не разрозненный набор страниц с разных сайтов, а достаточно осмысленный их список, причем часто — с названием и описанием.

2.13.3. Крупнейшие украинские службы

МЕТА

Украинская поисковая система МЕТА (http://meta.ua) была основана в 1998 году. С 2001 года МЕТА работает на новом поисковом ядре, создание ко­торого стало возможным благодаря участию в проекте компании SigniaBleyzer.

Алгоритмы вычисления меры соответствия документов запросу в системе МЕТА учитывают не только количество слов в документе, но и частоту этого слова во всем обрабатываемом пространстве документов, близость и порядок слов, раз­личные признаки форматирования. В системе МЕТА не используется технология "стоп-слов". Разработчиками предполагается, что это приближает систему к обработ­ке запросов на естественном языке. Например, при запросе "крем от загара" боль­шинством поисковых систем предлог "от" не будет учитываться при поиске, и в пер­вых результатах будут выданы документы со словосочетанием "крем для загара". Система МЕТА обеспечивает возможность поиска с учетом закономерностей измене­ний русских и украинских слов. Результаты поиска в МЕТА могут быть представле­ны как в традиционной форме, так и сгруппированными по сайтам (рис. 2.15).

Система МЕТА позволяет искать по таким сегментам, как Web-сайты, ново­сти, реестр (каталог системы), прайс-листы, рефераты и книги.

UAport

Интернет-холдинг UAport (http://uaport.net), созданный в 2001 году, объеди­нил основные сетевые проекты компании ElVisti. UAport полностью включил в свой состав поисковую систему ElVisti (http://el.visti.net), первую из украинских поисковых систем, которая была представлена в Internet с 1997 года (рис. 2.16).

В качестве программного ядра в UAport используется полнотекстовая инфор­мационно-поисковая система InfoRes, обеспечивающая поиск с учетом логиче­ских операторов и оператора контекстной близости (с возможностью задания расстояния между отдельными словами).

В Интернет-холдинге UAport получили развитие и новое современное пред-тавление самые популярные поисковые службы ElVisti, которые стали основой юрмирования таких разделов:

  1. Net.UAport.net — информационно-поисковая система по украинским Web-ресурсам;

  2. Каталог.UAport.net — тематический и региональный каталоги Web-ресурсов;

  3. HoBocTH.UAport.net — раздел, в котором благодаря возможностям техно­логии InfoStream(r) доступна (в том числе и в формате RSS) новостная лента объемом свыше 20 000 сообщений в сутки из сотен информацион­ных источников;

  4. Медиа.UAport.net — раздел, в котором в свободном доступе представлены информационные материалы украинских СМИ;

  5. HT.UAport.net — раздел информационных технологий — "вертикальная" ин­формационно-поисковая система по тематике информационных технологий;

  6. Бизнес.UAport.net — основой данного раздела является поисковый прайс-каталог по товарам и услугам, охватывающий данные свыше 15 000 фирм.

2.14 Поиск информации в корпоративных сетях

На жестких дисках отдельных компьютеров или на серверах корпоративной сети накапливаются огромные массивы документов, навигация в которых по по­нятным причинам затруднена. Для обеспечения комфорта работы с такими мас­сивами документы обычно пытаются классифицировать, распределить по тема­тическим папкам или каталогам [18]. Эта процедура трудоемкая и, что самое главное, не исключает возможности внесения дополнительных ошибок.

Понятно, что создать информационную среду, инкапсулирующую разнород­ные объекты, непросто. Естественным выходом из этой ситуации оказались пол­нотекстовые информационно-поисковые системы, получившие широкое распро­странение в Internet. В отличие от Сети, где данные в основном представлены как HTML-файлы, поиск в корпоративной сети производится в другой среде [5]. Ведь в этом случае преимущественно используются форматы офисных приложе­ний и систем документооборота. Наряду с поиском в корпоративной сети, боль­шое значение приобретают задачи группировки тематически близких докумен­тов, автоматического реферирования, перевода, выявления ключевых понятий, проведения нечеткого поиска.

2.14.1. Популярные ИПС

Рассмотрим некоторые популярные системы поиска для корпоративных сетей. mnoGoSearch

Универсальная поисковая система mnoGoSearch (nmogosearch.org) предна­значена для Internet- или intranet-серверов. Она индексирует информацию, ко­торая сканируется по локальным дискам или в соответствии с протоколами HTTP, FTP, NNTP. Система работает с документами в форматах .html, .txt, .doc, .pdf. В запросах воспринимаются различные формы слов и логические операторы. Результаты запросов можно настраивать с помощью html-шаблонов. Система mnoGoSearch может хранить данные во всех популярных реляционных СУБД. Существуют версии для Linux и Windows (рис. 2.17).

"Ищейка"

Полнотекстовая персональная поисковая система "Ищейка"

(http://www.isleuthhound.com) обладает возможностями поиска документов и файлов на русском и английском языках (рис. 2.18). Она воспринимает запро­сы со всеми словоформами и с любыми падежными окончаниями (т.е. поддер­живает морфологический поиск) и способна автоматически распознавать основ­ные типы кодировки текста — ASCII, ANSI, Unicode. В "Ищейке" заложена возможность просмотра краткой выдержки (аннотации) из найденного докумен­та. Предполагается работа с документами форматов .txt, .rtf, .doc, .html.

При первом запуске на основе заданного массива документов, "Ищейка" создает и индексирует базу данных, которая представляет собой зону поиска, состоящую из каталогов. В пределах этой зоны и производится поиск докумен­тов и файлов.

Система допускает организацию собственных хранилищ данных из неструк­турированной информации, создание до пятидесяти зон поиска с индексировани­ем неограниченного количества файлов, накопление "популярных" запросов и т.п.

Серверный "Следопыт

Серверный "Следопыт" (www.medialingua.ru) — мощная поисковая система, предоставляющая возможность поиска нужной информации на отдельном Web-сайте или сервере корпоративной интрасети (рис. 2.19). Поиск осуществляется по содержанию документов и их атрибутам, а также по размеру, имени, дате создания, по отправителю или получателю почтового сообщения. Программа может обрабатывать файлы практически всех форматов: .doc, .rtf, .html, .xls, .pdf, .zip, .pst, а также папки (как сами сообщения, так и вложения) Microsoft Outlook. В системе реализован морфологический поиск, т.е. для каж­дого слова учитывается вся парадигма. Фильтр для формата .pdf при работе с русским языком является в "Следопыте" одним из лучших.

Полнотекстовый поиск под Microsoft SQL Server 2000 в "Следопыте" реализо­ван для русского и английского языков (подразумевается возможность динами­ческого отслеживания изменений в базе данных и обновления полнотекстового индекса Change Tracking, которая появилась в Microsoft SQL Server 2000).

Data Search

Основное назначение программы Data Search 6.0. (www.dtsearch.com) — по­иск информации на локальном компьютере (рис. 2.20). Система имеет англий­ский интерфейс и работает под управлением операционных систем Windows 9x/Me/NT/2000. Она состоит из следующих модулей: dtSearch Desktop 6.0 — главный интерфейс программы, dtSearch Indexer — индексатор документов, dtSearch Index Library Manager — менеджер библиотек индексов, dtSearch CD Wizard — индексатор данных, находящихся на CD. Data Search позволяет созда­вать один общий индекс для нескольких компьютеров в локальной сети.

Система поддерживает поиск документов разных типов, включая .zip, .rtf, .pdf, .html, .xml, документы Microsoft Office (Word, Excel, PowerPoint) и WordPerfect. Поддерживается кодировка Unicode. Допускается несколько ви­дов поиска, а именно морфологический и фонетический, а также поиск синони­мов и слов с орфографическими ошибками.

CROS

Система полнотекстового поиска CROS 4.01 (www.cronos.ru) предназначена для накопления и обработки текстовых документов различных форматов (рис. 2.21). Хранение документов в базах данных системы обеспечивает умень­шение в два-три раза необходимого объема дисковой памяти. Предусмотрено ав­томатическое определение форматов документов Microsoft Word версий 6.0, 7.0, 97, 2000, а также документов формата .rtf и .html. Помимо этого определяет­ся тип кодировки (DOS, Win, КОИ8, Unicode).

Система CROS обеспечивает навигацию по найденным документам, способна работать в локальной сети и поддерживает защиту информации от несанкционированного доступа. При этом отсутствуют ограничения на количество иерархиче­ских областей поиска, осуществляется сортировка найденных документов по да­те, имени, типу и атрибутам, которые задаются самим пользователем.

Greenstone

Система Greenstone (www.greenstone.org) представляет собой Open Source-решение для создания "цифровых библиотек", поддерживаемое ЮНЕСКО (рис. 2.22). Естественно, она включает поиск с предварительным индексировани­ем по документам всех популярных форматов и, прежде всего, .doc и .pdf, ко­торые могут быть представлены и в заархивированном виде. Система создает ка­талог документов, конвертирует их в html-формат, а затем обеспечивает удаленный доступ к библиотеке посредством браузера.

Google Search Appliance

Программно-аппаратный комплекс Google Search Appliance обеспечивает по­иск документов в рамках корпоративных сетей. Джон Пискителло, менеджер Google по продуктам, определил эту систему как "естественный шаг для компа­нии, которая постоянно стремится предложить пользователям новые способы доступа к информации". По его словам, пришлось учитывать возрастающие тре­бования, включая поиск в границах, определенных корпоративными межсете­выми экранами, и это заставило Google разработать новые решения.

Поисковые устройства этой компании используют в своей работе армия США, администрация калифорнийского города Сан-Диего, фармацевтический гигант Pfizer, корпорации Boeing, Procter & Gamble, Cisco Systems и др.

Поисковый механизм комплекса обеспечивает работу более чем с двумястами типами файлов (естественно, включая .html, .pdf, .doc). При этом осуществ­ляется учет синонимов при полнотекстовом поиске по запросам и возможна ра­бота более чем с пятьюдесятью естественными языками.

Google Search Appliance поддерживают функции поиска защищенной инфор­мации, находящейся на закрытых серверах. При этом пользователь может обра­титься к защищенному документу лишь при наличии у него соответствующих полномочий доступа.

2.14.2. Новый уровень обработки сетевой информации

RetrievaWare

Информационно-поисковая система RetrievaWare (www.convera.com) пред­ставляет собой средство полнотекстового и атрибутивного поиска (рис. 2.23). К документам, с которыми способна работать система Retrieval Ware, относятся тексты в различных форматах и кодировках, электронные таблицы, базы дан­ных, почтовые сообщения и т.п. — всего более двухсот форматов. Система обла­дает дополнительным инструментарием, позволяющим настроиться на поддерж­ку документов специфических форматов. Объем архива при необходимости может измеряться терабайтами.

Архитектура системы RetrievalWare позволяет ей работать как через локаль­ную корпоративную сеть, так и через Internet. Серверная часть системы поддер­живает все распространенные серверные платформы, а клиентским местом мо­жет быть любой компьютер, имеющий графический Web-браузер. Система обладает возможностью работы в различных многопроцессорных и распределен­ных многосерверных конфигурациях.

Попытки анализа больших; объемов неструктурированных или слабо структу­рированных данных очень часто усложняют процесс принятия решений. Если широкий спектр поисковых систем достаточно легко справляется с "простым" полнотекстовым поиском, то для подобного анализа нужны технологии совсем другого типа, представленные системами извлечения знаний (Knowledge Mining). Стоимость внедрения таких систем составляет сотни тысяч долларов.

Итак, основная задача — выявление знаний в массивах неструктурированных данных с целью их использования в процессе принятия решений. Чтобы добить­ся этого, необходимо сделать информацию доступной для анализа, выявить классы понятий и сопоставить их с документами.

Как правило, информационные массивы преобразуются такими системами в хранилища данных (Data Warehouse) или корпоративные порталы знаний — интегрированные информационные репозитарии, доступные для оперативного обобщения и анализа. Часто такие хранилища являются самообучаемыми за счет использования статистических байесовских алгоритмов. Последние обес­печивают адаптацию критериев группирования документов. Большую роль иг­рают и "отклики" реальных пользователей.

За счет предварительной обработки информации, проводимой на этапе фор­мирования хранилищ данных, значительно повышается эффективность таких процессов, как интеллектуальный анализ данных, глубинный анализ текстов и обнаружение новых знаний в текстах. Как неожиданную производную этих про­цессов можно назвать появление средств, упрощающих поиск для пользователя, таких как реализация нечеткой логики запросов (нечеткого поиска), средств по­строения функциональных информационных портретов, визуализации семантиче­ских связей и т.д. В свою очередь, эти возможности напрямую связаны с распо­знаванием образов, поиском мультимедийных данных, анализом речевого ввода.

Я ndex. Server

Hndex.ServerStandard 3.2 (http://company.yandex.ru/technology/products/yandex-server.xml) представляет собой системный сервис для организации полнотекстового поиска информации в заданной коллекции документов. Он предназначен для работы с текстами как в локальной, так и в глобальной сети. Система не содержит ли­цензионных ограничений на число индексируемых документов, их размер или суммарный размер индекса и позволяет индексировать документы как через HTTP-соединение, так и чтением локальной файловой системы. Hndex.Server Standard представляет результаты поиска во встроенном дизайне.

Hndex.Server 3.0 состоит из двух основных логических частей: индексатора и по­искового сервера. Индексатор анализирует документы, среди которых должен прово­диться поиск, и сохраняет информацию о них в специальных индексных файлах.

Обычно используется режим работы, при котором не создаются заново ин­дексные файлы, а отрабатывается информация только по изменившимся, новым и удаленным документам. Поисковый сервер после запуска находится в посто­янном ожидании запросов, которые могут быть представлены на естественном языке. Поиск может осуществляться с учетом морфологии языка, в одной или нескольких коллекциях документов.

Hndex.Server 3.2 поддерживает форматы .html, .xml, .rtf, .pdf, .doc, .mp3 и многае другие. Содержимое индексируемых документов также может быть получено при обращении к произвольной базе данных, в частности MySQL и MS SQL Server.

Система предоставляет возможность кластеризации результатов поиска (группирует найденные документы в соответствии с внешними атрибутами), а также ранжирует результаты (сортирует документы по степени соответствия запросу).

InfoStream

Поиск в корпоративной сети, реализуемый на UNIX-платформах, выполняет­ся с помощью корпоративного решения на основе технологии мониторинга кон­тента InfoStream (infostream.com.ua). Эта технология позволяет обрабатывать данные в форматах Microsoft WORD (версии 2000, 97, 6), .rtf, .pdf и всех тек­стовых форматах (простой текст, .html, .xml). Системы на основе InfoStream в настоящее время функционируют под управлением операционных систем FreeBDS, Linux и Solaris.

На основе InfoStream создана система управления документальным информа­ционным хранилищем, в котором реализуется интегрированная информационно-поисковая среда на основе Web-решений. С ее помощью обеспечивается доступ к электронным документам, размещенным на компьютерах в корпоративной се­ти, в режимах поиска, навигации по компьютерам/каталогам, просмотра как >ригиналов документов, так и их текстовых образов. Комплекс обеспечивает ин­терактивный полнотекстовый поиск информации по сложным запросам, состоя-цим из ключевых слов, логических и контекстных операторов, разнообразное >анжирование результатов поиска. Предоставляется возможность уточнения ре-:ультатов поиска с помощью механизма "информационных портретов".

1.14.3. Порталы знаний

По данным недавно проведенного исследования, сотрудники компаний могут ратить до трех часов в день на поиски информации, которые зачастую оказы-аются безрезультатными, вследствие чего тысяча крупнейших фирм США еже-одно теряет 2,5 млрд долларов.

Именно для решения этой проблемы созданы и продолжают создаваться кор-оративные поисковые системы И порталы знаний [3] как среды для эффектив-ого поиска знаний и обмена ими, инструменты, которые представляют собой эвокупность технологических решений для выявления, хранения, классифика-ии, обработки и распространения знаний.

В настоящее время широко используется система IBM Lotus Discovery erver — программный продукт, предназначенный для управления знаниями корпоративных порталах, для нахождения экспертов, идентификации связей общего управления интеллектуальным капиталом (рис. 2.24). Lotus Discovery ?rver является логическим продолжением ранее популярного программного эодукта Lotus Raven — системы построения корпоративных порталов знаний.

Благодаря возможности анализа информации, хранящейся в организации, Lotus Discovery Server в состоянии указывать области экспертных знаний и подразу­меваемые знания сотрудников, находя и организуя динамические связи между информацией, людьми и их деятельностью.

Современные порталы знаний [9] обеспечит решение целого комплекса задач, среди которых — сбор информации об объектах, определение связи между объ­ектами, выявление тенденций. Функциональные возможности таких систем по­зволят проводить многофакторные динамические исследования, выполнять ди­агностику и прогнозирование развития ситуации. В дополнение к возможностям глубинного анализа данных и текста, в порталах знаний широко используется человеческий опыт — знания экспертов в процессах выявления, сохранения и эффективного использования знаний.

Около пяти лет назад по заказу группы аналитиков Гарвардского университе­та российские разработчики из "Инфорус" создали систему Avalanche, которая в процессе поиска формирует модель предметной области в виде набора "умных папок", каждая из которых знает, что в нее должно попадать. Наполнением па­пок занимается специализированный робот, который запускается с компьютера "хозяина" и приносит только то, что у него просили. Это одно из первых эффек­тивных решений на базе современной технологии глубинного анализа текстов.

Очень близка по идеологии и технология компании Vivisimo, в рамках кото­рой результаты Internet-поиска распределяются по папкам-категориям, которые система создает автоматически. Достигается это за счет лексического сопостав­ления запросов и результатов поиска.

Естественно, свое применение Vivisimo сразу же нашла в корпоративных се­тях и порталах знаний. Рауль Валдес-Перес (Raul Valdes-Perez), один из учреди­телей Vivisimo, сравнил систему с очень умным библиотекарем, который мгно­венно находит нужную книгу в море неупорядоченной информации.

2.15. Поисковые программно-аппаратные комплексы

Многим корпоративным пользователям необходим оперативный доступ к полным базам данных определенных информационно-поисковых систем, отве­чающих их информационным потребностям, что требует создания специального механизма локального копирования (кэширования) баз данных ИПС. Одной из первых эту ситуацию почувствовала известная своим поисковым сервисом аме­риканская компания Google, поисковый механизм которой заинтересовал ряд корпоративных пользователей. Выйдя на рынок с аппаратным поисковым серве­ром Google Search Appliance [46], компания стала пионером в новой области — создании кэширующих информационно-поисковых серверов. Устройство Google Search Appliance предназначено для подключения к сетям предприятий и реали­зует функции поиска информации как внутри этих сетей, так и в Internet. Это небольшое сетевое устройство (недорогой сервер), оснащенное программным обеспечением Google, позволяет находить на корпоративных серверах различные документы, начиная от сообщений электронной почты и заканчивая программ­ными кодами. Оно позволяет находить документы HTML, PDF, PostScript, Microsoft Office и еще приблизительно двухсот других форматов.



В числе иных особенностей Google Search Appliance отмечаются функции кэ­ширования поисковых страниц, сервера-посредника, группировки результатов поиска, поддержки 28 языков и метатегов. Кроме того, сервер обладает доста­точно широкими возможностями администрирования. По заявлению компании, особенностью Google Search Appliance является весьма гибкая настройка по­иска, благодаря которой заказчики могут задавать его параметры в соот­ветствии со своими потребностями. Google Search Appliance предлагается в двух моделях — GB-1001 для малых и средних фирм (от 20 тыс. долларов; охват до 150 тысяч документов) и GB-8008 для крупных корпораций (250 тыс. долларов; "просматривает" миллионы документов (рис. 2.25)).

Компания Google со своим аппарат­ным решением вышла на рынок, на ко­тором уже имеются со своими про­граммными системами такие компании, Рис. 2.25. Линейка моделей Google Search как Verity, Ask Jeeves и Altavista. Appliance

Google отличается от них тем, что предлагаемая ею поисковая система — это не только программа, но и устройство, которое может устанавливаться за кор­поративный брандмауэр и которое можно настроить на поиск документов во внутренней базе данных.

Google сразу же смогла продать несколько своих устройств, причем среди первых его заказчиков числится корпорация National Semiconductor. Поисковая машина выпускается в двух версиях. Для сравнения, аналогичная продукция Altavista стоит от 30 тысяч долларов, и такая корпоративная поисковая система способна просматривать от 30 тысяч документов и, теоретически, до бесконечности.

Еще одной известной информационно-поисковой системой, реализованной в виде аппаратного решения, способного хранить в своем кэше свыше миллиона документов, является ThunderStone Search Appliance (последняя версия 5.0., http://www.thunderstone.com). Эта система позволяет хранить и индексиро­вать данные, получаемые по протоколам HTTP, HTTPS, FTP, Gopher или просто из файлового сервера локальной сети.



Рис. 2.26. Одноюнитовый сервер ThunderStone Search Appliance

В Украине в Информационном центре "ЭЛВИСТИ" разработана технология ав­томатического мониторинга новостей в Internet InfoStream. Эта технология обес­печивает сканирование информации в режиме реального времени из нескольких сотен источников — украинских и зарубежных Web-сайтов сети Internet.

Для корпоративных пользователей на основе технологии InfoStream построе­но аппаратно-программное решение InfoStream Port, которое обеспечивает дос­туп к базам данных оперативной и ретроспективной информации в корпоратив­ной сети. Программно-технологическое обеспечение InfoStream Port включает как компоненты утилиту обмена данными с информационным хранилищем (кэшем) ElVisti и полнотекстовую информационно-поисковую систему InfoReS. Информационное хранилище способно хранить и обеспечивать интерактивный доступ к более чем 10 млн документов, размещенных на одноюнитовом сервере Prime LAN 1900 на базе процессора Intel Pentium IV (рис. 2.27).

Информационное обеспечение системы у корпоративного заказчика строится на основе использования информационного кэша, формируемого на технической площадке провайдера. Система InfoStream Port работает по такой схеме:



• информация в соответствии с регламентом поступает из кэша информаци­онного провайдера ElVisti на сервер InfoStream Port;


Рис. 2.27. Корпоративное решение InfoStream Port

  1. на сервере происходит формирование и индексирование оперативных и ретроспективных баз данных;

  2. со стороны корпоративных пользователей обеспечивается доступ к этим базам данных через Web-интерфейс.

Благодаря высоким поисковым характеристикам, оперативности доступа к информации со стороны корпоративного пользователя в сочетании с невысокой ценой (менее 10 тыс. долларов), это решение является полезным инструментом в работе информационно-аналитических служб.

3

1   ...   4   5   6   7   8   9   10   11   ...   30

Похожие:

Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconРабочая программа дисциплины «Web-дизайн»
Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма по формированию навыков безопасного поведения на дорогах...
Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПлан урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»...
Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнтернет-технологии и Web-дизайн
...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнформатики и радиоэлектроники
«Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconФакультет информационных технологий
Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма элективного курса по информатике и икт «Создание Web-сайтов»
Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПроекта: Разработка Web-приложений
Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon99 сайтов с картинками
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconТворческий проект
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИстория россии
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconМатериально-техническое обеспечение
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИзучение информатики в старшей школе направлено на достижение следующих целей
В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПриложение №1 Исторические стили в интерьере
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconАдреса патентных ведомств и других бд в internet
В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПоложение об учебном кабинете начального образования общеобразовательной школы
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск