Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet

Скачать 5.03 Mb.

Название	Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница	8/30
Дата публикации	29.11.2014
Размер	5.03 Mb.
Тип	Реферат

100-bal.ru > Информатика > Реферат

1 ... 4 5 6 7 8 9 10 11 ... 30

Тернистый путь прогресса

Синтаксис запросов к популярным поисковым системам в последнее время значительно упростился. Вместе с тем, качество откликов постоянно улучшается, несмотря на лавинообразный рост ресурсов Сети.

Традиционные подходы к поиску, основанные на использовании логических операторов, потерпели крах одновременно с бумом Web-технологий. Первые скрипки в поисковых системах стали играть не инструменты индексирования баз данных и организации логического поиска, а новые семантические алгоритмы. Можно признать, что пионером в этом стала компания Google, сделавшая ставку на ранжирование выдачи и алгоритмы, основанные на цитируемости.

Незавидна роль традиционных систем искусственного интеллекта в этой "семантической революции". Системы, основанные на базах знаний, в большинстве своем не выдержали силы потока Internet-информации. При этом речь идет не столько об объемах, сколько о политематичности и динамике, т.е. о постоянном обновлении информации, которое, к тому же, не имеет очевидной тематической направленности и регулярности.

При этом возник новый класс систем, который все же позволяет справляться с проблемой "размерности" Сети. Как один из удивительных феноменов, сегодня можно рассматривать тот факт, что содержательные, семантически наполненные результаты формируются без непосредственного привлечения методов искусственного интеллекта, объемных баз знаний и даже экспертов как таковых, лишь путем использования частотно-лингвистических и эвристических методов. И сегодня эффективно работают в основном системы, базирующиеся именно на таких методах.
2.13. Популярные сетевые информационно-поисковые службы

Безусловно, для обеспечения полноты поиска необходимо знать степень охвата информационных ресурсов Internet поисковыми системами. Сегодня ведущими по охвату информационных ресурсов Internet являются поисковые системы Google и Alltheweb. Вместе с тем, даже эти системы охватывают всего лишь третью часть существующих Web-страниц. Количество поисковых серверов, охватывающих Internet, а не отдельные его части, ограничено несколькими десятками. Лидерами здесь являются такие поисковые машины, как:

Среди российских поисковых серверов особого внимания заслуживают три — это Hndex (http://www.yandex.ru), Рамблер (http://www.rambler.ru) и Апорт (http://www.aport.ru). В Украине две лидирующие поисковые системы: МЕТА (http://meta.ua) — по стабильной части украинского сегмента Сети, и UAport (http://uaport.net) — по новостной части.

i

2.13.1. Крупнейшие зарубежные службы

Google

В январе 1996 года будущие основатели Google, студенты Сергей Брин и Лар-ри Пэйдж, начали совместную работу над поисковой системой под названием BackRub. В сентябре 1998 года ими была основана компания Google. Название поисковой системы Google было образовано в результате игры букв в слове "googol". Этим компания хотела подчеркнуть свое намерение индексировать и обрабатывать большие объемы информации.

К 2000 году служба Google заняла лидирующее положение на рынке сетевых поисковых систем; трафик к ней непрерывно растет в течение шести лет. В 2002 году Google на короткое время отдала первенство по объему поискового индекса системе Alltheweb, но в настоящее время вновь заняла устойчивое первое место, охватывая свыше 4 млрд документов, и осуществляет более 200 млн поисковых операций в день. Поисковая машина Google позволяет искать как без учетов специфики алфавитов и языков, так и с учетом особенностей свыше 97 языков (рис. 2.6).

Компания является лидером поискового рынка во всем мире. В СП1А ее предпочитают 34,7% пользователей, тогда как в мире доля Google на рынке англоязычного поиска достигает 43,3%. Большинство пользователей службы находятся за пределами США. Самым близким преследователем Google является компания Yahoo!, до недавнего времени также применявшая поисковую технологию Google, но в начале 2004 года сменившая ее на собственную систему.

Сегодня 95% всех поисковых операций в Сети в США осуществляется через эти две компании, Google и Yahoo!, либо напрямую, либо через другие сайты, использующие их технологию. Множество компаний используют поисковую технологию Google в своих сервисах, например Интернет-провайдер America Online и российский холдинг Mail.ru.

Google позволяет проводить поиск в таких сегментах, как обычные Web-документы, изображения, телеконференции Usenet, новости, а также в собственном каталоге.

Очень удобной функцией является cache. Благодаря этой функции пользователь может просмотреть проиндексированную страницу, даже если она удалена или сервер, на котором расположена страница, недоступен. Так, в середине 2002 года правительство КНР временно запретило доступ китайских пользователей к Google именно из-за наличия этой функции, поскольку система в полном объеме предоставила контент сайтов, зафильтрованный по политическим мотивам.

Yahoo! Search

Традиционно служба Yahoo! позиционировалась как развитый каталог Web-ресурсов. Однако в апреле 2003 года, после поглощения компании Inktomi и приобретения Overture, компания Yahoo! стала обладательницей всех основных поисковых технологий на рынке, кроме технологии Google. В результате этой компании принадлежат такие поисковые службы, как Inktomi, Altavista и FAST. Сама YahooJ на базе технологий Overture и Inktomi разработала глобальную поисковую систему Yahoo! Search (http://search.yahoo.com) и прекратила использование на своем сайте поисковой системы основного конкурента — Google. (Примечательно, что Yahoo! останется одним из главных акционеров Google: ей принадлежит около 2,4% бизнеса конкурента.)

В новую поисковую систему (рис. 2.7) встроены функции по работе с информационными каналами в форматах XML/RSS. Кроме того, Yahoo! Search обладает уникальными технологиями борьбы со спамом, с помощью которых осуществляется фильтрация избыточных ссылок и поискового мусора. Помимо Web-страниц, с помощью Yahoo! Search возможен поиск изображений, новостей, товаров. Естественно, возможен поиск и в собственном каталоге Yahoo!. Компания активно использует поисковую систему для привлечения дополнительных доходов путем платного занесения ссылок в базу данных, размещения контекстной рекламы в результатах поиска, а также лицензирования поисковых технологий.

Коммерческая инициатива Yahoo! — Content Acquisition Program — позволяет владельцам сайтов добиться более полного индексирования своих ресурсов в Yahoo! Search и более оперативного обновления информации в поисковой базе данных. Content Acquisition Program предполагает включение информации в базу данных на платной основе.

Само собой разумеется, что от бесплатного включения сайтов в базу данных поисковой системы Yahoo! также не отказывается. По словам вице-президента Yahoo! по поиску Тима Кадогана (Tim Cadogan), 99% ресурсов в базе данных Yahoo! Search будут индексироваться бесплатно. Однако никаких гарантий в случае бесплатного индексирования компания Yahoo! дать не может.

Ask Jeeves

Поисковая система Ask Jeeves (http://www.ask.com)— одна из лидирующих в области информационного поиска — обслуживает более 16 млн пользователей в месяц. Главной особенностью Ask Jeeves считается способность работать с запросами на естественном языке (рис.2.8). Кроме того, в результаты поиска попадает не только информация из автоматически обновляемой базы данных, но и ссылки, подобранные вручную.

Рис. 2.8. Ash.com — один из самых популярных поисковиков в США

Система Ask Jeeves способна распознать некоторое количество популярных вопросов пользователей, таких, например, как расшифровка аббревиатур, указания о том, как добраться в определенное место, даты праздников и т.д. Для поиска информации на эти темы Ask Jeeves предоставляет специализированные интерактивные средства. В частности, если спросить о дате какого-либо праздника, то на первом месте среди результатов окажется именно ответ на данный вопрос. Запросы для поиска карт, изображений или новостей также распознаются автоматически. Очень часто, вместо того чтобы переходить на вспомогательные страницы поиска с помощью закладок, достаточно набрать запрос на естественном языке. Например, в ответ на запрос map of Russia (карта России) на странице результатов выводятся сначала картинки, а затем уж и обычные ссылки.

В свое время компания Ask Jeeves приобрела компанию Теота (http://www.teoma.com) и внедрила у себя одноименную поисковую технологию. Поисковая технология Теота использует в качестве критерия релевантности принцип, аналогичный используемому в Google, — число ссылок на данный ресурс с других страниц. Однако Теота при этом учитывает еще и тематику отдельных сайтов, ссылающихся на данную страницу, что обеспечивает большую точность и избирательность поиска.

Вице-президент управления производством компании Ask Jeeves Джим Лан-зоне так охарактеризовал коммерческую деятельность службы: "Наша компания извлекает прибыль из размещения рекламы. Существуют три основных способа размещения рекламы: графический (рекламные баннеры), оплачиваемое размещение (спонсорские ссылки) и новая программа, получившая название «Paid Inclusion» (плата вносится за включение сайта в индекс поисковой системы)".

Недавно поисковая система Ask Jeeves объявила о внедрении локального поиска, лицензировав соответствующие базы данных у компании CitySearch. Компания Ask Jeeves является партнером Google как поставщик оплаченных рекламных ссылок.

По информации Nielsen NetRatings по состоянию на июнь 2004 года, как отмечает SearchengineJournal, Ask Jeeves является девятым по популярности сайтом в американской части Internet с количеством уникальных посетителей более 32 млн.

Alltheweb

Поисковая служба Alltheweb была основана в Норвегии в 1997 году компанией Fast Search and Transfer. В 1999 году в результате партнерства с компанией Dell был создан поисковый сервер http://www.alltheweb.com (рис. 2.9). В 2002 году на некоторое время была достигнута главная цель поисковой службы — создана самая большая база данных Web-документов объемом свыше 2 млрд записей. Но позже первенство все же было упущено.

Сегодня поисковая технология Alltheweb, получившая название Fast, считается наиболее близкой по своим возможностям к Google, признанной лидером среди сетевых ИПС. Alltheweb отличается высокой скоростью, время ее ответа на поисковый запрос не более 0,05 секунд. Система Alltheweb обеспечивает поиск Web-документов, новостей, изображений, видео, аудио,-файлов на FTP-серверах.

В начале 2003 года компания Overture Services Inc., специализирующаяся на размещении рекламы в результатах поиска, приобрела службу Alltheweb у компании Fast Search and Trans. Сама же компания Overture с октября 2003 года принадлежит Yahoo!.

AltaVista

Служба AltaVista (http://www.altavista.com или http://www.av.com) появилась в¹1995 году и вначале принадлежала компании Digital Equipment (прежний адрес службы http://www.altavista.digital.com). После этого AltaVista перешла компании Compaq, а затем выделилась в отдельную фирму. В апреле 2003 года была куплена компанией Overture Services Inc., принадлежащей в настоящее время Yahoo!. Преимущество этой системы — развитые, мощные средства сложного поиска. Одно из самых слабых мест системы — недостаточная актуальность ее базы данных. Со страниц сервера, кроме поиска HTML-файлов, возможен поиск графических изображений, музыкальных произведений в формате МРЗ, видеоклипов, а также текущих новостей (рис. 2.10).

AltaVista была и остается одной из самых популярных поисковых служб. "Мы считаем, что AltaVista — это по-прежнему очень сильный брэнд, у которого есть своя группа пользователей", — заявил вице-президент по инжинирингу Yahoo! Пху Хоанг. По словам Хоанга, AltaVista рассматривается как своеобразный полигон для испытания новых поисковых технологий. По его словам, "применение найдется и для других поисковых систем, ставших в последнее время собственностью Yahoo!".

Lycos

Информационно-поисковый сервер Lycos (http://www.lycos.com) существует с мая 1994 года и является старейшей, представленной в Internet поисковой системой с широким кругом пользователей. Основатели службы Lycos — Carnegie Mellon University и Lycos Inc. Базовая страница Lycos, кроме интерфейса самой поисковой системы, содержит около 20 справочников (рис. 2.11). Предусмотрен режим расширенного поиска с использованием операций И, ИЛИ и НЕ при выборе зоны поиска (заглавие, адрес, ссылка, весь текст), а также работы со словосочетаниями. В системе имеется возможность поиска в HTML-документах, новостях и в электронных магазинах.

30 октября 2000 года, на пике бума "доткомов", служба Lycos была куплена испанской компанией Terra Networks. В августе 2004 года служба была перекуплена корпорацией Daum, специализирующейся на коммуникациях и смежных сферах и содержащей самый крупный Internet-портал в Южной Корее.

2.13.2. Службы поиска в российском сегменте Сети

Япс1ех

Летом 1996 года руководство и разработчики этой поисковой системы пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий. Тогда в Internet и появился "Hndex". Поисковая машина Yandex.Ru была анонсирована компанией CompTek в сентябре 1997 года. Слово "Япс1ех" было придумано за несколько лет до этого и означает "Языковой index", или, если по-английски, "Yandex" — "Yet Another indexer".

Основными особенностями Yandex.Ru были и остаются проверка уникальности документов (исключение копий в разных кодировках), учет морфологии различных языков, поиск с учетом расстояния, оценка релевантности (рис.2.12).

Сегодня Япс1ех представляет собой полнотекстовую поисковую систему, обеспечивающую поиск в таких сегментах русскоязычного Internet, как Web-документы, изображения, товары и услуги (маркет), новости, собственный каталог.

В марте 2004 года в Hndex были реализованы новые поисковые возможности. По словам разработчиков, система теперь может учитывать социальную структуру Сети — она умеет отличать мнение людей от технической, вспомогательной и рекламной информации, т.е. лучше распознавать, какой ресурс является авторитетным в сваей области. Япс1ех автоматически определяет, в каком городе находится компьютер, с которого поступил запрос, и, если уточнение по региону имеет смысл, предлагает повторить поиск, ограничив его сайтами данного региона. В системе реализована очистка результатов поиска от дубликатов. Пользователь избавлен от повторения в списке найденного почти одинаковой информации. Поиск поддерживает шесть языков: к русскому и английскому добавились украинский, белорусский, французский и немецкий. Язык документов и сайтов определяется автоматически, а ограничить область поиска нужным языком можно в настройках или при расширенном поиске.

Летом 2001 года сайт ЯпЫех, согласно данным исследовательских компаний Комкон-2 и Gallup Media, стал самым большим ресурсом в Рунете по объему аудитории. 5 ноября 2002 года компания Япс1ех вышла на самоокупаемость.

Сегодня ежедневная аудитория Япс1ех (включая зарубежных пользователей) составляет около двух миллионов человек, ежемесячная — более 12 миллионов.

Rambler

В 1996 году программист Дмитрий Крюков написал уникальную российскую поисковую систему для ресурсов Internet, которая сразу же была введена в эксплуатацию по адресу http://rambler.ru. Со временем был образован Internet-холдинг Rambler, который в настоящее время занимает одну из ведущих позиций в России. Поисковая машина Rambler работает с учетом морфологии русского и английского языков, сама определяет тематику запросов (например, запрос, в котором упомянут "амидопирин" или "клиника", автоматически распознается как "медицинский").

В июне 2003 года компания Rambler запустила новую версию поисковой системы, которая отличается высокой скоростью поиска и оперативностью обновления индекса. Rambler понимает живой язык, опознает общепринятые сокращения и аббревиатуры (рис. 2.13).

В настоящее время поисковая машина Rambler реализует полноценную лингвистическую поддержку уже трех языков — русского, английского и украинского. В системе реализован механизм ассоциаций, который помогает пользователям быстрее и точнее формулировать свои запросы. Так, после выполнения поиска по запросу пользователя перед ним открывается страница, на которой найденные документы расположены в порядке убывания релевантности, а также появляется строка "У нас также ищут". В этой строке приведено несколько слов и словосочетаний, ассоциативно связанных с исходным запросом. Например, на слово "релевантность" в строке "У нас также ищут" выдаются результаты "толковый словарь, словарь релевантность, словарь иностранных слов, релевантный ... еще". Если щелкнуть мышью на слове "еще", отображается целый блок ассоциаций, более развернутый. Щелкнув на любом слове из списка и уточнив тем самым запрос, пользователь может продолжить поиск.

Апорт

Поисковый сервер Апорт, принадлежащий Golden Telecom Inc., появился в Сети в 1996 году. В октябре 2000 года официально был представлен "Апорт 2000". Оригинальной особенностью системы Апорт является учет "ранга страницы", который характеризует ее популярность. Он вычисляется по количеству ссылок на ресурс со страниц других Web-сайтов. Обработка запроса при этом ориентируется на гипертекстовую структуру Сети. Это — реальный пример использования коллективного разума владельцев отдельных Web-сайтов. Система ранжирования результатов поиска Page Rank учитывается с весовыми коэффициентами: вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного, т.е. разработчики Апорта удачно использовали некоторые идеи, впервые реализованные в системе Google. В конечном итоге при выдаче результатов поиска в Апорт одними из первых выдаются сайты, название которых в службах реальных имен является синонимом со словами запроса или совпадает с ними (рис. 2.14).

Поиск в системе Апорт осуществляется в таких сегментах Internet, как Web-сайты, рефераты, товары, работа, знакомства, МРЗ, новости, энциклопедия "Кругосвет".

У системы Апорт есть ряд ключевых особенностей — в качестве результатов поиска она предоставляет не разрозненный набор страниц с разных сайтов, а достаточно осмысленный их список, причем часто — с названием и описанием.

2.13.3. Крупнейшие украинские службы

МЕТА

Украинская поисковая система МЕТА (http://meta.ua) была основана в 1998 году. С 2001 года МЕТА работает на новом поисковом ядре, создание которого стало возможным благодаря участию в проекте компании SigniaBleyzer.

Алгоритмы вычисления меры соответствия документов запросу в системе МЕТА учитывают не только количество слов в документе, но и частоту этого слова во всем обрабатываемом пространстве документов, близость и порядок слов, различные признаки форматирования. В системе МЕТА не используется технология "стоп-слов". Разработчиками предполагается, что это приближает систему к обработке запросов на естественном языке. Например, при запросе "крем от загара" большинством поисковых систем предлог "от" не будет учитываться при поиске, и в первых результатах будут выданы документы со словосочетанием "крем для загара". Система МЕТА обеспечивает возможность поиска с учетом закономерностей изменений русских и украинских слов. Результаты поиска в МЕТА могут быть представлены как в традиционной форме, так и сгруппированными по сайтам (рис. 2.15).

Система МЕТА позволяет искать по таким сегментам, как Web-сайты, новости, реестр (каталог системы), прайс-листы, рефераты и книги.

UAport

Интернет-холдинг UAport (http://uaport.net), созданный в 2001 году, объединил основные сетевые проекты компании ElVisti. UAport полностью включил в свой состав поисковую систему ElVisti (http://el.visti.net), первую из украинских поисковых систем, которая была представлена в Internet с 1997 года (рис. 2.16).

В качестве программного ядра в UAport используется полнотекстовая информационно-поисковая система InfoRes, обеспечивающая поиск с учетом логических операторов и оператора контекстной близости (с возможностью задания расстояния между отдельными словами).

В Интернет-холдинге UAport получили развитие и новое современное пред-тавление самые популярные поисковые службы ElVisti, которые стали основой юрмирования таких разделов:

Net.UAport.net — информационно-поисковая система по украинским Web-ресурсам;
Каталог.UAport.net — тематический и региональный каталоги Web-ресурсов;
HoBocTH.UAport.net — раздел, в котором благодаря возможностям технологии InfoStream(r) доступна (в том числе и в формате RSS) новостная лента объемом свыше 20 000 сообщений в сутки из сотен информационных источников;
Медиа.UAport.net — раздел, в котором в свободном доступе представлены информационные материалы украинских СМИ;
HT.UAport.net — раздел информационных технологий — "вертикальная" информационно-поисковая система по тематике информационных технологий;
Бизнес.UAport.net — основой данного раздела является поисковый прайс-каталог по товарам и услугам, охватывающий данные свыше 15 000 фирм.

2.14 Поиск информации в корпоративных сетях

На жестких дисках отдельных компьютеров или на серверах корпоративной сети накапливаются огромные массивы документов, навигация в которых по понятным причинам затруднена. Для обеспечения комфорта работы с такими массивами документы обычно пытаются классифицировать, распределить по тематическим папкам или каталогам [18]. Эта процедура трудоемкая и, что самое главное, не исключает возможности внесения дополнительных ошибок.

Понятно, что создать информационную среду, инкапсулирующую разнородные объекты, непросто. Естественным выходом из этой ситуации оказались полнотекстовые информационно-поисковые системы, получившие широкое распространение в Internet. В отличие от Сети, где данные в основном представлены как HTML-файлы, поиск в корпоративной сети производится в другой среде [5]. Ведь в этом случае преимущественно используются форматы офисных приложений и систем документооборота. Наряду с поиском в корпоративной сети, большое значение приобретают задачи группировки тематически близких документов, автоматического реферирования, перевода, выявления ключевых понятий, проведения нечеткого поиска.

2.14.1. Популярные ИПС

Рассмотрим некоторые популярные системы поиска для корпоративных сетей. mnoGoSearch

Универсальная поисковая система mnoGoSearch (nmogosearch.org) предназначена для Internet- или intranet-серверов. Она индексирует информацию, которая сканируется по локальным дискам или в соответствии с протоколами HTTP, FTP, NNTP. Система работает с документами в форматах .html, .txt, .doc, .pdf. В запросах воспринимаются различные формы слов и логические операторы. Результаты запросов можно настраивать с помощью html-шаблонов. Система mnoGoSearch может хранить данные во всех популярных реляционных СУБД. Существуют версии для Linux и Windows (рис. 2.17).

"Ищейка"

Полнотекстовая персональная поисковая система "Ищейка"

(http://www.isleuthhound.com) обладает возможностями поиска документов и файлов на русском и английском языках (рис. 2.18). Она воспринимает запросы со всеми словоформами и с любыми падежными окончаниями (т.е. поддерживает морфологический поиск) и способна автоматически распознавать основные типы кодировки текста — ASCII, ANSI, Unicode. В "Ищейке" заложена возможность просмотра краткой выдержки (аннотации) из найденного документа. Предполагается работа с документами форматов .txt, .rtf, .doc, .html.

При первом запуске на основе заданного массива документов, "Ищейка" создает и индексирует базу данных, которая представляет собой зону поиска, состоящую из каталогов. В пределах этой зоны и производится поиск документов и файлов.

Система допускает организацию собственных хранилищ данных из неструктурированной информации, создание до пятидесяти зон поиска с индексированием неограниченного количества файлов, накопление "популярных" запросов и т.п.

Серверный "Следопыт

Серверный "Следопыт" (www.medialingua.ru) — мощная поисковая система, предоставляющая возможность поиска нужной информации на отдельном Web-сайте или сервере корпоративной интрасети (рис. 2.19). Поиск осуществляется по содержанию документов и их атрибутам, а также по размеру, имени, дате создания, по отправителю или получателю почтового сообщения. Программа может обрабатывать файлы практически всех форматов: .doc, .rtf, .html, .xls, .pdf, .zip, .pst, а также папки (как сами сообщения, так и вложения) Microsoft Outlook. В системе реализован морфологический поиск, т.е. для каждого слова учитывается вся парадигма. Фильтр для формата .pdf при работе с русским языком является в "Следопыте" одним из лучших.

Полнотекстовый поиск под Microsoft SQL Server 2000 в "Следопыте" реализован для русского и английского языков (подразумевается возможность динамического отслеживания изменений в базе данных и обновления полнотекстового индекса Change Tracking, которая появилась в Microsoft SQL Server 2000).

Data Search

Основное назначение программы Data Search 6.0. (www.dtsearch.com) — поиск информации на локальном компьютере (рис. 2.20). Система имеет английский интерфейс и работает под управлением операционных систем Windows 9x/Me/NT/2000. Она состоит из следующих модулей: dtSearch Desktop 6.0 — главный интерфейс программы, dtSearch Indexer — индексатор документов, dtSearch Index Library Manager — менеджер библиотек индексов, dtSearch CD Wizard — индексатор данных, находящихся на CD. Data Search позволяет создавать один общий индекс для нескольких компьютеров в локальной сети.

Система поддерживает поиск документов разных типов, включая .zip, .rtf, .pdf, .html, .xml, документы Microsoft Office (Word, Excel, PowerPoint) и WordPerfect. Поддерживается кодировка Unicode. Допускается несколько видов поиска, а именно морфологический и фонетический, а также поиск синонимов и слов с орфографическими ошибками.

CROS

Система полнотекстового поиска CROS 4.01 (www.cronos.ru) предназначена для накопления и обработки текстовых документов различных форматов (рис. 2.21). Хранение документов в базах данных системы обеспечивает уменьшение в два-три раза необходимого объема дисковой памяти. Предусмотрено автоматическое определение форматов документов Microsoft Word версий 6.0, 7.0, 97, 2000, а также документов формата .rtf и .html. Помимо этого определяется тип кодировки (DOS, Win, КОИ8, Unicode).

Система CROS обеспечивает навигацию по найденным документам, способна работать в локальной сети и поддерживает защиту информации от несанкционированного доступа. При этом отсутствуют ограничения на количество иерархических областей поиска, осуществляется сортировка найденных документов по дате, имени, типу и атрибутам, которые задаются самим пользователем.

Greenstone

Система Greenstone (www.greenstone.org) представляет собой Open Source-решение для создания "цифровых библиотек", поддерживаемое ЮНЕСКО (рис. 2.22). Естественно, она включает поиск с предварительным индексированием по документам всех популярных форматов и, прежде всего, .doc и .pdf, которые могут быть представлены и в заархивированном виде. Система создает каталог документов, конвертирует их в html-формат, а затем обеспечивает удаленный доступ к библиотеке посредством браузера.

Google Search Appliance

Программно-аппаратный комплекс Google Search Appliance обеспечивает поиск документов в рамках корпоративных сетей. Джон Пискителло, менеджер Google по продуктам, определил эту систему как "естественный шаг для компании, которая постоянно стремится предложить пользователям новые способы доступа к информации". По его словам, пришлось учитывать возрастающие требования, включая поиск в границах, определенных корпоративными межсетевыми экранами, и это заставило Google разработать новые решения.

Поисковые устройства этой компании используют в своей работе армия США, администрация калифорнийского города Сан-Диего, фармацевтический гигант Pfizer, корпорации Boeing, Procter & Gamble, Cisco Systems и др.

Поисковый механизм комплекса обеспечивает работу более чем с двумястами типами файлов (естественно, включая .html, .pdf, .doc). При этом осуществляется учет синонимов при полнотекстовом поиске по запросам и возможна работа более чем с пятьюдесятью естественными языками.

Google Search Appliance поддерживают функции поиска защищенной информации, находящейся на закрытых серверах. При этом пользователь может обратиться к защищенному документу лишь при наличии у него соответствующих полномочий доступа.

2.14.2. Новый уровень обработки сетевой информации

RetrievaWare

Информационно-поисковая система RetrievaWare (www.convera.com) представляет собой средство полнотекстового и атрибутивного поиска (рис. 2.23). К документам, с которыми способна работать система Retrieval Ware, относятся тексты в различных форматах и кодировках, электронные таблицы, базы данных, почтовые сообщения и т.п. — всего более двухсот форматов. Система обладает дополнительным инструментарием, позволяющим настроиться на поддержку документов специфических форматов. Объем архива при необходимости может измеряться терабайтами.

Архитектура системы RetrievalWare позволяет ей работать как через локальную корпоративную сеть, так и через Internet. Серверная часть системы поддерживает все распространенные серверные платформы, а клиентским местом может быть любой компьютер, имеющий графический Web-браузер. Система обладает возможностью работы в различных многопроцессорных и распределенных многосерверных конфигурациях.

Попытки анализа больших; объемов неструктурированных или слабо структурированных данных очень часто усложняют процесс принятия решений. Если широкий спектр поисковых систем достаточно легко справляется с "простым" полнотекстовым поиском, то для подобного анализа нужны технологии совсем другого типа, представленные системами извлечения знаний (Knowledge Mining). Стоимость внедрения таких систем составляет сотни тысяч долларов.

Итак, основная задача — выявление знаний в массивах неструктурированных данных с целью их использования в процессе принятия решений. Чтобы добиться этого, необходимо сделать информацию доступной для анализа, выявить классы понятий и сопоставить их с документами.

Как правило, информационные массивы преобразуются такими системами в хранилища данных (Data Warehouse) или корпоративные порталы знаний — интегрированные информационные репозитарии, доступные для оперативного обобщения и анализа. Часто такие хранилища являются самообучаемыми за счет использования статистических байесовских алгоритмов. Последние обеспечивают адаптацию критериев группирования документов. Большую роль играют и "отклики" реальных пользователей.

За счет предварительной обработки информации, проводимой на этапе формирования хранилищ данных, значительно повышается эффективность таких процессов, как интеллектуальный анализ данных, глубинный анализ текстов и обнаружение новых знаний в текстах. Как неожиданную производную этих процессов можно назвать появление средств, упрощающих поиск для пользователя, таких как реализация нечеткой логики запросов (нечеткого поиска), средств построения функциональных информационных портретов, визуализации семантических связей и т.д. В свою очередь, эти возможности напрямую связаны с распознаванием образов, поиском мультимедийных данных, анализом речевого ввода.

Я ndex. Server

Hndex.ServerStandard 3.2 (http://company.yandex.ru/technology/products/yandex-server.xml) представляет собой системный сервис для организации полнотекстового поиска информации в заданной коллекции документов. Он предназначен для работы с текстами как в локальной, так и в глобальной сети. Система не содержит лицензионных ограничений на число индексируемых документов, их размер или суммарный размер индекса и позволяет индексировать документы как через HTTP-соединение, так и чтением локальной файловой системы. Hndex.Server Standard представляет результаты поиска во встроенном дизайне.

Hndex.Server 3.0 состоит из двух основных логических частей: индексатора и поискового сервера. Индексатор анализирует документы, среди которых должен проводиться поиск, и сохраняет информацию о них в специальных индексных файлах.

Обычно используется режим работы, при котором не создаются заново индексные файлы, а отрабатывается информация только по изменившимся, новым и удаленным документам. Поисковый сервер после запуска находится в постоянном ожидании запросов, которые могут быть представлены на естественном языке. Поиск может осуществляться с учетом морфологии языка, в одной или нескольких коллекциях документов.

Hndex.Server 3.2 поддерживает форматы .html, .xml, .rtf, .pdf, .doc, .mp3 и многае другие. Содержимое индексируемых документов также может быть получено при обращении к произвольной базе данных, в частности MySQL и MS SQL Server.

Система предоставляет возможность кластеризации результатов поиска (группирует найденные документы в соответствии с внешними атрибутами), а также ранжирует результаты (сортирует документы по степени соответствия запросу).

InfoStream

Поиск в корпоративной сети, реализуемый на UNIX-платформах, выполняется с помощью корпоративного решения на основе технологии мониторинга контента InfoStream (infostream.com.ua). Эта технология позволяет обрабатывать данные в форматах Microsoft WORD (версии 2000, 97, 6), .rtf, .pdf и всех текстовых форматах (простой текст, .html, .xml). Системы на основе InfoStream в настоящее время функционируют под управлением операционных систем FreeBDS, Linux и Solaris.

На основе InfoStream создана система управления документальным информационным хранилищем, в котором реализуется интегрированная информационно-поисковая среда на основе Web-решений. С ее помощью обеспечивается доступ к электронным документам, размещенным на компьютерах в корпоративной сети, в режимах поиска, навигации по компьютерам/каталогам, просмотра как >ригиналов документов, так и их текстовых образов. Комплекс обеспечивает интерактивный полнотекстовый поиск информации по сложным запросам, состоя-цим из ключевых слов, логических и контекстных операторов, разнообразное >анжирование результатов поиска. Предоставляется возможность уточнения ре-:ультатов поиска с помощью механизма "информационных портретов".

1.14.3. Порталы знаний

По данным недавно проведенного исследования, сотрудники компаний могут ратить до трех часов в день на поиски информации, которые зачастую оказы-аются безрезультатными, вследствие чего тысяча крупнейших фирм США еже-одно теряет 2,5 млрд долларов.

Именно для решения этой проблемы созданы и продолжают создаваться кор-оративные поисковые системы И порталы знаний [3] как среды для эффектив-ого поиска знаний и обмена ими, инструменты, которые представляют собой эвокупность технологических решений для выявления, хранения, классифика-ии, обработки и распространения знаний.

В настоящее время широко используется система IBM Lotus Discovery erver — программный продукт, предназначенный для управления знаниями корпоративных порталах, для нахождения экспертов, идентификации связей общего управления интеллектуальным капиталом (рис. 2.24). Lotus Discovery ?rver является логическим продолжением ранее популярного программного эодукта Lotus Raven — системы построения корпоративных порталов знаний.

Благодаря возможности анализа информации, хранящейся в организации, Lotus Discovery Server в состоянии указывать области экспертных знаний и подразумеваемые знания сотрудников, находя и организуя динамические связи между информацией, людьми и их деятельностью.

Современные порталы знаний [9] обеспечит решение целого комплекса задач, среди которых — сбор информации об объектах, определение связи между объектами, выявление тенденций. Функциональные возможности таких систем позволят проводить многофакторные динамические исследования, выполнять диагностику и прогнозирование развития ситуации. В дополнение к возможностям глубинного анализа данных и текста, в порталах знаний широко используется человеческий опыт — знания экспертов в процессах выявления, сохранения и эффективного использования знаний.

Около пяти лет назад по заказу группы аналитиков Гарвардского университета российские разработчики из "Инфорус" создали систему Avalanche, которая в процессе поиска формирует модель предметной области в виде набора "умных папок", каждая из которых знает, что в нее должно попадать. Наполнением папок занимается специализированный робот, который запускается с компьютера "хозяина" и приносит только то, что у него просили. Это одно из первых эффективных решений на базе современной технологии глубинного анализа текстов.

Очень близка по идеологии и технология компании Vivisimo, в рамках которой результаты Internet-поиска распределяются по папкам-категориям, которые система создает автоматически. Достигается это за счет лексического сопоставления запросов и результатов поиска.

Естественно, свое применение Vivisimo сразу же нашла в корпоративных сетях и порталах знаний. Рауль Валдес-Перес (Raul Valdes-Perez), один из учредителей Vivisimo, сравнил систему с очень умным библиотекарем, который мгновенно находит нужную книгу в море неупорядоченной информации.

2.15. Поисковые программно-аппаратные комплексы

Многим корпоративным пользователям необходим оперативный доступ к полным базам данных определенных информационно-поисковых систем, отвечающих их информационным потребностям, что требует создания специального механизма локального копирования (кэширования) баз данных ИПС. Одной из первых эту ситуацию почувствовала известная своим поисковым сервисом американская компания Google, поисковый механизм которой заинтересовал ряд корпоративных пользователей. Выйдя на рынок с аппаратным поисковым сервером Google Search Appliance [46], компания стала пионером в новой области — создании кэширующих информационно-поисковых серверов. Устройство Google Search Appliance предназначено для подключения к сетям предприятий и реализует функции поиска информации как внутри этих сетей, так и в Internet. Это небольшое сетевое устройство (недорогой сервер), оснащенное программным обеспечением Google, позволяет находить на корпоративных серверах различные документы, начиная от сообщений электронной почты и заканчивая программными кодами. Оно позволяет находить документы HTML, PDF, PostScript, Microsoft Office и еще приблизительно двухсот других форматов.

В числе иных особенностей Google Search Appliance отмечаются функции кэширования поисковых страниц, сервера-посредника, группировки результатов поиска, поддержки 28 языков и метатегов. Кроме того, сервер обладает достаточно широкими возможностями администрирования. По заявлению компании, особенностью Google Search Appliance является весьма гибкая настройка поиска, благодаря которой заказчики могут задавать его параметры в соответствии со своими потребностями. Google Search Appliance предлагается в двух моделях — GB-1001 для малых и средних фирм (от 20 тыс. долларов; охват до 150 тысяч документов) и GB-8008 для крупных корпораций (250 тыс. долларов; "просматривает" миллионы документов (рис. 2.25)).

Компания Google со своим аппаратным решением вышла на рынок, на котором уже имеются со своими программными системами такие компании, Рис. 2.25. Линейка моделей Google Search как Verity, Ask Jeeves и Altavista. Appliance

Google отличается от них тем, что предлагаемая ею поисковая система — это не только программа, но и устройство, которое может устанавливаться за корпоративный брандмауэр и которое можно настроить на поиск документов во внутренней базе данных.

Google сразу же смогла продать несколько своих устройств, причем среди первых его заказчиков числится корпорация National Semiconductor. Поисковая машина выпускается в двух версиях. Для сравнения, аналогичная продукция Altavista стоит от 30 тысяч долларов, и такая корпоративная поисковая система способна просматривать от 30 тысяч документов и, теоретически, до бесконечности.

Еще одной известной информационно-поисковой системой, реализованной в виде аппаратного решения, способного хранить в своем кэше свыше миллиона документов, является ThunderStone Search Appliance (последняя версия 5.0., http://www.thunderstone.com). Эта система позволяет хранить и индексировать данные, получаемые по протоколам HTTP, HTTPS, FTP, Gopher или просто из файлового сервера локальной сети.

Рис. 2.26. Одноюнитовый сервер ThunderStone Search Appliance

В Украине в Информационном центре "ЭЛВИСТИ" разработана технология автоматического мониторинга новостей в Internet InfoStream. Эта технология обеспечивает сканирование информации в режиме реального времени из нескольких сотен источников — украинских и зарубежных Web-сайтов сети Internet.

Для корпоративных пользователей на основе технологии InfoStream построено аппаратно-программное решение InfoStream Port, которое обеспечивает доступ к базам данных оперативной и ретроспективной информации в корпоративной сети. Программно-технологическое обеспечение InfoStream Port включает как компоненты утилиту обмена данными с информационным хранилищем (кэшем) ElVisti и полнотекстовую информационно-поисковую систему InfoReS. Информационное хранилище способно хранить и обеспечивать интерактивный доступ к более чем 10 млн документов, размещенных на одноюнитовом сервере Prime LAN 1900 на базе процессора Intel Pentium IV (рис. 2.27).

Информационное обеспечение системы у корпоративного заказчика строится на основе использования информационного кэша, формируемого на технической площадке провайдера. Система InfoStream Port работает по такой схеме:

• информация в соответствии с регламентом поступает из кэша информационного провайдера ElVisti на сервер InfoStream Port;

Рис. 2.27. Корпоративное решение InfoStream Port

на сервере происходит формирование и индексирование оперативных и ретроспективных баз данных;
со стороны корпоративных пользователей обеспечивается доступ к этим базам данных через Web-интерфейс.

Благодаря высоким поисковым характеристикам, оперативности доступа к информации со стороны корпоративного пользователя в сочетании с невысокой ценой (менее 10 тыс. долларов), это решение является полезным инструментом в работе информационно-аналитических служб.

₃

1 ... 4 5 6 7 8 9 10 11 ... 30

$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Рабочая программа дисциплины «Web-дизайн» Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Программа по формированию навыков безопасного поведения на дорогах... Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	План урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»... Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Интернет-технологии и Web-дизайн ...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Информатики и радиоэлектроники «Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Факультет информационных технологий Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Программа элективного курса по информатике и икт «Создание Web-сайтов» Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Проекта: Разработка Web-приложений Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	99 сайтов с картинками Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Творческий проект Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	История россии Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Материально-техническое обеспечение Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Изучение информатики в старшей школе направлено на достижение следующих целей В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Приложение №1 Исторические стили в интерьере Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Адреса патентных ведомств и других бд в internet В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...	$Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon$	Положение об учебном кабинете начального образования общеобразовательной школы Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...

Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet

Похожие: