Скачать 5.03 Mb.
|
2.3. Семантические методы В последнее время в технологии поиска все чаще стали внедряться элементы контент-анализа — методологии, возникшей в конце Х1Х-начале XX вв. Эта ме-, тодология, изначально ориентированная на применение в психологии и социологии, сегодня все чаще используется в различных автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом анализе отдельных предложений и всего текста, то основой количественного контент-анализа являются статистические подходы. В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое выявление из текстовых массивов нового смысла, новых данных, феноменов, фактов-знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining, в реальные поисковые системы. И эти попытки не умозрительны — они обусловлены объемами и темпами роста Сети. Во многие современные сетевые поисковые системы внедрены такие компоненты, как:
Группировка результатов поиска В свое время создатели службы Oingo реализовали технологию выявления "смысла" слов путем построения обучаемой внутренней семантической сети. Сегодня наиболее интересной кажется технология, предлагаемая службой AltaVista (http://www.av.com), обеспечивающая для реализации режима уточнения поиска (Refine Your Search) автоматическое определение классов и последующую группировку (кластеризацию) откликов ИПС в соответствии ними. Например, в результате обработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project. В этой системе, как и в большинстве остальных, активизация соответствующего класса приводит к уточнению первоначального запроса. Большинство же из современных интеллектуальных систем обеспечивает группировку своих откликов по заранее определенным классификаторам. Так, система Vivisimo (http://www.vivisimo.com) определила для запроса "network" такие классы: Solutions; Games; Software; Security;Science; Organization; Film; Developers; Created; Information Network(рис. 2.3). Служба Lycos в режиме "Narrow Your Search" при этом определила такие классы: CartonNetwork; Dish Network; Food Network; Network Marketing; Home Shopping Network; Network Security.А система Google по этому же запросу выдала всего два класса: "Computers>Consultants>Network" и "Computers>Software>Operation System>Network" "Сюжетный" подход При поиске новостной информации всегда возникает задача нахождения и объединения в сюжетные темы документов, описывающих одни и те же события и ранжирования сюжетов по некоторым признакам, что должно обеспечить не только выявление самой важной темы, но и "веерное", многоаспектное освещение всех наиболее значимых событий. Эта задача решается во многих системах, но с использованием различных подходов и алгоритмов. При этом неизменной остается технологическая цепочка: построение семантической сети из документов, кластеризация — автоматическое выявление наиболее взаимосвязанных групп (т.е. сюжетов), "взвешивание" этих сюжетов и наглядная визуализация самых важных из них. При выделении сюжетных цепочек для определения попарной текстуальной близости текстов, как правило, используются алгоритмы выявления похожих документов, ставшие уже традиционными в поисковых системах. Так, матрица попарной близости документов обрабатывается алгоритмами кластеризации. Выделенные классы документов и представляют собой сюжетные цепочки (рис. 2.4). Для предъявления пользователям сюжеты должны быть ранжированы. Основные факторы, влияющие на ранжирование по важности, — оперативность информации и размер сюжетной цепочки. Под оперативностью понимается некоторая функция от времени публикации всех сообщений в сюжете, а размер сюжета отражает общий интерес к конкретной теме. Во всех этих подходах центральная задача состоит в отождествлении сообщений, относящихся к одному сюжету, и выявлении "непересекающихся" сюжетов. Для результирующего отображения каждого отдельно взятого сюжета используются отобранные по содержательной близости документы из различных источников, отсортированные в хронологическом порядке. При этом сюжеты могут представлять собой дайджесты, интегрирующие общие места документов по теме, а также уникальную информацию, содержащуюся в отдельных документах. Реферирование сюжета в этом случае сводится не к свертыванию информации, а к построению расширенной версии, по сравнению с любым документом из сюжетной цепочки. Например, в системе Япс1ех.Новости (http://news.yandex.ru) для этого строится матрица попарной близости документов, которая обрабатывается алгоритмом кластеризации с эмпирически подобранными параметрами (в частности, радиусом метрики близости). Для того чтобы увеличить связность крупных сюжетов, в системе Япс1ех.Новости дополнительно используется кластеризация второго уровня, обеспечивающая сбор атомарных кластеров в более крупные. В результате внедрения этой системы, все сообщения в результатах поиска на сайте Япйех.Новости сгруппированы по сюжетам (рис. 2.5), при этом ранжирование Построено на стандартных для Hndex принципах ранжирования сгруппированной выдачи. Оно основано на числе и ранге новостей внутри новостных сюжетов, при этом ранг отдельной новости определяется как ее свежесть с учетом приоритетов текстуального совпадения. В результате функционирования технологии выявления сюжетов, на сайте www.yafidex.ru представлены пять главных новостей за последний час, а на сайте news.yandex.ru— новости с цитатными аннотациями, а также еще 10 новостей, упорядоченных по важности. В системе InfoStream (http://infostream.ua) тематическая близость документов определяется на основе нормированных последовательностей наиболее весомых ключевых слов, входящих в каждый документ. Последовательности подобных (с определенным коэффициентом близости? превышающим некоторый установленный эмпирически уровень) документов образуют цепочки. При этом каждый документ попадает в какую-нибудь цепочку, даже состоящую только из него самого. Затем цепочки "взвешиваются" по длине и оперативности, после чего пользователю предъявляется определенное количество самых важных тематических сюжетов. Для репрезентации сюжетной цепочки заголовки документов также "взвешиваются" относительно ключевых слов, соответствующих сюжету, а затем из всех заголовков выбираются наиболее весомые для отображения. Следует обратить внимание, что задача автоматического построения качественных тематических сюжетов на основе потоков сетевой новостной информации сегодня практически решена. Например, полностью автоматические средства системы InfoStream, обрабатывая поток новостной информации, превышающий 25 000 документов в сутки, обеспечивают полноту свыше 80% и точность около 95%. 2.4. Этапы поисковой процедуры Итак, как показано выше, процедура поиска имеет вполне определенную этап-ность — от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов. Приведем еще одну аналогию, которая относится к шахматному искусству. Начало шахматной партии — дебют — обеспечивает развитие фигур на доске и определяет стратегическую канву будущей партии. Несмотря на то что шахматы допускают миллиарды последовательностей ходов, количество дебютов, на самом деле, ограничено несколькими сотнями. Точно так же, как в шахматном искусстве, в искусстве поиска можно определить первый этап — дебют. На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы). Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:
Вторым этапом в шахматах является миттельшпиль. При хорошо разыгранном дебюте и определенной стратегической направленности партии, наибольшее значение на этом этапе уделяется многовариантному анализу и тактическим решениям. В этом случае шахматист-профессионал просчитывает в уме несколько десятков вариантов (из миллионов возможных). Лишние неэффективные варианты он просто не рассматривает, руководствуясь логическими образами, заложенными на уровне подсознания. Точно так же вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их отработки. В этом случае также аналитик-профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа Является формирование эффективных запросов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки такой стандартизации. Последняя часть шахматной партии — эндшпиль — заключается в поиске вариантов при очень ограниченном количестве ресурсов (фигур). В этом случае количество вариантов, как правило, значительно более скромное, чем на втором этапе, и их правильный выбор определяет результат всей партии. Точно так же третий этап поиска в сети Internet является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры. Полученные в результате обработки запросов отклики ИПС требуют, с одной стороны, скрупулезной работы пользователей-аналитиков и, с другой стороны, развитых средств автоматизации аналитической работы, обеспечивающих:
2.5. Процесс поиска непосредственно Целью создания ИПС является предоставление пользователю возможности поиска информации по интересующей его тематике, выраженной специальными запросами. Различные ИПС имеют собственные языки запросов или, как их еще называют, информационно-поисковые языки (ИПЯ), позволяющие в той или иной мере описывать предметные области пользователей. Очевидно, что составление запросов должно базироваться на этих ИПЯ, однако сам процесс составления запросов допускает многовариантность и является своего рода искусством. В качестве еще одного из аналогов процесса поиска в Internet можно рассмотреть сбор грибов в лесу во всей его этапности. Грибник, отправляясь за грибами, анализирует состояние погоды в определенное время года, климатическую зону и, в соответствии с этим, определяет, какие грибы можно найти. Он знает и свои потребности: какие грибы ему нужны, чтобы, например, их можно было засушить. Точно так же при поиске в Internet следует четко определить информационные потребности, необходимую ретроспективу информации, круг поисковых серверов, специализирующихся на индексировании подобной информации, и даже предусмотреть заранее возможный результат, подобрав несколько известных документов сходной тематики. По приходу в лес грибник выбирает ту его часть, где могут расти те грибы, которые он предполагает собрать. Например, подосиновики следует искать в березово-осиновой роще, белые грибы — в дубраве или смешанном лесу, а маслята — в посадках молодого соснового леса. Точно так же пользователь Internet должен определить необходимые ему поисковые серверы и каталоги. Грибник по знакомым ему образам определяет грибные места и практически интуитивно выходит на объект своего поиска. При этом он, конечно же, не формирует в явном виде запрос — поисковое предписание. Запрос содержится у него в подсознании, и составлен он на языке образов, хотя формально его можно сформулировать так: "сосновый лес" и "солнечная погода" и "два дня назад прошел дождь" и "расстояние от дерева не более 5 м" и "восточная сторона" и т. д. Точно так же, выбрав необходимые поисковые ресурсы, пользователь Internet составляет поисковое предписание, соответствующее интересующей его тематике. Только при этом он осознанно формирует запрос на ИПЯ. Когда грибник находит грибы, он их рассматривает, определяет их виды, выделяет требуемые ему, срезает и помещает в корзинку, при этом анализируя качество грибов и не оставляя у себя испорченных или червивых грибов даже полезных видов. Пользователь Internet, анализируя отклик ИПС, выбирает ссылки на документы, которые, по его мнению, действительно соответствуют его информационным потребностям. Далее он выходит непосредственно на первоисточники, анализирует их и копирует себе только ту информацию, которая является наиболее полезной для него. Как видим, процесс поиска в сети Internet имеет много общего с поиском в житейском понимании этого смысла, только на более высоком уровне виртуализации. Как и любой поиск, поиск в Internet является искусством, и ему, как и многим видам искусства, присуща многовариантность и творческий подход. Поиск в Internet можно рассматривать и с точки зрения его этапности. 2.6. Запросы пользователей Казалось бы, с развитием технологических возможностей современные поисковые системы должны обеспечить гарантированное нахождение информации, однако "ленивые" пользователи всё же очень часто недовольны качеством их работы. Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Если и используются операторы, то это, в основном, булевы AND и OR. Доля использования операторов контекстной близости и логического отрицания (NOT) не превышает 1-2%. В то же время реализация отработки сложных запросов (которых пока не более 20%) и определяет эффективность использования времени, проводимого пользователем в Internet [22]. Согласно исследованию, проведенному OneStat.com в 2004 году (табл. 2.1), большинство поисковых запросов в Сети состоят из двух слов —32,58% от общего количества. Из трех слов состоит 25,61% запросов и лишь 19,02% запросов состоит из одного слова. Для сравнения еще в апреле 2003 года процент поисковых запросов из одного слова составлял 24,76%. |
Рабочая программа дисциплины «Web-дизайн» Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины... | Программа по формированию навыков безопасного поведения на дорогах... Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,... | ||
План урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»... Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,... | Интернет-технологии и Web-дизайн ... | ||
Информатики и радиоэлектроники «Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие... | Факультет информационных технологий Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции... | ||
Программа элективного курса по информатике и икт «Создание Web-сайтов» Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности... | Проекта: Разработка Web-приложений Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры | ||
99 сайтов с картинками Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | Творческий проект Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
История россии Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | Материально-техническое обеспечение Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
Изучение информатики в старшей школе направлено на достижение следующих целей В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание... | Приложение №1 Исторические стили в интерьере Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... | ||
Адреса патентных ведомств и других бд в internet В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты... | Положение об учебном кабинете начального образования общеобразовательной школы Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения... |