Web 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet





НазваниеWeb 10. Подходы к решению проблемы "скрытого" Web глава поиск в internet
страница6/30
Дата публикации29.11.2014
Размер5.03 Mb.
ТипРеферат
100-bal.ru > Информатика > Реферат
1   2   3   4   5   6   7   8   9   ...   30

2.3. Семантические методы

В последнее время в технологии поиска все чаще стали внедряться элементы контент-анализа — методологии, возникшей в конце Х1Х-начале XX вв. Эта ме-, тодология, изначально ориентированная на применение в психологии и социоло­гии, сегодня все чаще используется в различных автоматизированных системах. Различают количественный и качественный контент-анализ. Если качественный контент-анализ базируется на глубоком лингвистическом и семантическом ана­лизе отдельных предложений и всего текста, то основой количественного кон­тент-анализа являются статистические подходы.

В последнее время получили развитие такие направления контент-анализа, как "Data Mining" и "Text Mining", которые предполагают автоматическое вы­явление из текстовых массивов нового смысла, новых данных, феноменов, фак­тов-знаний. Все чаще возникают попытки привлечения методов контент-анализа, а точнее Text Mining, в реальные поисковые системы. И эти попытки не умозри­тельны — они обусловлены объемами и темпами роста Сети. Во многие совре­менные сетевые поисковые системы внедрены такие компоненты, как:

  1. автоматическая группировка документов по определенному заранее клас­сификатору;

  2. автоматическое определение новых, не заданных заранее классов на основе неструктурированных или слабо структурированных документов;

  3. ранжирование документов по смысловой релевантности;

  4. выявление семантически подобных документов — поиск подобных доку­ментов на основе эталона;

  5. автоматический анализ и смысловое преобразование запросов пользователей.

Группировка результатов поиска

В свое время создатели службы Oingo реализовали технологию выявления "смысла" слов путем построения обучаемой внутренней семантической сети. Сегодня наиболее интересной кажется технология, предлагаемая службой AltaVista (http://www.av.com), обеспечивающая для реализации режима уточнения поиска (Refine Your Search) автоматическое определение классов и последующую группировку (кластеризацию) откликов ИПС в соответствии ними.
Например, в результате обработки запроса "network" (сеть) она предлагает следующие классы документов: Management; Solution; Catholic Church; Christian Organization; Domain Names; Blog; Economy; Moving; Project. В этой системе, как и в большинстве осталь­ных, активизация соответствующего класса приводит к уточнению первоначального запроса.

Большинство же из современных интеллектуаль­ных систем обеспечивает группировку своих откли­ков по заранее определенным классификаторам. Так, система Vivisimo (http://www.vivisimo.com)
определила для запроса "network" такие классы: So­lutions; Games; Software; Security;Science; Organiza­tion; Film; Developers; Created; Information Network(рис. 2.3). Служба Lycos в режиме "Narrow Your Search" при этом определила такие классы: CartonNetwork; Dish Network; Food Network; Network Mar­keting; Home Shopping Network; Network Security.А система Google по этому же запросу выдала всего два класса: "Computers>Consultants>Network" и "Computers>Software>Operation System>Network"
"Сюжетный" подход

При поиске новостной информации всегда возникает задача нахождения и объединения в сюжетные темы документов, описывающих одни и те же собы­тия и ранжирования сюжетов по некоторым признакам, что должно обеспечить не только выявление самой важной темы, но и "веерное", многоаспектное осве­щение всех наиболее значимых событий.

Эта задача решается во многих системах, но с использованием различных подходов и алгоритмов. При этом неизменной остается технологическая цепоч­ка: построение семантической сети из документов, кластеризация — автоматиче­ское выявление наиболее взаимосвязанных групп (т.е. сюжетов), "взвешивание" этих сюжетов и наглядная визуализация самых важных из них.

При выделении сюжетных цепочек для определения попарной текстуальной близости текстов, как правило, используются алгоритмы выявления похожих до­кументов, ставшие уже традиционными в поисковых системах. Так, матрица по­парной близости документов обрабатывается алгоритмами кластеризации. Выде­ленные классы документов и представляют собой сюжетные цепочки (рис. 2.4).

Для предъявления пользователям сюжеты должны быть ранжированы. Ос­новные факторы, влияющие на ранжирование по важности, — оперативность информации и размер сюжетной цепочки. Под оперативностью понимается неко­торая функция от времени публикации всех сообщений в сюжете, а размер сю­жета отражает общий интерес к конкретной теме. Во всех этих подходах цен­тральная задача состоит в отождествлении сообщений, относящихся к одному сюжету, и выявлении "непересекающихся" сюжетов. Для результирующего ото­бражения каждого отдельно взятого сюжета используются отобранные по содер­жательной близости документы из различных источников, отсортированные в хронологическом порядке.

При этом сюжеты могут представлять собой дайджесты, интегрирующие об­щие места документов по теме, а также уникальную информацию, содержащую­ся в отдельных документах. Реферирование сюжета в этом случае сводится не к свертыванию информации, а к построению расширенной версии, по сравнению с любым документом из сюжетной цепочки.

Например, в системе Япс1ех.Новости (http://news.yandex.ru) для этого строится матрица попарной близости документов, которая обрабатывается алго­ритмом кластеризации с эмпирически подобранными параметрами (в частности, радиусом метрики близости). Для того чтобы увеличить связность крупных сю­жетов, в системе Япс1ех.Новости дополнительно используется кластеризация второго уровня, обеспечивающая сбор атомарных кластеров в более крупные. В результате внедрения этой системы, все сообщения в результатах поиска на сайте Япйех.Новости сгруппированы по сюжетам (рис. 2.5), при этом ранжиро­вание Построено на стандартных для Hndex принципах ранжирования сгруппи­рованной выдачи. Оно основано на числе и ранге новостей внутри новостных сюжетов, при этом ранг отдельной новости определяется как ее свежесть с уче­том приоритетов текстуального совпадения.

В результате функционирования технологии выявления сюжетов, на сайте www.yafidex.ru представлены пять главных новостей за последний час, а на сай­те news.yandex.ru— новости с цитатными аннотациями, а также еще 10 новостей, упорядоченных по важности.

В системе InfoStream (http://infostream.ua) тематическая близость доку­ментов определяется на основе нормированных последовательностей наиболее ве­сомых ключевых слов, входящих в каждый документ. Последовательности по­добных (с определенным коэффициентом близости? превышающим некоторый установленный эмпирически уровень) документов образуют цепочки. При этом каждый документ попадает в какую-нибудь цепочку, даже состоящую только из него самого. Затем цепочки "взвешиваются" по длине и оперативности, после че­го пользователю предъявляется определенное количество самых важных темати­ческих сюжетов. Для репрезентации сюжетной цепочки заголовки документов также "взвешиваются" относительно ключевых слов, соответствующих сюжету, а затем из всех заголовков выбираются наиболее весомые для отображения.

Следует обратить внимание, что задача автоматического построения каче­ственных тематических сюжетов на основе потоков сетевой новостной ин­формации сегодня практически решена. Например, полностью автоматические средства системы InfoStream, обрабатывая поток новостной информации, пре­вышающий 25 000 документов в сутки, обеспечивают полноту свыше 80% и точность около 95%.

2.4. Этапы поисковой процедуры

Итак, как показано выше, процедура поиска имеет вполне определенную этап-ность — от определения информационной потребности и области поиска до анали­за результатов и выбора пертинентных объектов. Приведем еще одну аналогию, которая относится к шахматному искусству. Начало шахматной партии — дебют — обеспечивает развитие фигур на доске и определяет стратегическую канву будущей партии. Несмотря на то что шахматы допускают миллиарды последовательностей ходов, количество дебютов, на самом деле, ограничено несколькими сот­нями. Точно так же, как в шахматном искусстве, в искусстве поиска можно опреде­лить первый этап — дебют. На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы).

Информационные потребности пользователя могут относиться к разным об­ластям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей прихо­дится именно на типовые области применения:

  1. поиск отдельных Web-страниц;

  2. поиск новостей;

  3. поиск людей и организаций;

  4. поиск литературных произведений;

  5. поиск программного обеспечения;

  6. поиск музыкальных произведений;

  7. поиск графических изображений;

  8. поиск видеоинформации;

  9. поиск коммерческой информации.

Вторым этапом в шахматах является миттельшпиль. При хорошо разыгран­ном дебюте и определенной стратегической направленности партии, наибольшее значение на этом этапе уделяется многовариантному анализу и тактическим ре­шениям. В этом случае шахматист-профессионал просчитывает в уме несколько десятков вариантов (из миллионов возможных). Лишние неэффективные вариан­ты он просто не рассматривает, руководствуясь логическими образами, заложен­ными на уровне подсознания.

Точно так же вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их отработки. В этом случае также аналитик-профессионал приходит к необхо­димости использования весьма ограниченного числа поисковых серверов, ката­логов и отдельных web-ресурсов для решения своей задачи.

Основной задачей второго этапа Является формирование эффективных запро­сов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки такой стандартизации.

Последняя часть шахматной партии — эндшпиль — заключается в поиске вариантов при очень ограниченном количестве ресурсов (фигур). В этом случае количество вариантов, как правило, значительно более скромное, чем на втором этапе, и их правильный выбор определяет результат всей партии.

Точно так же третий этап поиска в сети Internet является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде от­клика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

Полученные в результате обработки запросов отклики ИПС требуют, с одной стороны, скрупулезной работы пользователей-аналитиков и, с другой стороны, развитых средств автоматизации аналитической работы, обеспечивающих:

  1. итеративное уточнение запросов;

  2. поиск по подобию;

  3. ранжирование выдаваемых документов;

  4. построение графических отчетов, визуализацию.

2.5. Процесс поиска непосредственно

Целью создания ИПС является предоставление пользователю возможности поиска информации по интересующей его тематике, выраженной специальными запросами. Различные ИПС имеют собственные языки запросов или, как их еще называют, информационно-поисковые языки (ИПЯ), позволяющие в той или иной мере описывать предметные области пользователей. Очевидно, что состав­ление запросов должно базироваться на этих ИПЯ, однако сам процесс составле­ния запросов допускает многовариантность и является своего рода искусством.

В качестве еще одного из аналогов процесса поиска в Internet можно рассмот­реть сбор грибов в лесу во всей его этапности. Грибник, отправляясь за грибами, анализирует состояние погоды в определенное время года, климатическую зону и, в соответствии с этим, определяет, какие грибы можно найти. Он знает и свои по­требности: какие грибы ему нужны, чтобы, например, их можно было засушить.

Точно так же при поиске в Internet следует четко определить информационные потребности, необходимую ретроспективу информации, круг поисковых серверов, специализирующихся на индексировании подобной информации, и даже преду­смотреть заранее возможный результат, подобрав несколько известных документов сходной тематики. По приходу в лес грибник выбирает ту его часть, где могут рас­ти те грибы, которые он предполагает собрать. Например, подосиновики следует искать в березово-осиновой роще, белые грибы — в дубраве или смешанном ле­су, а маслята — в посадках молодого соснового леса. Точно так же пользователь Internet должен определить необходимые ему поисковые серверы и каталоги.

Грибник по знакомым ему образам определяет грибные места и практически интуитивно выходит на объект своего поиска. При этом он, конечно же, не фор­мирует в явном виде запрос — поисковое предписание. Запрос содержится у него в подсознании, и составлен он на языке образов, хотя формально его можно сфор­мулировать так: "сосновый лес" и "солнечная погода" и "два дня назад прошел дождь" и "расстояние от дерева не более 5 м" и "восточная сторона" и т. д.

Точно так же, выбрав необходимые поисковые ресурсы, пользователь Internet составляет поисковое предписание, соответствующее интересующей его темати­ке. Только при этом он осознанно формирует запрос на ИПЯ.

Когда грибник находит грибы, он их рассматривает, определяет их виды, выде­ляет требуемые ему, срезает и помещает в корзинку, при этом анализируя качество грибов и не оставляя у себя испорченных или червивых грибов даже полезных видов.

Пользователь Internet, анализируя отклик ИПС, выбирает ссылки на документы, которые, по его мнению, действительно соответствуют его информационным потреб­ностям. Далее он выходит непосредственно на первоисточники, анализирует их и копирует себе только ту информацию, которая является наиболее полезной для него.

Как видим, процесс поиска в сети Internet имеет много общего с поиском в житейском понимании этого смысла, только на более высоком уровне виртуа­лизации. Как и любой поиск, поиск в Internet является искусством, и ему, как и многим видам искусства, присуща многовариантность и творческий подход. Поиск в Internet можно рассматривать и с точки зрения его этапности.

2.6. Запросы пользователей

Казалось бы, с развитием технологических возможностей современные поиско­вые системы должны обеспечить гарантированное нахождение информации, одна­ко "ленивые" пользователи всё же очень часто недовольны качеством их работы. Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев поиска. Удивительно низким оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. Если и используются операторы, то это, в основном, булевы AND и OR. Доля использования операторов контекстной близости и ло­гического отрицания (NOT) не превышает 1-2%. В то же время реализация отра­ботки сложных запросов (которых пока не более 20%) и определяет эффектив­ность использования времени, проводимого пользователем в Internet [22].

Согласно исследованию, проведенному OneStat.com в 2004 году (табл. 2.1), большинство поисковых запросов в Сети состоят из двух слов —32,58% от об­щего количества. Из трех слов состоит 25,61% запросов и лишь 19,02% запро­сов состоит из одного слова. Для сравнения еще в апреле 2003 года процент по­исковых запросов из одного слова составлял 24,76%.
1   2   3   4   5   6   7   8   9   ...   30

Похожие:

Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconРабочая программа дисциплины «Web-дизайн»
Целью дисциплины является научить студентов технологии Web-дизайна и Internet-программирования. В результате изучения дисциплины...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма по формированию навыков безопасного поведения на дорогах...
Обучающая: дать представление основных понятий Web – сервер, Web – сайт, Web – страница, гиперссылка, тег, структура html – документа,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПлан урока по теме: «Web-страницы и web-сайты. Структура web-страницы.»...
Обучающая организовать деятельность учащихся по изучению новой темы; ознакомить учащихся с понятием сайта, структурой web- страницы,...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнтернет-технологии и Web-дизайн
...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИнформатики и радиоэлектроники
«Интерфейсы. Реализация нескольких интерфейсов с одним и тем же методом. Понятие Web-сервиса. Инфраструктура Web-сервиса. Взаимодействие...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconФакультет информационных технологий
Веб 0, в противовес «старому» Веб «Web 0» не является чем-то революционным, а лишь продолжает использовать технологии и концепции...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПрограмма элективного курса по информатике и икт «Создание Web-сайтов»
Умение представлять информацию в виде, удобном для восприятия и использования другими людьми – одно из условий образовательной компетентности...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПроекта: Разработка Web-приложений
Разработка web-приложений, бизнес процесс разработки web-приложения, cms drupal, создание сайта кафедры
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet icon99 сайтов с картинками
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconТворческий проект
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИстория россии
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconМатериально-техническое обеспечение
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconИзучение информатики в старшей школе направлено на достижение следующих целей
В данном проекте рассматривается создание Web страниц с помощью html кода. Он может быть использован для изучения темы "Создание...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПриложение №1 Исторические стили в интерьере
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconАдреса патентных ведомств и других бд в internet
В случаях, когда нужно провести поиск зарубежных патентов, следует обращаться к национальным базам данных. В настоящее время открыты...
Web 10. Подходы к решению проблемы \"скрытого\" Web глава поиск в internet iconПоложение об учебном кабинете начального образования общеобразовательной школы
Целью работы является изучение возможностей сети Internet, ознакомление с программой просмотра гипертекста Internet Explorer и освоения...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск