Скачать 1.63 Mb.
|
Вопрос 9. Поисковый запрос. Определение. Виды поисковых запросов.Поисковый запрос - исходная информация для осуществления поиска с помощью поисковой системы. Формат поискового запроса зависит как от устройства поисковой системы, так и от типа информации для поиска. Чаще всего поисковый запрос задаётся в виде набора слов или фразы, иногда - используя расширенные возможности языка запросов поисковой системы. Система запроса 1. Фиксация информационно потребности на естественном языке. 2. Выбор поисковых сервисов в сети и формализация записей информационной потребностей на конкретных информационно поисковых языках. 3. Выполнение созданных запросов. 4. Предварительная обработка и выбор документа из списка. 5. Обращение по выбранныым адресам за искомыми документами. 6. Предварительный просмотр найденных документов. 7. Сохранение релевантного документа 8. Извлечение из них ссылок для расширения запроса. 9. Изучение всего массива сохранных документов. 10. При необходимости возврат к первому этапу. Вопрос 10. Лингвистическое обеспечение ИПС.Лингвистическое обеспечение - это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств. Вопрос 11. Информационно-поисковый язык ИПС. Структура. Типы и виды ИПЯ.Информационно-поисковый язык системы Однако, индекс - это только часть поискового аппарата, причем не видная глазу пользователя. Второй частью этого аппарата является информационно-поисковый язык. ИПЯ позволяет сформулировать запрос к системе в довольно простой и доходчивой форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка. Именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом запрос типа: >Software that is used on Unix Platform будет преобразован в: >Unix AND Platform AND Software что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно". Возможны и варианты. Так в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза, и не будет разделяться на отдельные слова. Вообще говоря, и все три слова могут быть опознаны как одна ключевая фраза. Другой подход заключается в вычислении близости между запросом и документом. Именно этот подход используется в Lycos, например. В этом случае, в соответствии с векторной моделью представления документов и запросов вычисляется мера близости. К настоящему времени известно около дюжины различных мер близости. Наиболее часто применяется cos угла между поисковым образом документа и запросом пользователя. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов. Наиболее продвинутым языком запросов из современных информационно-поисковых систем Internet обладает AltaVista[4]. Кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.). Можно также задать поле ранжирования выдачи и критерий близости документов запросу. 3.6.4. Типы информационно-поисковых языков Главная задача информационно-поисковой системы - это поиск информации релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Естественно, что здесь возникает две задачи, которые следует решить: представление информации в системе и формулирование информационных потребностей пользователя. Эти две проблемы тесно связаны друг с другом. Руководства по многим информационно-поисковым системам Internet (Yahoo, OpenText и др.), что система реализует запрос типа "найди похожее". Но что значит эта фраза в реальности? Как вычислить эту самую похожесть? Наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, когда документ представляется как набор терминов. Как уже упоминалось ранее, это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и рассмотрим различные информационно-поисковые языки. 3.6.5. Традиционные информационно-поисковые языки и их модификации Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT. Запрос при этом может выглядеть следующим образом: ((информационная and система ) or ИПС) not СУБД В данном случае эта фраза означает: "Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД"". Запрос можно рассматривать как и реальный документ из базы данных. В нашем случае, фактически, мы имеем дело с двумя запросами: информационная and система not СУБД и ИПС not СУБД каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять те, которые содержат термин "СУБД". Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки. Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом. Модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска. Языки типа "Like this" При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается sin угла, который получают как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче ссылок на них пользователю. Вообще говоря, скалярное произведение не очень хорошо подходит для информационно-поисковых систем Internet, так как длина запроса обычно невелика. Это в традиционных системах существовали специальные службы, которые отлаживали длинные запросы, а в Internet такие службы только нарождаются. Поэтому реально применяются другие меры близости, но принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование. Рассмотренный подход дает возможность более мягкого расширения и уточнения запросов, но он также не гарантирует высоких показателей релевантности, в случае выбора неудачной лексики. Поиск в нечетких множествах При этом типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности документам документального массива. Когда запрашивается AND, то это интерпретируется как минимум из двух функций, соответствующих терминам запросов, OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости. Следует сразу сказать, что этот метод поиска используется только в исследовательских системах и распространен крайне ограничено. |
Вопросы к экзамену Понятие информации. Виды информации. Свойства Охватывает комплекс взаимосвязанных элементов, действующих как единое целое. Система включает в себя следующие компоненты | Вопросы к экзамену Понятие информации. Виды информации. Свойства Охватывает комплекс взаимосвязанных элементов, действующих как единое целое. Система включает в себя следующие компоненты | ||
Тема № Сообщения, данные, сигнал, атрибутивные свойства информации,... Практическое руководство по администрированию базы данных пользователей системы дистанционного обучения нп «телешкола» 1 | Реферат на тему: «Информационно-поисковые системы» Вас информации. Сейчас поисковые системы все больше стараются «видеть» сайт именно глазами рядового посетителя, чтобы результат устроил... | ||
Тема урока Количество часов Понятие алгоритма, свойства алгоритмов, виды алгоритмов. Представление о программе. Устройства ввода информации, устройства вывода... | К государственной (итоговой) аттестации по информатике и икт в устной... Понятие информации. Виды информации. Роль информации в живой природе и в жизни людей. Язык как способ представления информации: естественные... | ||
1. Понятие информации. Виды информации. Роль информации в живой природе... Слово «информация» происходит от латинского слова informatio, что в переводе означает сведение, разъяснение, ознакомление | Контрольная работа По информатике Тема: «Информационно поисковые языки» Целью данной работы является исследование эффективности поиска в Интернете сведений на тему «Информационно поисковые языки», в качестве... | ||
Материал для подготовки (ответы на билеты) к государственной (итоговой)... Понятие информации. Виды информации. Роль информации в живой природе и в жизни людей. Язык как способ представления информации: естественные... | «Волшебный компьютер» (35 часов) Свойства информации. Язык представления информации. Кодирование информации. Основные понятия логики. Понятие графов. Устройство персонального... | ||
Xxi век век информационных технологий. Интернет является мощным ресурсом,... Для облегчения тематического поиска в сети были созданы специальные информационно-поисковые системы. Основной поисковой системой... | Понятие информации. Виды информации. Роль информации и живой природе... Построение алгоритма (основные алгоритмические структуры) и его реализация и среде учебного исполнителя. Демонстрация полученного... | ||
Кафедра информатики и тсо курсовая работа Поисковые каталоги. Поисковые указатели (индексы). Сбор информации поисковыми роботами. Индексация ресурсов. Исполнение запроса клиента.... | Программа по формированию навыков безопасного поведения на дорогах... Тема урока: Виды и свойства информации. Кодирование информации. Игра «Информация и мы» | ||
Программа по формированию навыков безопасного поведения на дорогах... Знать понятие информации и способы кодирования информации в компьютере, двоичная система счисления, способы кодирования текстовой... | Программа по формированию навыков безопасного поведения на дорогах... Основные подходы к определению понятия «информация». Системы, образованные взаимодействующими элементами, состояния элементов, обмен... |