Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства





НазваниеИнформационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства
страница5/6
Дата публикации17.04.2015
Размер1.63 Mb.
ТипВопросы к экзамену
100-bal.ru > Информатика > Вопросы к экзамену
1   2   3   4   5   6

Вопрос 9. Поисковый запрос. Определение. Виды поисковых запросов.


Поисковый запрос - исходная информация для осуществления поиска с помощью поисковой системы. Формат поискового запроса зависит как от устройства поисковой системы, так и от типа информации для поиска. Чаще всего поисковый запрос задаётся в виде набора слов или фразы, иногда - используя расширенные возможности языка запросов поисковой системы.

Система запроса

1. Фиксация информационно потребности на естественном языке.

2. Выбор поисковых сервисов в сети и формализация записей информационной потребностей на конкретных информационно поисковых языках.

3. Выполнение созданных запросов.

4. Предварительная обработка и выбор документа из списка.

5. Обращение по выбранныым адресам за искомыми документами.

6. Предварительный просмотр найденных документов.

7. Сохранение релевантного документа

8. Извлечение из них ссылок для расширения запроса.

9. Изучение всего массива сохранных документов.

10. При необходимости возврат к первому этапу.

Вопрос 10. Лингвистическое обеспечение ИПС.


Лингвистическое обеспечение - это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Вопрос 11. Информационно-поисковый язык ИПС. Структура. Типы и виды ИПЯ.


Информационно-поисковый язык системы

Однако, индекс - это только часть поискового аппарата, причем не видная глазу пользователя. Второй частью этого аппарата является информационно-поисковый язык. ИПЯ позволяет сформулировать запрос к системе в довольно простой и доходчивой форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка. Именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно".

Возможны и варианты. Так в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза, и не будет разделяться на отдельные слова. Вообще говоря, и все три слова могут быть опознаны как одна ключевая фраза. Другой подход заключается в вычислении близости между запросом и документом. Именно этот подход используется в Lycos, например. В этом случае, в соответствии с векторной моделью представления документов и запросов вычисляется мера близости. К настоящему времени известно около дюжины различных мер близости. Наиболее часто применяется cos угла между поисковым образом документа и запросом пользователя. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее продвинутым языком запросов из современных информационно-поисковых систем Internet обладает AltaVista[4]. Кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.). Можно также задать поле ранжирования выдачи и критерий близости документов запросу.

3.6.4. Типы информационно-поисковых языков

Главная задача информационно-поисковой системы - это поиск информации релевантной информационным потребностям пользователя. Слово релевантность означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно еще представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Естественно, что здесь возникает две задачи, которые следует решить: представление информации в системе и формулирование информационных потребностей пользователя. Эти две проблемы тесно связаны друг с другом. Руководства по многим информационно-поисковым системам Internet (Yahoo, OpenText и др.), что система реализует запрос типа "найди похожее". Но что значит эта фраза в реальности? Как вычислить эту самую похожесть?

Наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему векторной модели, когда документ представляется как набор терминов. Как уже упоминалось ранее, это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и рассмотрим различные информационно-поисковые языки.

3.6.5. Традиционные информационно-поисковые языки и их модификации

Наиболее распространенным ИПЯ является язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT. Запрос при этом может выглядеть следующим образом:

((информационная and система ) or ИПС) not СУБД

В данном случае эта фраза означает: "Найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД"".

Запрос можно рассматривать как и реальный документ из базы данных. В нашем случае, фактически, мы имеем дело с двумя запросами:

информационная and система not СУБД

и

ИПС not СУБД

каждый из которых подразумевает как бы два действия: сначала найти все документы, содержащие необходимые пользователю термины, а потом отсеять те, которые содержат термин "СУБД".

Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки.

Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом.

Модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.

Языки типа "Like this"

При внимательном рассмотрении взвешенного поиска закрадывается естественное желание вообще обойтись без логических коннекторов и измерять близость документа и запроса какими-либо другими критериями. Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается как угол между ними. В этом случае высчитывается sin угла, который получают как скалярное произведение двух векторов. В соответствии со значением меры близости происходит ранжирование документов при выдаче ссылок на них пользователю. Вообще говоря, скалярное произведение не очень хорошо подходит для информационно-поисковых систем Internet, так как длина запроса обычно невелика. Это в традиционных системах существовали специальные службы, которые отлаживали длинные запросы, а в Internet такие службы только нарождаются. Поэтому реально применяются другие меры близости, но принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование.

Рассмотренный подход дает возможность более мягкого расширения и уточнения запросов, но он также не гарантирует высоких показателей релевантности, в случае выбора неудачной лексики.

Поиск в нечетких множествах

При этом типе поиска весь массив документов описывается как набор нечетких множеств терминов. Каждый термин определяет некую монотонную функцию принадлежности документам документального массива. Когда запрашивается AND, то это интерпретируется как минимум из двух функций, соответствующих терминам запросов, OR - как максимум, NOT - как 1-<значение функции>. В соответствии с полученными значениями результат поиска также ранжируется, как и в случае с поиском по мерам близости.

Следует сразу сказать, что этот метод поиска используется только в исследовательских системах и распространен крайне ограничено.

1   2   3   4   5   6

Похожие:

Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconВопросы к экзамену Понятие информации. Виды информации. Свойства
Охватывает комплекс взаимосвязанных элементов, действующих как единое целое. Система включает в себя следующие компоненты
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconВопросы к экзамену Понятие информации. Виды информации. Свойства
Охватывает комплекс взаимосвязанных элементов, действующих как единое целое. Система включает в себя следующие компоненты
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconТема № Сообщения, данные, сигнал, атрибутивные свойства информации,...
Практическое руководство по администрированию базы данных пользователей системы дистанционного обучения нп «телешкола» 1
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconРеферат на тему: «Информационно-поисковые системы»
Вас информации. Сейчас поисковые системы все больше стараются «видеть» сайт именно глазами рядового посетителя, чтобы результат устроил...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconТема урока Количество часов
Понятие алгоритма, свойства алгоритмов, виды алгоритмов. Представление о программе. Устройства ввода информации, устройства вывода...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconК государственной (итоговой) аттестации по информатике и икт в устной...
Понятие информации. Виды информации. Роль информации в живой природе и в жизни людей. Язык как способ представления информации: естественные...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства icon1. Понятие информации. Виды информации. Роль информации в живой природе...
Слово «информация» происходит от латинского слова informatio, что в переводе означает сведение, разъяснение, ознакомление
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconКонтрольная работа По информатике Тема: «Информационно поисковые языки»
Целью данной работы является исследование эффективности поиска в Интернете сведений на тему «Информационно поисковые языки», в качестве...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconМатериал для подготовки (ответы на билеты) к государственной (итоговой)...
Понятие информации. Виды информации. Роль информации в живой природе и в жизни людей. Язык как способ представления информации: естественные...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства icon«Волшебный компьютер» (35 часов)
Свойства информации. Язык представления информации. Кодирование информации. Основные понятия логики. Понятие графов. Устройство персонального...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconXxi век век информационных технологий. Интернет является мощным ресурсом,...
Для облегчения тематического поиска в сети были созданы специальные информационно-поисковые системы. Основной поисковой системой...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconПонятие информации. Виды информации. Роль информации и живой природе...
Построение алгоритма (основные алгоритмические структуры) и его реализация и среде учебного исполнителя. Демонстрация полученного...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconКафедра информатики и тсо курсовая работа
Поисковые каталоги. Поисковые указатели (индексы). Сбор информации поисковыми роботами. Индексация ресурсов. Исполнение запроса клиента....
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconПрограмма по формированию навыков безопасного поведения на дорогах...
Тема урока: Виды и свойства информации. Кодирование информации. Игра «Информация и мы»
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconПрограмма по формированию навыков безопасного поведения на дорогах...
Знать понятие информации и способы кодирования информации в компьютере, двоичная система счисления, способы кодирования текстовой...
Информационно-поисковые системы. Вопросы к экзамену Вопрос Понятие информации. Виды информации. Свойства iconПрограмма по формированию навыков безопасного поведения на дорогах...
Основные подходы к определению понятия «информация». Системы, образованные взаимодействующими элементами, состояния элементов, обмен...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск