Лабораторная работа №

Скачать 475.81 Kb.

Название	Лабораторная работа №
страница	3/3
Дата публикации	01.04.2015
Размер	475.81 Kb.
Тип	Лабораторная работа

100-bal.ru > Бухгалтерия > Лабораторная работа

1 2 3

2.4Задание для самостоятельного выполнения

Запустить Яндекс.Сервер на порту 80, чтобы к поисковому интерфейсу можно было получить по адресу http://localhost/

Определить два источника данных со следующими параметрами:

C:\docCollection\doc	Наследовать параметры индексирования от родительской папки Индексировать только документы MS Word
C:\docCollection\pdf	Наследовать параметры индексирования от родительской папки Индексировать только документы в формате PDF

Выполнить индексирование коллекции и провести тестовый поиск по следующим ключевым словам:
1. HKEY_CURRENT_USER
2. UNIX File System
3. debugger_is_present
4. Keeper
5. Управление требованиями
6. CMMI
7. Data Mining

По каждому из указанных ключевых слов в тестовой коллекции есть документы, поэтому по каждому из запросов должны быть найдены документы.

2.5Отчет по лабораторной работе

Отчет по лабораторной работе должен включать в себя:

Титульный лист, название, цель работы
Скриншоты результатов поиска с различными вариантами запросов

3Лабораторная работа №2. Настройка информационно-поисковой системы Яндекс.Сервер для поиска по SQL базе данных. Сравнение поисковых механизмов методом анализа иерархий

3.1Цели и задачи работы

Цель работы: настройка информационно-поисковой системы Яндекс.Сервер для работы с СУБД MySQL. Сравнение методом анализа иерархий встроенной в веб-приложение системы поиска, полнотекстового индекса, предлагаемого СУБД и информационно-поисковой системы Яндекс.Сервер.

Задачи работы:

Конфигурирование Яндекс.Сервера для работы с СУБД MySQL.
Проверка возможностей поисковой системы, встроенной в CMS WordPress.
Проверка возможностей поиска с использованием полнотекстового индекса, встроенногов СУБД MySQL.
Сравнение различных технологий поиска с использованием метода анализа иерархий.

3.2Теоретические сведения

3.2.1Модель булева поиска

Рассмотрим один из самых простых алгоритмов информационного поиска – булев поиск.

Модель булева поиска – это модель информационного поиска, в ходе которого можно обрабатывать любой запрос, имеющий вид булева выражения, то есть выражения, в котором термины используются в сочетании с булевыми операциями AND, OR, NOT. В рамках данной модели документ рассматривает как набор слов.

Рассмотрим модель булева поиска на конкретном примере. На портале кафедры АСУ есть большой набор учебных документов и нам необходимо определить, в каких документах используются слова «Информационная система» AND «Проектирование» AND NOT «Мехатроника».

Для этого можно прочитать все лекции от начала до конца и исключить из рассмотрения лекции, в которых встречается слово «Мехатроника», а простейший компьютерный метод решения этой задачи сводится к последовательному просмотру (linear scanning) всех документов. Этот метод дает неплохие результаты на небольшой коллекции документов, но для корпоративного применения он не годится – нет возможности постоянно просматривать все доступные документы, особенно в распределенной среде.

Для того, чтобы избежать последовательного просмотра документов при каждом запросе заранее составляется поисковый индекс. Опишем создание индекса на рассмотренном ранее примере.

Для каждого термина (или слова, в конкретном примере) составляется запись, в которой указано, содержится ли он в каждом конкретном документе или нет. В результате мы получим бинарную матрицу инцидентности «термин-документ» (term-document incidence matrix). В зависимости от направления просмотра этой матрицы мы можем получить либо вектор термина, который показывает, в каких документах он встречается, либо вектор документа, в котором указано, какие термины он содержит.

Для обработки рассмотренного ранее запроса «Информационная система» AND «Проектирование» AND NOT «Мехатроника» нужно взять вектор каждого из терминов и выполнить для них поразрядную операцию AND.

Рассмотрим теперь более реалистичный сценарий, где количество документов исчисляется сотнями тысяч и миллионами (пример, среднее количество документов, создаваемое ИС с 5000 активных пользователей – около 10000 в сутки, следовательно, в месяц создается около 3 млн. документов).

Цель любой информационно-поисковой системы – найти в коллекции документы, которые являются наиболее релевантными по отношению к произвольным информационным потребностям, сообщаемых системе при помощи однократных, инициированных пользователем запросов.

При таком масштабе у нас получится сильно разряженная матрица, которая содержит 98% нулей, поэтому используется другой подход – инвертированный индекс. Инвертированный индекс строится по следующему алгоритму:

Собираются все документы, которые будут проиндексированы. Совокупность всех документов называется пространство поиска. Каждый документ в этом пространстве имеет уникальный идентификатор (docID).
Размечаем текст, превращая каждый документ в список лексем (tokens).
Проводим предварительную лингвистическую обработку, создаем список нормализованных лексем, представляющих собой индексируемые термины.
Индексируем документы, составляя для каждого термина список документов, в которых он встречается. Кроме того, возможно указания словопозиции (posting) – места, где данный термин встречается. В результате этого получим список пар «термин-docID». Полученный на данном этапе список сортируется в алфавитном порядке, многократные повторения одного термина в документе объединяются, а термины из одного документа группируются вместе.

Такая структура инвертированного индекса является наиболее эффективной для текстового поиска по произвольному запросу.

Обработка булева запроса по инвертированному индексу происходит следующим образом:

Каждый из терминов булева запроса обнаруживается в словаре.
Находится список словопозиций каждого из терминов в документах.
Находим пересечение списков словопозиций для каждого из терминов. В результате получим документы, в которых встречаются все указанные в запросе термины.

Такая модель поиска наиболее широко распространена в корпоративных информационных системах, так как набор параметров, по которым выполняется поиск может быть заранее задан, чтобы получить максимально релевантные результаты.

3.2.2Модель ранжированного поиска

Альтернативой модели булева поиска является модель ранжированного поиска, в рамках которой пользователи в основном применяют текстовые запросы в свободной форме, то есть набирают простые текстовые запросы не используя сложные булевы операции, система сама решает, какие документы лучше удовлетворяют этим запросам.

Модель ранжированного поиска появилась в связи с развитием информационных технологий и должна была удовлетворять следующим условиям:

Поиск должен стать малочувствительным к опечаткам и неточному выбору слов.
Необходимо находить сложносоставные слова или целые фразы, обозначающие одно понятие. В булевом поиске каждый термин рассматривается как самостоятельная языковая лексема.
Модель булева поиска позволяет определить лишь наличие или отсутствие термина, но хотелось бы иметь ранжированный по определенному критерию результат поиска, например, по частоте упоминания определенного термина в документе.

Модель ранжированного поиска реализована во всех современных поисковых системах и обычно выставлена на первое место, но они также содержат и механизмы простого булева поиска, которые могут дать лучшие результаты, но используются гораздо реже.

3.3Методика выполнения работы

3.3.1Подготовка окружения

Для выполнения лабораторной работы необходимо иметь установленную и настроенную СУБД MySQL, а также веб-приложение WordPress. Данные программные продукты можно найти в дополнительном материале к данной лабораторной работе.

СУБД MySQL, а также веб-сервер Apache, необходимые для работы с WordPress собраны в пакет прикладных программ Denwer. Запуск Denwer осуществляется с помощью исполняемого файла run.exe из директории /WebServers/Denwer.

Для начала проверим функционирование установленной копии WordPress. Для этого в браузере откроем страницу http://wordpress/ Здесь мы видим установленную копию свободной системы управления содержимым WordPress.

Данная система используется как платформа для ведения блогов, но может быть дополнительно расширена модулями для решения более широкого круга задач. В качестве хранилища данных данная система использует СУБД MySQL. Мы будем использовать WordPress как интерфейс для управления данными, хранящимися в СУБД.

Версия WordPress, необходимая для выполнения данной лабораторной работы уже содержит минимально необходимый набор материалов, который может быть расширен. Вход в панель управления веб-приложением осуществляется по адресу http://wordpress/wp-admin/ Для входа нужно указать логин и пароль. В данной инсталляции логин и пароль – admin.

Панель управления Вы можете видеть на следующем рисунке:

3.3.2Настройка Яндекс.Сервер для работы с MySQL

Для использования MySQL в качестве источника данных ее необходимо зарегистрировать как источник данных ODBC в системе. Для этого первоначально нужно установить MySql ODBC Connector и создать новый источник данных.

3.3.3Установка MySQL ODBC Connector

Установка выполняется с использованием стандартного мастера установки:

3.3.4Создание источника данных

Для создания источника данных перейдем в Администрирование – Источники данных ODBC.

Создаем новый пользовательский DSN путем нажатия на кнопку Добавить. Выбираем в качестве драйвера MySQL ODBC 5.1 Driver

Для дальнейшей настройки необходимо указать параметры в соответствии с приведенными на рисунке

Проверка подключения может быть проведена с использованием кнопки Test. На этом создание источника данных завершено.

3.3.5Настройка Яндекс.Сервер

Для того, чтобы иметь возможность выполнять поиск по MySQL базе данных необходимо в файле конфигурации дополнительно указать параметры подключения к источнику данных:

# название источника данных

Name: testOdbcSource

# название ODBC-источника данных

DataSourceName : mysqlDataSource
# запрос на выборку конкретного документа из БД

DocQuery : SELECT post_title, id, post_content FROM wp_posts
# условие фильтрации (для выборки одного документа)

DocFilter : WHERE id=$1
# запрос для выборки списка документов

UrlQuery : SELECT id FROM wp_posts
# тип возвращаемых данных

MimeType : text/html
# кодировка документов

Charset : utf-8
# поле, определяющее дату создания документа

TimeStamp : post_date
# путь к шаблону для индексирования

Template : c:/doc.tmpl

Также для индексирования необходимо создать файл шаблона документа (doc.tmpl) со следующим содержимым:

$1

$3

1 2 3

Похожие:

	Биология 7 класс Отдел Настоящие Грибы. Лабораторная работа №1 «Строение плесневого гриба мукора». Лабораторная работа №2 «Строение дрожжей»		Лабораторная работа «Устройство микроскопа, приёмы пользования им.... Строение растительной клетки. Лабораторная работа «Устройство микроскопа, приёмы пользования им. Клеточное строение растений»
	Перечень электронных образовательных ресурсов, разработанных учителем... Увеличительные приборы. Строение светового микроскопа и правила работы с ним. Лабораторная работа «Приготовление препарата клеток...		Лабораторная работа Введение в табличный процессор ms excel’2007... Изменять число рабочих листов можно через опцию Office (в левом верхнем углу экрана), кнопку Параметры Excel, опцию Основные, опцию...
	Лабораторная работа №1 По теме ««Изучение Internet в целях использовании... Лабораторная работа предназначена для: обоснования потребности, необходимости и удобства использования среды Internet для поиска...		Лабораторная работа №4 по дисциплине: «Информационно-поисковые системы» Работа заключается в сравнительном изучении заданных глобальных ипс сети Интернет вербального типа
	Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»		Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
	Работа №6 Изучение Тема: лабораторная работа №6 «Изучение треков заряженных частиц по готовым фотографиям»		Лабораторная работа. Работа в сети Интернет Панели инструментов. Всегда должны быть отмечены опции Строка меню и Адресная Строка
	Практикум по курсу Информатика (раздел Работа с пакетами прикладных... Лабораторная работа №6. Обобщение данных. Создание таблицы подстановки. Подведение итогов 28		Лабораторная работа №10: «Измерение кпд при подъеме тела по наклонной плоскости» Кпд механизмов. Лабораторная работа №10: «Измерение кпд при подъеме тела по наклонной плоскости»
	Лабораторная работа №3 «Технологии обработки, автоматизированного реферирования и аннотирования текстов на естественном языке»		Самостоятельная работа обучающегося: 36 часов Аннотации программ учебных дисциплин по специальности 31. 02. 03 Лабораторная диагностика
	Название модуля Лабораторная работа "Приготовление раствора с заданной массовой долей растворённого вещества"		Тема разработки Лабораторная работа №1 «Сравнение количества теплоты при смешивании воды разной температуры»

Школьные материалы