Скачать 475.81 Kb.
|
2.4Задание для самостоятельного выполнения
По каждому из указанных ключевых слов в тестовой коллекции есть документы, поэтому по каждому из запросов должны быть найдены документы. 2.5Отчет по лабораторной работеОтчет по лабораторной работе должен включать в себя:
3Лабораторная работа №2. Настройка информационно-поисковой системы Яндекс.Сервер для поиска по SQL базе данных. Сравнение поисковых механизмов методом анализа иерархий3.1Цели и задачи работыЦель работы: настройка информационно-поисковой системы Яндекс.Сервер для работы с СУБД MySQL. Сравнение методом анализа иерархий встроенной в веб-приложение системы поиска, полнотекстового индекса, предлагаемого СУБД и информационно-поисковой системы Яндекс.Сервер. Задачи работы:
3.2Теоретические сведения3.2.1Модель булева поискаРассмотрим один из самых простых алгоритмов информационного поиска – булев поиск. Модель булева поиска – это модель информационного поиска, в ходе которого можно обрабатывать любой запрос, имеющий вид булева выражения, то есть выражения, в котором термины используются в сочетании с булевыми операциями AND, OR, NOT. В рамках данной модели документ рассматривает как набор слов. Рассмотрим модель булева поиска на конкретном примере. На портале кафедры АСУ есть большой набор учебных документов и нам необходимо определить, в каких документах используются слова «Информационная система» AND «Проектирование» AND NOT «Мехатроника». Для этого можно прочитать все лекции от начала до конца и исключить из рассмотрения лекции, в которых встречается слово «Мехатроника», а простейший компьютерный метод решения этой задачи сводится к последовательному просмотру (linear scanning) всех документов. Этот метод дает неплохие результаты на небольшой коллекции документов, но для корпоративного применения он не годится – нет возможности постоянно просматривать все доступные документы, особенно в распределенной среде. Для того, чтобы избежать последовательного просмотра документов при каждом запросе заранее составляется поисковый индекс. Опишем создание индекса на рассмотренном ранее примере. Для каждого термина (или слова, в конкретном примере) составляется запись, в которой указано, содержится ли он в каждом конкретном документе или нет. В результате мы получим бинарную матрицу инцидентности «термин-документ» (term-document incidence matrix). В зависимости от направления просмотра этой матрицы мы можем получить либо вектор термина, который показывает, в каких документах он встречается, либо вектор документа, в котором указано, какие термины он содержит. Для обработки рассмотренного ранее запроса «Информационная система» AND «Проектирование» AND NOT «Мехатроника» нужно взять вектор каждого из терминов и выполнить для них поразрядную операцию AND. Рассмотрим теперь более реалистичный сценарий, где количество документов исчисляется сотнями тысяч и миллионами (пример, среднее количество документов, создаваемое ИС с 5000 активных пользователей – около 10000 в сутки, следовательно, в месяц создается около 3 млн. документов). Цель любой информационно-поисковой системы – найти в коллекции документы, которые являются наиболее релевантными по отношению к произвольным информационным потребностям, сообщаемых системе при помощи однократных, инициированных пользователем запросов. При таком масштабе у нас получится сильно разряженная матрица, которая содержит 98% нулей, поэтому используется другой подход – инвертированный индекс. Инвертированный индекс строится по следующему алгоритму:
Такая структура инвертированного индекса является наиболее эффективной для текстового поиска по произвольному запросу. Обработка булева запроса по инвертированному индексу происходит следующим образом:
Такая модель поиска наиболее широко распространена в корпоративных информационных системах, так как набор параметров, по которым выполняется поиск может быть заранее задан, чтобы получить максимально релевантные результаты. 3.2.2Модель ранжированного поискаАльтернативой модели булева поиска является модель ранжированного поиска, в рамках которой пользователи в основном применяют текстовые запросы в свободной форме, то есть набирают простые текстовые запросы не используя сложные булевы операции, система сама решает, какие документы лучше удовлетворяют этим запросам. Модель ранжированного поиска появилась в связи с развитием информационных технологий и должна была удовлетворять следующим условиям:
Модель ранжированного поиска реализована во всех современных поисковых системах и обычно выставлена на первое место, но они также содержат и механизмы простого булева поиска, которые могут дать лучшие результаты, но используются гораздо реже. 3.3Методика выполнения работы3.3.1Подготовка окруженияДля выполнения лабораторной работы необходимо иметь установленную и настроенную СУБД MySQL, а также веб-приложение WordPress. Данные программные продукты можно найти в дополнительном материале к данной лабораторной работе. СУБД MySQL, а также веб-сервер Apache, необходимые для работы с WordPress собраны в пакет прикладных программ Denwer. Запуск Denwer осуществляется с помощью исполняемого файла run.exe из директории /WebServers/Denwer. Для начала проверим функционирование установленной копии WordPress. Для этого в браузере откроем страницу http://wordpress/ Здесь мы видим установленную копию свободной системы управления содержимым WordPress. Данная система используется как платформа для ведения блогов, но может быть дополнительно расширена модулями для решения более широкого круга задач. В качестве хранилища данных данная система использует СУБД MySQL. Мы будем использовать WordPress как интерфейс для управления данными, хранящимися в СУБД. Версия WordPress, необходимая для выполнения данной лабораторной работы уже содержит минимально необходимый набор материалов, который может быть расширен. Вход в панель управления веб-приложением осуществляется по адресу http://wordpress/wp-admin/ Для входа нужно указать логин и пароль. В данной инсталляции логин и пароль – admin. Панель управления Вы можете видеть на следующем рисунке: 3.3.2Настройка Яндекс.Сервер для работы с MySQLДля использования MySQL в качестве источника данных ее необходимо зарегистрировать как источник данных ODBC в системе. Для этого первоначально нужно установить MySql ODBC Connector и создать новый источник данных. 3.3.3Установка MySQL ODBC ConnectorУстановка выполняется с использованием стандартного мастера установки: 3.3.4Создание источника данныхДля создания источника данных перейдем в Администрирование – Источники данных ODBC. Создаем новый пользовательский DSN путем нажатия на кнопку Добавить. Выбираем в качестве драйвера MySQL ODBC 5.1 Driver Для дальнейшей настройки необходимо указать параметры в соответствии с приведенными на рисунке Проверка подключения может быть проведена с использованием кнопки Test. На этом создание источника данных завершено. 3.3.5Настройка Яндекс.СерверДля того, чтобы иметь возможность выполнять поиск по MySQL базе данных необходимо в файле конфигурации дополнительно указать параметры подключения к источнику данных:
Также для индексирования необходимо создать файл шаблона документа (doc.tmpl) со следующим содержимым:
|
Биология 7 класс Отдел Настоящие Грибы. Лабораторная работа №1 «Строение плесневого гриба мукора». Лабораторная работа №2 «Строение дрожжей» | Лабораторная работа «Устройство микроскопа, приёмы пользования им.... Строение растительной клетки. Лабораторная работа «Устройство микроскопа, приёмы пользования им. Клеточное строение растений» | ||
Перечень электронных образовательных ресурсов, разработанных учителем... Увеличительные приборы. Строение светового микроскопа и правила работы с ним. Лабораторная работа «Приготовление препарата клеток... | Лабораторная работа Введение в табличный процессор ms excel’2007... Изменять число рабочих листов можно через опцию Office (в левом верхнем углу экрана), кнопку Параметры Excel, опцию Основные, опцию... | ||
Лабораторная работа №1 По теме ««Изучение Internet в целях использовании... Лабораторная работа предназначена для: обоснования потребности, необходимости и удобства использования среды Internet для поиска... | Лабораторная работа №4 по дисциплине: «Информационно-поисковые системы» Работа заключается в сравнительном изучении заданных глобальных ипс сети Интернет вербального типа | ||
Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации» | Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации» | ||
Работа №6 Изучение Тема: лабораторная работа №6 «Изучение треков заряженных частиц по готовым фотографиям» | Лабораторная работа. Работа в сети Интернет Панели инструментов. Всегда должны быть отмечены опции Строка меню и Адресная Строка | ||
Практикум по курсу Информатика (раздел Работа с пакетами прикладных... Лабораторная работа №6. Обобщение данных. Создание таблицы подстановки. Подведение итогов 28 | Лабораторная работа №10: «Измерение кпд при подъеме тела по наклонной плоскости» Кпд механизмов. Лабораторная работа №10: «Измерение кпд при подъеме тела по наклонной плоскости» | ||
Лабораторная работа №3 «Технологии обработки, автоматизированного реферирования и аннотирования текстов на естественном языке» | Самостоятельная работа обучающегося: 36 часов Аннотации программ учебных дисциплин по специальности 31. 02. 03 Лабораторная диагностика | ||
Название модуля Лабораторная работа "Приготовление раствора с заданной массовой долей растворённого вещества" | Тема разработки Лабораторная работа №1 «Сравнение количества теплоты при смешивании воды разной температуры» |