Скачать 170.35 Kb.
|
Правительство Российской Федерации Государственный университет –Высшая школа экономикиФакультет БИЗНЕС-ИНФОРМАТИКИПрограмма дисциплины Технологии поиска, анализа данных и распространения информации в Интернет для направления 080700.68 «Бизнес-информатика» подготовки магистра Автор д.т.н. В.А. Фомичев (vfomichov@hse.ru) Рекомендована секцией УМС Одобрена на заседании «Бизнес-информатика» кафедры инноваций и бизнесав сфере информационных технологий Председатель Зав. кафедрой ______________ Ю.В.Таратухина _______________С.В. Мальцева «___» _________2010 г. «_10_» 09 2009 г. Утверждена УС факультетабизнес-информатики Председатель УС ___________ В.В. Никитин «___» ________2010 г. Москва I. Тематический план учебной дисциплины
II. Базовые учебники
Mathematical Models and Algorithms. New York, Dordrecht, Heidelberg, London: Springer U.S., 2010. - 354 p. ISBN: 978-0-387-72924-4 III. Формы текущего контроля знаний студентов и структура итоговой оценки Итоговая оценка по учебной дисциплине складывается из следующих элементов:
Структура итоговой оценки по учебной дисциплине:
IV. Содержание программы Тема 1. Принципы организации современных поисковых систем в Интернет Основные идеи гипертекстовой информационной технологии. Построение запросов на поиск информации в сети Интернет. Организация современных систем поиска информации в Интернет. Принципы поиска информации. Принципы ранжирования найденных источников. Основная литература 1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с. Тема 2. Значение проекта Семантическая Паутина для расширения возможностей смыслового поиска информации в сети Интернет Семантически-структурированные языки представления информации в проекте Семантическая Всемирная Паутина (Semantic Web). Основные структуры данных языка RDF. Примеры. Основные структуры данных языка RDF Schema. Определение и использование понятия “онтология” в информатике. Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков. Общая характеристика языка разработки онтологий OWL. Виды описаний классов в языке OWL. Описание класса посредством перечисления в языке OWL. Описание класса посредством ограничений на значения в языке OWL. Описание класса посредством ограничений на свойства представителей класса в языке OWL. Описание подклассов в языке OWL. Применение онтологий для сопоставления содержания запроса пользлвателя Сети с содержанием элетронного документа. Основная литература:
Дополнительная литература:
Тема 3. Хранилища данных Концепция хранилища данных. Принципы организации хранилищ данных. Очистка данных. Основная литература
Тема 4. OLAP-системы Концепция многомерной модели данных. 12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда. Тест FASMI. Архитектура OLAP-систем. MOLAP-серверы. ROLAP-серверы. HOLAP-серверы. Основная литература
Тема 5. Интеллектуальный анализ данных Определение и предпосылки возникновения интеллектуального анализа данных (ИАД), или добычи данных (Data Mining, DM), или извлечения знаний из данных (Knowledge Discovery in Databases, KDD). Место и роль Data Mining в процессе принятия решений. Основные задачи Data Mining, виды моделей. DM и статистический анализ. Data Mining и хранилища данных. DM и OLAP. Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы и инструментарий Data Mining. Типы закономерностей, которые позволяют выявлять методы Data Mining. Компоненты систем Data Mining. Практическое применение систем Data Mining. Интернет-технологии. Торговля. Телекоммуникации. Промышленное производство. Медицина. Банковское дело. Страховой бизнес. Модели Data Mining. Предсказательные модели. Описательные модели. Методы Data Mining. Базовые методы. Применение нечеткой логики. Генетические алгоритмы. Нейронные сети. Область их применения. Основные этапы процесса обнаружения знаний. Основная литература: 1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с. Тема 6. Интеллектуальный анализ естественно-языковых текстов Лингвистические процессоры. Полнотекстовые базы данных. Проблема извлечения знаний из текстов. Text Mining и Web Mining. Определение семантического представления текста на естественном языке (ЕЯ). Построение семантических представлений ЕЯ-текстов средствами языков логики предикатов первого порядка. Ограниченность выразительных возможностей класса языков логики предикатов первого порядка. Понятие семантической сети. Построение семантических представлений ЕЯ-текстов в виде семантических сетей. Концептуальные графы. Проблема разработки универсального семантического сетевого языка и существующие подходы к ее решению. Семантический сетевой язык UNL (Universal Networking Language). Ограниченность выразительных возможностей языка UNL. Краткая характеристика системы правил, предлагаемых теорией К-представлений для формирования семантических представлений ЕЯ-текстов. Построение семантических представлений описаний ситуаций в теории К-представлений. Построение семантических представлений вопросов в теории К-представлений. Построение семантических представлений связных текстов (дискурсов) в теории К-представлений. Структура лингвистической базы данных. Морфологические базы данных. Структура лексико-семантического словаря. Cловари глагольно-предложных семантико-синтаксических фреймов. Словари предложных семантико-синтаксических фреймов. Принципы и методы семантико-синтаксического анализа естественно-языковых текстов. Компонентно-морфологическое представление входного текста. Структура матричного семантико-синтаксического представления ЕЯ – текста. Метод преобразования ЕЯ-текстов в их семантические представления. Метод выявления вида входного текста. Метод обработки ролевых вопросительных словосочетаний. Метод поиска возможных смысловых связей между значением глагольной формы и значением зависящей от нее группы слов. Обработка прилагательных, предлогов, количественных числительных и существительных. Принципы сборки семантического представления входного текста по его матричному семантико-синтаксическому представлению. Методы кластеризации текстов. Проблема автоматизации реферирования (аннотирования) текстов. Методы извлечения фрагментов для аннотаций. Компьютерные средства интеллектуального анализа естественно-языковых текстов. Основная литература:
Mathematical Models and Algorithms. New York, Dordrecht, Heidelberg, London: Springer U.S., 2010. - 354 p. ISBN: 978-0-387-72924-4 (планируемый срок опубликования онлайн версии книги – 02.12.2009). Дополнительная литература:
Тема 7. Дистанционное обучение Сущность, актуальность и содержание дистанционного обучения. Виды дистанционного обучения. Психологические и социальные аспекты. Достигнутые результаты. Характеристики различных поколений систем дистанционного обучения. Технические средства для построения систем дистанционного обучения третьего поколения. Структура и возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0. Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм учебного процесса. Формы стимулирования познавательной деятельности студентов. Значение дискуссионных форумов для стимулирования совместной учебной деятельности студентов дистанционного класса. Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к студентам. Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения. Роль онтологий в системах дистанционного обучения.Основная литература:
V.Тематика заданий по различным формам текущего контроля: Контрольная работа: Содержание Задачи по теме “ Интеллектуальный анализ естественно-языковых текстов”. Основные типы задач контрольной работы:
Методические указания по подготовке реферата по дисциплине «Технологии поиска, анализа данных и распространения информации в Интернет» Общие требования
Список направлений Направление 1: Применения семантически-ориентированного компьютерного анализа естественного языка Вопросы, на которые нужно обращать основное внимание:
Основные ключевые слова и сочетания для поиска: Semantics-oriented natural language processing (NLP), semantic analysis of natural language sentences and discourses, semantic-syntactic analysis, semantic processing of texts (of full texts, of free texts), textual databases, semantic representation (or conceptual representation) of natural language text, knowledge representation, conceptual graph, formal language, semantics-oriented natural language interface (NL- interface), recommender systems with NL- interfaces, E-commerce, electronic commerce, natural language dialog-based navigation system, text mining, knowledge extraction from natural language texts Направление 2: Анализ состояния исследований по рекомендательным системам с естественно-языковым интерфейсом (Recommender Systems with Natural Language Interface). Основные ключевые слова и сочетания для поиска: cм. Направление 1+ natural language generation + preference handling + intelligent consulting Направление 3: Смысловой поиск информации в полнотекстовых базах данных (Conceptual Information Retrieval in Full-Text Databases) Основные ключевые слова и сочетания для поиска: cм. Направление 1 + bioinformatics + medicine + law Направление 4: Обогащение онтологий посредством извлечения знаний компьютерной системой из естественно-языковых текстов (The Construction of Ontologies with the Help of Natural Language Processing Systems) Основные ключевые слова и сочетания для поиска: cм. Направление 1 + Ontology + Knowledge representation + Knowledge processing + OWL Направление 5: Применения языков RDF, RDFS и OWL для построения семантических аннотаций Веб-документов и Веб-сервисов Направление 6: Семантическая обработка данных в электронном здравоохранении (e-health) Направление 7: Семантическая обработка данных в электронных библиотеках (digital libraries) Направление 8: Совершенствование методов поиска информации в проекте Семантическая Паутина Направление 90: Средства и методы семантической интеграции данных в электронном здравоохранении (e-health) и электронной науке (e-science) Направление 10: Семантические основы электронной науки (semantic e-science) Направление 11: Автоматизация синтеза естественно-языковых описаний фрагментов знаний, представленных в онтологиях OWL-выражениями Направление 12: Технологии интеллектуального реферирования текстов (Intelligent Text Summarization) Основные ключевые слова и сочетания для поиска: cм. Направление 1. VI. Вопросы для оценки качества освоения дисциплины Основные идеи гипертекстовой информационной технологии. Организация современных систем поиска информации в Интернет. Принципы поиска информации. Задачи проекта Семантическая Всемирная Паутина. Определение и использование понятия “онтология” в информатике. Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков. Семантически-структурированные языки представления информации в проекте Семантическая Всемирная Паутина. Основная структура данных языка RDF. Пример Назначение и разновидности структуры данных container в языке RDF. Назначение и структуры данных языка RDF Schema (RDFS) . Виды описаний классов в языке OWL. Описание класса посредством перечисления в языке OWL. Описание класса посредством ограничений на значения в языке OWL. Описание класса посредством ограничений на свойства представителей класса в языке OWL. Описание подклассов в языке OWL. Применение онтологий для сопоставления содержания запроса пользлвателя Сети с содержанием элетронного документа. Концепция хранилища данных. Принципы организации хранилищ данных. Очистка данных. 12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда. Тест FASMI. Архитектура OLAP-систем. MOLAP-серверы. ROLAP-серверы. HOLAP-серверы. Определение и предпосылки возникновения интеллектуального анализа данных (ИАД), или добычи данных (Data Mining, DM), или извлечения знаний из данных (Knowledge Discovery in Databases, KDD). Место и роль Data Mining в процессе принятия решений. Основные задачи Data Mining, виды моделей. Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы и инструментарий Data Mining. Типы закономерностей, которые позволяют выявлять методы Data Mining. Компоненты систем Data Mining. Практическое применение систем Data Mining. Предсказательные модели Data Mining. Описательные модели Data Mining.. Базовые методы Data Mining. Применение нечеткой логики в системах Data Mining. Генетические алгоритмы. Нейронные сети. Область их применения. Основные этапы процесса обнаружения знаний. Полнотекстовые базы данных. Проблема извлечения знаний из текстов. Text Mining и Web Mining. Области применения лингвистических процессоров Определение семантического представления текста на естественном языке Построение семантических представлений ЕЯ-текстов средствами языков логики предикатов первого порядка. Ограниченность выразительных возможностей класса языков логики предикатов первого порядка. Семантические сети. Концептуальные графы. Проблема разработки семантического сетевого языка и существующие подходы к ее решению. Краткая характеристика системы правил, предлагаемых теорией К-представлений для формирования семантических представлений ЕЯ-текстов. Построение семантических представлений описаний ситуаций в теории К-представлений Построение семантических представлений описаний множеств в теории К-представлений Построение семантических представлений вопросов с ответом "Да"/"Нет".в теории К-представлений Построение семантических представлений вопросов со словами “какие”, “каким” и т.д. в теории К-представлений Построение семантических представлений вопросов о количестве предметов в теории К-представлений Построение семантических представлений вопросов о количестве событий в теории К-представлений. Структура лингвистической базы данных. Морфологические базы данных. Структура лексико-семантического словаря. Структура словаря глагольно-предложных семантико-синтаксических фреймов. Структура словаря предложных семантико-синтаксических фреймов. Принципы и методы семантико-синтаксического анализа естественно-языковых текстов. Методы кластеризации текстов. Проблема автоматизации реферирования (аннотирования) текстов. Методы извлечения фрагментов для аннотаций. Компьютерные средства анализа естественно-языковых текстов. Технические средства для построения систем дистанционного обучения третьего поколения. Структура и возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0. Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм учебного процесса. Формы стимулирования познавательной деятельности студентов. Значение дискуссионных форумов для стимулирования совместной учебной деятельности студентов дистанционного класса. Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к студентам. Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения. Роль онтологий в системах дистанционного обучения. Автор программы: _____________В.А. Фомичев |
Учебное пособие Технологии обработки информации. Технологии хранения,... Технологии обработки информации. Технологии хранения, поиска и сортировки информации в бд. Учеб. Пособие. М. МиигаиК, 2014. 31с | Структура рабочей программы дисциплины (модуля). Интернет-технологии Выработать практические навыки поиска информации, работы с электронной почтой, системами общения в режиме реального времени | ||
К методическим указаниям о порядке формирования и использования информационного... Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)... | Исследование эффективности поиска сведений в интернете Хх столетия. Эта дисциплина возникла в ответ на увеличившуюся потребность в эффективных методах сбора, обработки, хранения, поиска... | ||
Урока информатики по теме «Табличные базы данных». (Открытый урок.) Данный урок «База данных. Системы управления базами данных» является первым уроком по теме «Технологии хранения, поиска и сортировки... | Интернет как источник информации Интернет – виртуальное информационное пространство, уникальное и универсальное по своим свойствам и функциям. Это, прежде всего,... | ||
Конспект урока по информатике для учащихся 11 класса «Средства поиска данных в Интернете» Введение. Содержание дисциплины и порядок ее изучения. Фактографический поиск. Математические модели фактографического поиска. Информационная... | Отчет по дисциплине «информационные системы и технологии» Оcнову всех cиcтем информационного здравоохранения cоcтавляют гоcударственная статистическая документация, данные социологических... | ||
Определитесь с инструментами поиска Для обнаружения в текстах фрагментов, аналогичных заданному, используются инструменты линейного поиска информации. К таким инструментам... | Выпускная работа по «Основам информационных технологий» Перспективы использования ит для поиска и анализа данных о Дж. Р. Р. Толкине и его творчестве 9 | ||
Рабочая программа учебной дисциплины «интернет-технологии» Учебно-методический комплекс дисциплины «Интернет технологии» разработан в соответствии с требованиями Государственного образовательного... | Рабочая программа учебной дисциплины «интернет-технологии» Учебно-методический комплекс дисциплины «Интернет технологии» разработан в соответствии с требованиями Государственного образовательного... | ||
Пояснительная записка Учебно-методический комплекс по дисциплине... Целью курса является формирование у студентов понимание основ массовой информации, функционирования конкретных средств ее распространения... | Белки это жизнь? Исследование источников информации (книги, газеты, журналы, Интернет) по данному вопросу. Анализ полученных данных. Создание презентации... | ||
Лабораторная работа №1 По теме ««Изучение Internet в целях использовании... Лабораторная работа предназначена для: обоснования потребности, необходимости и удобства использования среды Internet для поиска... | Рефераты или презентации Первая группа заданий – теоретические, связанные с поиском информации. Вы можете использовать Интернет и другие источники информации... |