Кафедра системного программирования





Скачать 467.82 Kb.
НазваниеКафедра системного программирования
страница1/5
Дата публикации26.11.2014
Размер467.82 Kb.
ТипКурсовая
100-bal.ru > Информатика > Курсовая
  1   2   3   4   5
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В.ЛОМОНОСОВА

ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ и КИБЕРНЕТИКИ

КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ

Курсовая работа

Построение риторических деревьев текста на основе машинного обучения в рамках задачи автоматического реферирования.

Исполнитель:

Варламов Максим Игоревич

группа 427

Научный руководитель:

Майоров Владимир Дмитриевич

Москва, 2013

Содержание


2 Обзор существующих решений 8

3 Исследование и построение решения задачи 19

4 Практическая часть 33

Заключение 43

Литература 44



Аннотация


Данная курсовая работа исследует основанные на машинном обучении подходы к построению риторических деревьев текста в рамках Теории Риторической Структуры (Rhetorical Structure Theory). В работе описывается реализация такого подхода в контексте модификации существующей системы автоматического реферирования, использующей риторическую структуру текста для построения его реферата. Алгоритм построения RST-деревьев, используемый в этой системе, является сугубо эвристическим и не использует машинное обучение. Работа оценивает эффективность реализованного подхода по сравнению с исходной эвристикой как на уровне точности риторического анализа текстов, так и на уровне качества рефератов, полученных на его основе.

Введение


Задачей реферирования является составление краткого изложения материала одного или нескольких информационных источников. В условиях постоянного роста количества свободно доступной информации человеку все труднее ориентироваться в ней, поэтому реферативные техники, позволяющие автоматически выделять главное и отбрасывать несущественное, приобретают особое значение. Новостные сводки, аннотации научных статей, сниппеты веб-страниц, дайджесты журналов, обзоры книг, трейлеры фильмов, репортажи спортивных событий – примеры рефератов, с которыми мы встречаемся каждый день.

Данная работа посвящена автоматическому реферированию текстовых документов. В этом аспекте задачу реферирования можно переформулировать как составление текста-реферата по одному или нескольким исходным документам, вкратце отражающему их основные положения. В зависимости от того, для каких целей составляется реферат, на какого читателя рассчитан, какую часть исходных документов должен покрывать, а также от числа текстов-первоисточников, выделяется несколько смежных подзадач автоматического реферирования текстов. Конкретно в данной работе мы рассмотрим составление рефератов наиболее общего назначения по единственному документу-источнику.

Большинство методов автоматического реферирования направлены на выделение в тексте важных фрагментов и перенос их в реферат в практически не измененном виде. Для этого обычно строится некоторая модель исходного текста. Первые и простейшие техники реферирования, такие как [1, 2], использовали частоты употребления отдельных слов и авторскую разметку текста. Другие методы ([3, 4, 5]) используют более сложные модели, например, представление текста в виде графа, где две вершины-предложения связываются дугой, если предложения содержат общие слова. Однако ни те, ни другие модели не претендуют на представление целостной структуры текста в том виде, в котором ее представляет человек. В рамках задачи автоматического реферирования построение таких моделей позволило бы не просто более точно определять наиболее важные фрагменты текста, но и составлять более связные, качественные рефераты. Стремление приблизиться к этому рубежу обосновало появление различных теорий организации структуры дискурса и их использование для моделирования текста. Было предложено несколько различных теорий ([6, 7, 8, 9]), однако наибольшей популярностью пользуется Rhetorical Structure Theory (RST, [10, 11, 12]).

RST определяет набор риторических отношений для описания связей и зависимостей между фрагментами текста. Термин “риторический” здесь близок по смыслу к термину “функциональный”: использование определенных отношений определяется целью, с которой автор пишет текст. Большинство отношений бинарные и асимметричные – определяют связь между двумя фрагментами текста, один из которых (спутник) является зависимым от другого (ядра). Многоядерные, или симметричные, риторические отношения задают связи между двумя и более равнозначными элементами. Поскольку аргументы отношений – непересекающиеся, обычно смежные фрагменты текста – сами могут иметь определенную риторическую структуру, по сути аргументом одного риторического отношения может являться другое риторическое отношение. Данный факт позволяет описывать строение текста в виде иерархической структуры – RST-дерева. Листьям такого дерева соответствуют элементарные, риторически неделимые единицы текста, в роли которых обычно выступают клаузы.

В рамках исследовательского проекта ИСП РАН была разработана система автоматического реферирования текстовых документов, использующая для выделения значимых фрагментов текста его риторическую структуру. Данная система строит RST-дерево подаваемого ей на вход текста с помощью набора эвристик, основанных на синтаксическом анализе предложений. Структура дерева используется для назначения весов его листьям-клаузам, и из наиболее весомых клауз составляется реферат.

Тестирование данной системы выявило относительно низкое качество получаемых с ее помощью рефератов. В качестве тестовых данных использовался набор текстов на английском языке с вручную сделанными аннотациями на основе материалов конференции DUC [17] 2001-го года. Для относительной оценки качества были реализованы два простейших алгоритма автоматического реферирования, выделяющие в качестве реферата соответственно первый абзац исходного текста и набор из первых предложений каждого абзаца. Сгенерированные системой и baseline-алгоритмами рефераты сравнивались с экспертными аннотациями с помощью метрик ROUGE [18]. Результаты приведены в Таблица .

Тем не менее, работы [13, 14, 15, 16] показывают, что риторическая структура документов может быть эффективно использована для получения качественных рефератов. Применимость используемого в рассматриваемой системе алгоритма взвешивания обоснована в [19]. Логично предположить, что причиной неудовлетворительных результатов системы ИСП РАН является низкая корреляция RST-представлений текстов, выделяемых системой, с их реальной риторической структурой. Улучшение механизма построения RST-деревьев может быть достигнуто за счет значительного расширения и усложнения набора используемых эвристик. Однако более интересную альтернативу предлагают работы на основе машинного обучения ([20, 26, 27, 28, 29]), показывающие, что определение риторических отношений в тексте на основе автоматически выведенных правил может быть эффективнее вручную реализованных эвристик.
Таблица . Результаты предварительного тестирования системы автоматического реферирования ИСП РАН на данных DUC-2001 в сравнении с baseline-алгоритмами








Система ИСП РАН

Реферат - первый абзац текста

Реферат состоит из первых предложений каждого абзаца

ROUGE-1

Average recall

0.38252

0.20768

0.39090

Average precision

0.43041

0.58912

0.48388

Average F-measure

0.40461

0.29748

0.42928

ROUGE-2

Average recall

0.13678

0.09795

0.17627

Average precision

0.15380

0.29344

0.21822

Average F-measure

0.14463

0.14292

0.19359

ROUGE-L

Average recall

0.33035

0.19771

0.36961

Average precision

0.37180

0.56068

0.45733

Average F-measure

0.34946

0.28317

0.40585


  1   2   3   4   5

Добавить документ в свой блог или на сайт

Похожие:

Кафедра системного программирования iconМатематико-механический факультет Кафедра системного программирования...
Таким образом, от простой автоматизации импорта/экспорта до построения обмена сообщениями между десятком программ, задачи интеграции...
Кафедра системного программирования iconКурсовой проект по дисциплине «Системы программирования и операционные системы»
Резидентный обработчик прерываний от клавиатуры с подключением до системного обработчика
Кафедра системного программирования iconКафедра системного программирования Разработка программного интерфейса...
Разработка программного интерфейса для мэшап-приложений на базе платформы Ubiq Mobile
Кафедра системного программирования iconРабочая программа дисциплины «программирование и алгоритмизация»
Автоматизация технологических процессов и производств”, с основами алгоритмизации, основными понятиями программирования, несколькими...
Кафедра системного программирования iconТема урока: среда программирования qbasic цели урока
Программы пишут программисты на разных языках программирования. Одним из языков программирования является язык qbasic
Кафедра системного программирования iconКонспект лекций по системному анализу Лекция: История, предмет, цели системного анализа 2
Рассматриваются история развития и предмет системного анализа, системные ресурсы общества, предметная область системного анализа,...
Кафедра системного программирования iconРоссийской федерации
В результате изучения дисциплины «Обзор языков программирования» студенты должны владеть основными технологическими и методическими...
Кафедра системного программирования iconТема: Программное обеспечение компьютера
Цель: будут уметь различать программное обеспечение компьютера, знать о назначении прикладного по, системного по, Систем программирования,...
Кафедра системного программирования iconРабочая программа дисциплины «Системное и прикладное программное обеспечение»
Целью дисциплины является ознакомление студентов с основными технологиями, принципами и методами разработки системного и прикладного...
Кафедра системного программирования iconЯзыки программирования высокого уровня в основной школе
В прошлом году нам предложили два новых языка программирования Scratch lego mindstorms. В нашем лицее мы преподавали и то, и другое....
Кафедра системного программирования iconРабочая программа учебной дисциплины системное программное обеспечение
Ос вычислительных процессов в современных ЭВМ. При изучении дисциплины основное внимание уделяется анализу структуры и характеристик...
Кафедра системного программирования iconПрограмма по формированию навыков безопасного поведения на дорогах...
«Языки программирования» позволяет посредством формирования начальных навыков программирования подготовить платформу для изучения...
Кафедра системного программирования iconРабочая программа по дисциплине с 3 «Технологии и методы программирования»
Цель преподавания дисциплины: Целью изучения дисциплины «Технологии и методы программирования» является изучение современных технологий...
Кафедра системного программирования iconРабочая программа по дисциплине «Операционные системы»
Кроме того, целью преподавания является формирование у студентов системного мышления, теоретической и практической базы системного...
Кафедра системного программирования iconМинистерство науки и образования Российской Федерации Государственное...
Межвузовская студенческая научно-практическая конференция «Молодежь, наука, сервис – XXI век»
Кафедра системного программирования icon* законченный учебник и руководство по языку
Книга Б. Страуструпа "Язык программирования С++" дает описание языка, его ключевых понятий и основных приемов программирования на...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск