Л екция №5 Автоматическое реферирование и аннотирование





Скачать 67.15 Kb.
НазваниеЛ екция №5 Автоматическое реферирование и аннотирование
Дата публикации24.01.2015
Размер67.15 Kb.
ТипДокументы
100-bal.ru > География > Документы
Лекция №5
Автоматическое реферирование и аннотирование
Рефератом называют:

  • доклад на определенную тему, включающий обзор соответствующих литературных и других источников;

  • изложение содержания научной работы, книги и т.д.


Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографиче­ского описания источника.
Аннотацию от реферата отличают:

  • существенно меньший объем;

  • обязательная констатация назначения аннотируемого произведения.


Автоматические реферирование и аннотирование получили значительную актуальность в связи с развитием Internet и каталогов информаци­онных ресурсов. Для экономии времени поиска пользователям предлагают­ся каталоги аннотаций и рефератов источников.

Формирование рефератов и аннотаций вручную требует колоссальных человеческих ресурсов, поэтому и возникла задача создания методов авто­матического реферирования и аннотирования.
Автоматическое реферирование и аннотированиеодно из направлений компьютерной обработки естественно-языковых текстов. И в этом качестве оно относится к фундаментальным технологиям ИИ.

Основные тенденции для данной области:

  • аннотированные каталоги перерастают в гипертекстовые;

  • на всех крупных сайтах Internet предусматривают оглавления (sitemap) и функции поиска по сайту;

  • использование онтологических словарей-тезаурусов общего и специализированного назначения, а также методов ИИ.


Потребности в средствах автоматического реферирования и аннотиро­вания испытывают: корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы вещания; службы рассылки новостей и др.

Методы автоматического реферирования и аннотирования подразделяются на поверхностные и глубинные. Поверхностные методы базируются на «экстрагировании» текста. Глубинные методы, развиваемые в настоящее время, базируются на применении тезаурусов и развитых механизмов синтаксического разбора текста.
К традиционным системам автоматического реферирования и анноти­рования, реализующим поверхностные методы, можно отнести:

  • Microsoft Word (функция автоматического реферирования);

  • ОРФО 5.0 (компания «Информатик»), включающую функцию автоматического аннотирования;

  • «Либретто» (компания «МедиаЛингва»);

  • Программный пакет «МедиаЛингва Аннотатор SDK 1.0»;

  • Поисковую систему «Следопыт», включающую средства автоматического реферирования и аннотирования;

  • Поисковую машину «Золотой Ключик» компании Textar;

  • Intelligent Text Miner (IBM);

  • Oracle Context;

  • программные компоненты для разработки систем управления знаниями Inxight Summarizer фирмы Inxight Software, Inc.

Перечисленные средства обеспечивают выбор оригинальных фрагментов из исходных документов и соединение их в короткий текст.

Источниками информации для ре­фератов и аннотаций могут служить не только тексты, но и видеозаписи, разнообразные табличные документы и т.д.
Основные требования к реферату:

  • сжатие (объем реферата должен составлять от 5 до 30 % от объема исходного документа);

  • возможность использования нескольких источников;

  • выражение всех основных мыслей оригинала.


Выделяют три вида рефератов:

  1. повествовательные;

  2. информационные;

  3. критические (обзоры).


Построение реферата человеком включает следующие этапы:

    • анализ источника;

    • выделение в источнике наиболее важных и информативных фрагментов;

    • формирование выводов.


В теории автоматического реферирования различают три основных подхода. Первый из них не предполагает опору на знания, связанные с текстом на ЕЯ. В системах такого типа применяется универсальная база правил, не зависящая от ПрО и языка текста. Второй подход предусматривает выделение различных уровней понимания текста, что требует исполь­зования наряду с универсальными правилами БЗ о ПрО и базы лингвистиче­ских правил, зависящих от языка. Третий подход является гибридным. Он сочетает лучшие стороны первых двух.

В системах первого типа применяется метод составления выдержек. Он реализуется в два этапа. На пер­вом проводится сопоставление текста и фразовых шаблонов, в результате чего выделяются блоки наибольшей лексической и статистической реле­вантности. На втором — путем соединения выделенных фрагментов форми­руется итоговый документ.
Для реализации первого этапа используют модель линейных весовых коэффициентов. В соответствии с ней каждому блоку U текста оригинала автоматически приписываются весовые коэффициенты:

  • к1, зависящий от расположения блока U в оригинале;

  • к2, зависящий от частоты появления блока в оригинале;

  • к3, зависящий от частоты использования блока в ключевых предложениях;

  • к4, отражающий показатели статистической значимости блока.

Затем по значениям к1, к2, к3 и к4 и коэффициентам настройки программы реферирования 1, 2, 3 и 4 вычисляется коэффициент важности блока B(U) = 1к1 + 2к2 + 3к3 + 4к4. По коэффициентам важности выполняется отбор блоков в реферат.

Для вычисления каждого весового коэффициента используется своя группа правил. Для к1 они учитывают расположение блока. Для к2 правила учитывают результаты автоматической индексации документа. Для к3 учитывается наличие в блоке таких ключевых фраз и выражений, как «в заключение...», «согласно результатам ана­лиза...», «отличный от...», «малозначащий...» и т.п. Для к4 правила учитывают вхождение термина в заголовки, колонтитулы, первый параграф текста, пользовательский профиль запроса и т.п.

Настройка с помощью коэффициентов 1, 2, 3 и 4 позволяет управ­лять степенью сжатия.

Обобщенная архитектура системы автоматического реферирования первого типа



Главное достоинство описанной модели линейных весовых коэффициентов заключается в простоте ее реализации, а главный недостаток связан с возможностью формирования бессвязных рефератов, не учитывающих контекст. Для его устранения вводится этап ручного редактирования ре­зультатов.
Человеку, уловившему общий смысл информации, легче выделить главное и кратко изложить содержание. Это и обусловливает создание реферирующих систем второго типа. Для таких систем требуются:

  • мощные вычислительные ресурсы;

  • развитые грамматики и словари;

  • развитые средства синтаксического разбора;

  • средства генерации естественно-языковых конструкций;

  • онтологические справочники.


В этих системах реализуются три подхода:

1) традиционный метод синтаксического разбора;

2) подход с опорой на понимание ЕЯ;

3) комбинированный подход.
Основные подходы к формированию реферата в системах с опорой на знания

Стадии синтеза реферата в обоих подходах почти совпадают (исполь­зуется генератор текста).
Для функционирования подобных систем необходимы:


  • исчерпывающие словари (тезаурусы) типа WordNet;

  • онтологические справочники типа Сус и Penman Upper Model;

  • большие объемы тестовых файлов с текстами (например, The Wall Street Journal или Perm Treebank от Linguistic Data Consortium).


Отметим следующие задачи, связанные с компьютерным рефе­рированием.
1. Создание одноязычных рефератов из источников на разных языках.

2. Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (таблицы, диаграммы, гра­фики и т.д.).

3. Создание рефератов на основе массивов документов. Например, по­строение единого реферата по сборнику тезисов докладов научной конферен­ции. Одна из областей применения подобных средств — формирование новостных сообщений по газетным источникам.

4. Растущий объем мультимедийной информации обусловливает акту­альность разработки средств ее автоматического реферирования. Методы извлечения семантики из мультимедийной информации находятся на на­чальных стадиях развития.
Средства автоматического аннотирования в целом аналогичны средствам автоматического реферирования. Однако требования к сжатию текста для них, как правило, на порядок более жесткие.


 Системы, обрабатывающие тексты на ЕЯ, в зарубежной литературе назы­вают NLP-системами (natural language processing).


Добавить документ в свой блог или на сайт

Похожие:

Л екция №5 Автоматическое реферирование и аннотирование iconАвтоматическое реферирование и аннотирование текста
Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию....
Л екция №5 Автоматическое реферирование и аннотирование iconАвтоматическое реферирование и аннотирование текста
Но, как известно, технологии не стоят на месте. Теперь все это может сделать компьютер. Именно автоматизации процесса написания реферата...
Л екция №5 Автоматическое реферирование и аннотирование iconАннотирование и реферирование как основные аспекты формирования письменной...

Л екция №5 Автоматическое реферирование и аннотирование iconН. А. Фролова федеральное агентство по образованию
Фролова Н. А. Реферирование и аннотирование текстов по специальности (на материале немецкого языка): Учеб пособие / Волггту, Волгоград,...
Л екция №5 Автоматическое реферирование и аннотирование iconЛингвометодический аспект обучения аспирантов реферированию научных текстов
В этих условиях популярными и довольно эффективными в методическом плане становятся и такие разновидности компрессии текста, как...
Л екция №5 Автоматическое реферирование и аннотирование iconА. В. Игнатовская
Так, приводя пример вторичных текстов, Л. М. Майданова ставит в этот ряд и адаптации: «Таковы пересказ, аннотирование, реферирование,...
Л екция №5 Автоматическое реферирование и аннотирование iconУчебной дисциплины «Реферирование и аннотирование текстов на иностранном...
Программа предназначена для обучения студентов 3 курса указанного профиля и направления. Дисциплина предшествует изучению курсов...
Л екция №5 Автоматическое реферирование и аннотирование iconАвтоматическое управление и идентификация
Пятьдесят лет факультету летательных аппаратов нгту 3
Л екция №5 Автоматическое реферирование и аннотирование iconУниверсальное автоматическое электронное устройство для обработки,...

Л екция №5 Автоматическое реферирование и аннотирование iconПрограмма по формированию навыков безопасного поведения на дорогах...
Автоматическое составление основного расписания и его корректировка с учетом норм СанПиН 4 2821-10
Л екция №5 Автоматическое реферирование и аннотирование iconКафедра русского языка
Рабочая программа учебной дисциплины «Реферирование» составлена в соответствии с требованиями ооп 035700. 62, Лингвистика, на базе...
Л екция №5 Автоматическое реферирование и аннотирование iconУрок 1
Создание помещений прежде всего необходимо для расчета освещенности методом коэффициента использования. В проекте силового электрооборудования...
Л екция №5 Автоматическое реферирование и аннотирование iconСамостоятельная работа -34 час
Формы контроля: анализ и реферирование литературы по профессиональной тематике; эссе (для контроля самостоятельной работы студентов);...
Л екция №5 Автоматическое реферирование и аннотирование iconСамостоятельная работа -62 час
Формы контроля: анализ и реферирование литературы по профессиональной тематике; эссе (для контроля самостоятельной работы студентов);...
Л екция №5 Автоматическое реферирование и аннотирование iconСамостоятельная работа -18 час
Формы контроля: анализ и реферирование литературы по профессиональной тематике; эссе (для контроля самостоятельной работы студентов);...
Л екция №5 Автоматическое реферирование и аннотирование iconСамостоятельная работа -36 час
Формы контроля: анализ и реферирование литературы по профессиональной тематике; эссе (для контроля самостоятельной работы студентов);...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск