Автоматическое реферирование и аннотирование текста





Скачать 60.48 Kb.
НазваниеАвтоматическое реферирование и аннотирование текста
Дата публикации02.08.2015
Размер60.48 Kb.
ТипДокументы
100-bal.ru > Информатика > Документы
УДК 81’33
АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ И АННОТИРОВАНИЕ ТЕКСТА

Галуза И.В., Кузнецова А.В.

Научный руководитель старший преподаватель Лабушева Т.М.

Сибирский федеральный университет
Ещё в школе каждый встречался с рефератами – кто-то их делал как домашнее задание, кто-то их читал у доски на оценку. Большинство учеников, услышав слово «реферат» при объявлении домашнего задания, начинал сожалеть о потерянном, на его составление, времени – ведь нужно несколько часов провести за поиском необходимой информации, её чтением, конспектированием и написанием. Но, как известно, технологии не стоят на месте. Теперь все это может сделать компьютер. Именно автоматизации процесса написания реферата посвящена эта статья, но сначала разберёмся с некоторыми терминами.

Реферат – это краткое изложение, отражающее главную тему первоисточника, указанные цели и способы работы. Из жизни мы знаем, что реферат составляется к научным документам (книгам, статьям, документам и т.п.). Реферат помогает человеку быстро ознакомиться с поступившей к нему информацией и отобрать значимую часть. Сам процесс фиксации информации получил название реферирование.

Аннотация — кратко составленное содержание и характеристика статьи, книги или любого другого источника. В аннотации к произведению указываются его особенности и достоинства. Процессом написания содержания и характеристики статьи является аннотирование.

Составление рефератов (реферирование) и аннотаций (аннотирование) занимает очень много времени. В результате до специалистов новая информация доходит в течение длительного времени, это чревато тем, что информация теряет актуальность. Во избежание этого, в современном мире для составления рефератов все чаще и чаще используют компьютерные системы.

Относясь к фундаментальным технологиям искусственного интеллекта, автоматическое реферирование является одним из направлений компьютерной обработки естественного языка.

Для того, чтобы компьютер мог составлять качественные рефераты, ему необходимо уметь следующее:

  1. «осуществлять поиск ключевых фрагментов текста, называемых единицы;

Ключевое слово — слово, повторяющееся несколько раз и несущее основную тематику текста, с учетом синонимов.

Ключевое словосочетание — это словосочетание, собранное из одного и более ключевых слов.

Ключевое предложение — предложение, содержащее в себе более одного ключевого слова или словосочетания.» (информация пункта взята из источника №1)

  1. находить менее значимые единицы;

  2. генерировать из смысловых единиц реферат или аннотацию;

«Смысловыми единицами аннотации могут быть:

  1. ключевые слова или словосочетания текста, начинающиеся со специальных фраз: «Статья посвящена...», «Книга выявляет такие проблемы, как...» и т. п.;

  2. также предложения с элементами оценки: «Статья отражает главную тему...», «Одной из ключевых тем этой статьи является…» и т. д.;

  3. предложения, в которых присутствуют клише, то есть словосочетания, заставляющие обратить внимания на конкретный фрагмент текста: «Целью публикации...», «Автор ставит перед собой задачу…», «Предпринимается попытка...», «Стоит обратить внимание на…» и т. д.»

(информация пунктов “a”-“c” взята из источника №2)

  1. создавать из данных единиц полноценный реферат.

На сегодня почти все системы авто-реферирования текстов используют ключевые единицы реферируемой статьи, являющиеся составляющими текста реферата и используемые системой для составления табличных рефератов. Аннотации, составленные компьютером, также имеют ключевые единицы.

Имеется несколько методов выделения из реферируемого текста ключевых единиц. Самые распространенные из них:

  1. статистические;

  2. позиционные;

  3. логико-семантические.

Статический метод основывается на том, что:

  1. ключевыми или опорными считаются слова, встречающиеся в тексте чаще остальных;

  2. ключевыми являются предложения, имеющие более одного ключевых слов, расположенных поблизости друг с другом.

При помощи статистических коэффициентов система определяет принадлежность какой-либо единицы к понятию «ключевая».

Позиционные методы базируются на ключевых предложениях, т.е. таких, которые присутствуют в заголовках, начале, конце или каких-либо других частях текста. В них содержится важная информация, взятая из источника. Изучая семантику реферируемого источника, эксперты определяют важность этих предложений.

На исследовании структуры и семантики текстов базируются логико-семантические методы. Несмотря на наличие нескольких вариантов этого метода, все они преследуют одну цель — выделение из текста первоисточника предложений, имеющих, по сравнению с другими, наибольший функциональный вес. Эта параметр зависит от большого числа факторов: смысловой зависимости предложения от других, имеет ли предложение значимые семантические слова, фразеологизмы и т.п.

Чаще всего прикладная лингвистика используется интернет сервисами-переводчиками. Авто-реферирование текстов может быть полезным дополнением к программному арсеналу пользователя.

Качество работы таких программ зависимы от огромного числа языковых особенностей. Это усложняет решение многих задач, связанных с автоматическим реферированием текста. И в Интернете трудно найти универсальный и бесплатный сервис для решения таких проблем. Однако, несколько вариантов все же есть. Приведем несколько примеров систем, осуществляющих авто-реферирования текста. (информация из источника №3)

Например, сервис “Visualworld”, Здесь, помимо других интересных возможностей, реализована служба «Рефератор» (visualworld.ru/referat.jsp). Она способна обрабатывать любой предложенный текст и моментально его легко читаемый пересказ. Результат работы службы разделяет страницу на две колонки: слева показан исходный текст, справа – его краткий пересказ. Так же можно управлять объемом полученного реферата, регулируя степень сжатия от 40 до 90%.

Эта служба работает по принципу извлечения из исходного текста отдельных смысловых фрагментов и формируя из них список. Такой принцип имеет небольшой недостаток: иногда «Рефератор» делит большие предложения, и это может повлиять на его понятливость.

c:\users\234\desktop\снимок.png

(текст взят из романа Л.Н. Толстого «Война и мир»)

На практике полезен и англоязычный сервис “WikiSummarizer” (www.wikisummarizer.com), специализирующийся на обработке научных и энциклопедических статей. Составленный реферат вполне годен к прочтению и предоставляет полное впечатление о статье. Сервис удобен и тем, что показывает результат работы алгоритма в трех режимах:

  1. на странице “Visual Summary” выведена упорядоченная схема по принципу "карт разума". Из статьи извлекаются главные аспекты, из которых формируется реферат;

  2. “Tree View” создаёт похожую на текстовый конспект, страницу в виде блоков, в которых выделены основные темы текста. Основываясь на таком черновике, Вы можете вручную создать полноценный реферат и экспортировать его в форматы RTF и HTML;

  3. Режим “Keyword Cloud” является самым простым, так как он создаёт облако ключевых единиц для реферата. 

Подведём итоги.

С развитием компьютерных технологий, появляется все больше решений различного рода проблем, которые доставляли неудобства человеку. Современные компьютерные сервисы могут решать многие из них. Например, составлять рефераты и аннотации к любому тексту. Такие процессы называются авто-реферирование и автоаннотирование. Основой их работы являются ключевые фрагменты текста, несущие смысловую нагрузку и называемые «единицами». По способам извлечения таких единиц из текста наиболее распространены три метода: статический, позиционный и логико-семантический. Так же необходимо понимать, что совершенной, универсальной и, к тому же, бесплатной системы авто-реферирования текста на данный момент не существует по причине того, что автоматический процесс написания рефератов усложнен особенностями каждого из языков. Но в Интернете можно найти несколько неплохих систем со своими плюсами и минусами. Пользуйтесь ими, составляйте рефераты и аннотации, тратя минимум времени и помните, компьютерные технологии не стоят на месте.

Список литературы:

  1. http://pandia.org/text/77/314/36856.php

  2. http://refdb.ru/look/2539413.html

  3. http://www.interface.ru/home.asp?artId=33310

Добавить документ в свой блог или на сайт

Похожие:

Автоматическое реферирование и аннотирование текста iconАвтоматическое реферирование и аннотирование текста
Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию....
Автоматическое реферирование и аннотирование текста iconЛ екция №5 Автоматическое реферирование и аннотирование
Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографиче­ского...
Автоматическое реферирование и аннотирование текста iconЛингвометодический аспект обучения аспирантов реферированию научных текстов
В этих условиях популярными и довольно эффективными в методическом плане становятся и такие разновидности компрессии текста, как...
Автоматическое реферирование и аннотирование текста iconАннотирование и реферирование как основные аспекты формирования письменной...

Автоматическое реферирование и аннотирование текста iconН. А. Фролова федеральное агентство по образованию
Фролова Н. А. Реферирование и аннотирование текстов по специальности (на материале немецкого языка): Учеб пособие / Волггту, Волгоград,...
Автоматическое реферирование и аннотирование текста iconА. В. Игнатовская
Так, приводя пример вторичных текстов, Л. М. Майданова ставит в этот ряд и адаптации: «Таковы пересказ, аннотирование, реферирование,...
Автоматическое реферирование и аннотирование текста iconУчебной дисциплины «Реферирование и аннотирование текстов на иностранном...
Программа предназначена для обучения студентов 3 курса указанного профиля и направления. Дисциплина предшествует изучению курсов...
Автоматическое реферирование и аннотирование текста iconМетодические указания (Английский язык) удк: Реферирование научно-технического текста:
При отборе материала учитывались информативный и познавательный характер текстов, их стиль, терминологическая насыщенность, а также...
Автоматическое реферирование и аннотирование текста iconТребования к реферату по социологии требования к написанию реферата
Реферат – одна из форм интерпретации исходного текста или нескольких источников. Реферирование предполагает изложение какого- либо...
Автоматическое реферирование и аннотирование текста iconАвтоматическое управление и идентификация
Пятьдесят лет факультету летательных аппаратов нгту 3
Автоматическое реферирование и аннотирование текста iconУниверсальное автоматическое электронное устройство для обработки,...

Автоматическое реферирование и аннотирование текста iconУроку II. Актуализация знаний учащихся
Рассказать учащимся о преимуществах компьютерного текста перед рукописными и машинописными текстами; познакомить детей с понятием...
Автоматическое реферирование и аннотирование текста iconРабота с фрагментами текста
...
Автоматическое реферирование и аннотирование текста iconПрограмма по формированию навыков безопасного поведения на дорогах...
Автоматическое составление основного расписания и его корректировка с учетом норм СанПиН 4 2821-10
Автоматическое реферирование и аннотирование текста iconМетоды организации познавательной деятельности
Методами организации познавательной деятельности с учебно-научным текстом являются лингвосмысловой анализ текста, перекодирование...
Автоматическое реферирование и аннотирование текста iconИнформационные технологии и анализ художественного текста Выпускная...
Ит при анализе художественного текста определяется актуальность изучения данной темы. В настоящем реферате будут рассмотрены вспомогательные...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск