Скачать 71.7 Kb.
|
Автоматическое реферирование и аннотирование текстаРефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (научным книгам, статьям, патентам на изобретение и т.п.) Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию. Процесс составления реферата называется реферированием. Аннотацией называют краткое изложение содержания документа, дающее общее представление о его теме. Таким образом, если реферат в краткой форме знакомит читателя с сутью излагаемого в документе содержания (фактами, методикой, экспериментами и т.п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему. Процесс составления аннотации называется аннотированием. Рефераты и аннотации представляют собой вторичные документы (первичные, или исходные, документы — это книги, статьи, патенты и т. п.) В каждом вторичном документе можно выделить два компонента информации:содержательный и документографический. Первый компонент содержит информацию первоисточника (о чем книга, статья). Второй компонент — это сведения о самом первичном документе (тип документа: книга, статья и т.п.; вид: печатный, рукописный; год издания; место издания и т.д.). В дальнейшем речь пойдет только о первом компоненте вторичного документа. Научно-технический прогресс привел к появлению большого числа публикаций (книг, статей и т.п.) по самым разным проблемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по своей области знания. Для этого, как установлено, человек должен был бы прочитывать ежедневно 1500 страниц текста на разных языках, что явно превышает его физические возможности. Поэтому для оперативного «поверхностного» знакомства с новейшими публикациями используются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных журналах (РЖ) и реферативных сборниках (PC). Реферирование и аннотирование текста являются сложными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов, инженеров и других специалистов новейшая информация (особенно зарубежная) доходит очень медленно, что, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших методик, технологий, процессов. Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют современные компьютеры. Составление реферата или аннотации текста с помощью компьютера называется автоматическим реферированием или аннотированием. При выполнении работы по составлению реферата или аннотации человеком (референтом) обычно выделяют три этапа: 1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом; 2) аналитический — референт делит текст на некоторые фрагменты (абзацы, аспекты и т.п.). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (предложения, словосочетания, слова). Данный этап заканчивается составлением плана будущих реферата или аннотации; 3) этап непосредственного построения реферата или аннотации — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом реферата или аннотации. В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать: 1) целые ключевые предложения; 2) ключевые словосочетания и слова. Ключевое (опорное) слово — это термин, относящийся к основному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов). Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых. Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания. Составление плана будущих реферата или аннотации заключается в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают: 1) основные темы и подтемы исходного текста; 2) основные аспекты исследования; 3) основные ключевые предложения, словосочетания и слова. Создаваемый на 3-м этапе реферат или аннотация содержат выделенные ранее смысловые единицы. В качестве смысловых единиц реферата могут выступать: 1) полные (без изменения) ключевые предложения исходного текста; 2) перефразированные ключевые предложения исходного текста; 3) предложения, составленные из ключевых слов или словосочетаний исходного текста с помощью специальных связующих элементов; 4) предложения, обобщающие несколько предложений исходного текста (не обязательно ключевых). При перефразировании применяются различные лексико-грамматические явления: использование синонимов, конверсивов, замен по принципу «вид — род», «часть — целое» и т.п. При получении новых предложений из ключевых слов и словосочетаний исходного текста чаще всего используют различные логико-смысловые скрепы, например, потому что, в то время как, поэтому, вследствие и т.п. В обобщающих предложениях исходный текст передается совершенно другими словами. В них то же самое содержание излагается в более кратком виде. Смысловыми единицами аннотации могут быть: 1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам: ...» и т.п.; 2) специальные предложения, содержащие оценочные элементы: «Рассматривается важная проблема...», «Статья посвящена актуальной теме...» и т.д.; 3) специальные предложения, содержащие клише, т.е. специализированные словесные штампы, фиксирующие внимание читателя на определенных аспектах содержания: «Недостаток... заключается», «Цель публикации...», «Ставится задача...», «Делается попытка...» и т.д. Следующий важный вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предложения, словосочетания и слова. Это делается, как уже отмечалось, на 2-м этапе общего процесса составления вторичного документа. Читая текст повторно (первый раз он читается на подготовительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов): 1) единицы, которые обязательно должны быть включены в реферат или аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т.е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключевые предложения, словосочетания и слова); 2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т.д. Такие единицы не являются принципиально новыми; 3) единицы, которые аргументируют и иллюстрируют единицы первых двух типов. Единицы первого уровня обязательно используются при составлении реферата. Из единиц второго уровня используются лишь некоторые (в зависимости от типа реферата или его потребителя). Третья группа единиц изредка переносится в реферат в обобщенном виде. Если поручить составление реферата или аннотации компьютеру, то, очевидно, его надо научить выполнять те же действия, которые осуществляет человек. Компьютер должен уметь: 1) находить в тексте ключевые слова, словосочетания и предложения; 2) находить в тексте менее значимые единицы; 3) составлять из текстовых единиц двух первых типов смысловые единицы реферата или аннотации; 4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных смысловых единиц реферата выступают ключевые предложения или ключевые словосочетания и слова исходного текста. Первые в их последовательной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смысловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефератов. При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы:...», «Книга посвящена следующим проблемам: ...», «Статья раскрывает следующие понятия: ...» и т.д. По способам выделения из исходных текстов ключевых словосочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три группы методов: 1) статистические; 2) позиционные; 3) логико-семантические. Суть статистической группы методов заключается в том, что: 1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; 2) ключевым предложением считается предложение текста, которое: а) имеет несколько ключевых слов; б) содержит ключевые слова на небольшом расстоянии друг от друга. Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами. В позиционных методах автоматического реферирования и аннотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа. Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна — выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д. |
Автоматическое реферирование и аннотирование текста Но, как известно, технологии не стоят на месте. Теперь все это может сделать компьютер. Именно автоматизации процесса написания реферата... | Л екция №5 Автоматическое реферирование и аннотирование Под аннотацией понимается краткая характеристика произведения печати или рукописи. Обычно аннотация приводится после библиографического... | ||
Лингвометодический аспект обучения аспирантов реферированию научных текстов В этих условиях популярными и довольно эффективными в методическом плане становятся и такие разновидности компрессии текста, как... | Аннотирование и реферирование как основные аспекты формирования письменной... | ||
Н. А. Фролова федеральное агентство по образованию Фролова Н. А. Реферирование и аннотирование текстов по специальности (на материале немецкого языка): Учеб пособие / Волггту, Волгоград,... | А. В. Игнатовская Так, приводя пример вторичных текстов, Л. М. Майданова ставит в этот ряд и адаптации: «Таковы пересказ, аннотирование, реферирование,... | ||
Учебной дисциплины «Реферирование и аннотирование текстов на иностранном... Программа предназначена для обучения студентов 3 курса указанного профиля и направления. Дисциплина предшествует изучению курсов... | Методические указания (Английский язык) удк: Реферирование научно-технического текста: При отборе материала учитывались информативный и познавательный характер текстов, их стиль, терминологическая насыщенность, а также... | ||
Требования к реферату по социологии требования к написанию реферата Реферат – одна из форм интерпретации исходного текста или нескольких источников. Реферирование предполагает изложение какого- либо... | Автоматическое управление и идентификация Пятьдесят лет факультету летательных аппаратов нгту 3 | ||
Универсальное автоматическое электронное устройство для обработки,... | Уроку II. Актуализация знаний учащихся Рассказать учащимся о преимуществах компьютерного текста перед рукописными и машинописными текстами; познакомить детей с понятием... | ||
Работа с фрагментами текста ... | Программа по формированию навыков безопасного поведения на дорогах... Автоматическое составление основного расписания и его корректировка с учетом норм СанПиН 4 2821-10 | ||
Методы организации познавательной деятельности Методами организации познавательной деятельности с учебно-научным текстом являются лингвосмысловой анализ текста, перекодирование... | Информационные технологии и анализ художественного текста Выпускная... Ит при анализе художественного текста определяется актуальность изучения данной темы. В настоящем реферате будут рассмотрены вспомогательные... |