Прикладная и математическая лингвистика





Скачать 341.2 Kb.
НазваниеПрикладная и математическая лингвистика
страница1/4
Дата публикации30.07.2013
Размер341.2 Kb.
ТипЛитература
100-bal.ru > Литература > Литература
  1   2   3   4
Прикладная и математическая лингвистика

И. В. Азарова, канд. филол. наук, Санкт-Петербургский государственный университет (Россия)

Оптимальные параметры синтаксической аннотации
в корпусах текстов


При решении общих вопросов создания и обработки корпусов текстов необходимо предусмотреть параметры, которые потребуют систематизации. В частности, одним из важных аспектов лингвистического обеспечения корпусов текстов является аннотация текстов корпуса [Захаров, Азарова, 2012]. Чаще всего рассматривают морфологическую разметку, при этом приоритет отдается международным стандартам, например ME (MULTEXT-East). Однако стремление к универсальности и простоте набора грамматических категорий зачастую приводит к увеличению списка параметров и несовместимости их значений. При этом удлинение параметрической строки и возникновение «запрещенных» цепочек значений категорий усложняет процедуры снятия морфологической неоднозначности [Копотев, 2010].

В докладе планируется расширить предложенные параметры морфологической разметки [Азарова, Гордеев, 2012] до более сложных уровней лингвистического описания. Во-первых, рассмотреть аннотацию линейных синтаксических конструкций, синонимичных морфологическим формам. Во-вторых, предложить необходимые и достаточные параметры и их значения для описания отношений синтаксической зависимости в непредикативных словосочетаниях. В-третьих, показать варианты строения простых предложений в терминах ядра (структурной схемы) и его расширения (распространяющих конструкций). В-четвертых, предложить варианты описания коммуникативной структуры текста: тематических, рематических и иных компонентов организации сверхфразовых единств.
Литература
Азарова И. В., Гордеев С. С. Оптимальные параметры морфологической аннотации при использовании базы данных форм // Материалы XLI международной филологической конференции. Секция прикладной и математической лингвистики. СПб., 2012. C. 3—27.

Захаров В. П., Азарова И. В. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: Межвузовский сборник. Вып. 9. СПб.: СПбГУ, 2012. С. 176—184.

Копотев М. В. Поиск ошибок в корпусе с помощью MTE-разметки // Международная конференция по компьютерной лингвистике «Диалог 2010». М., 2010. URL: http://www. dialog-21. ru/digests/dialog2010/materials/html/34. htm

MULTEXT-East: Multilingual Text Tools and Corpora for Central and Eastern European Languages. URL: http://nl.ijs.si/ME
I. V. Azarova

Optimal parameters for syntactic annotation in corpora

The parameters for the syntactic annotation of corpora are discussed in the paper. The different levels of syntactic representation are in the focus of the study: (1) linear syntactic constructions which are synonymous to morphologic forms; (2) non-predicative syntactic dependencies; (3) structural schemes of clauses and their expansions; (4) communicational units: topics and comments.
Е. Л. Алексеева, канд. филол. наук, Санкт-Петербургский государственный университет (Россия)

К вопросу о древнерусской тайнописи

М. Н. Сперанский определяет тайнопись как такой вид письма, «который, отклоняясь от общеупотребительного, имеет целью сделать написанное слово или мысль, положенную на письмо, недоступными для обыкновенного грамотного читателя или, по крайней мере, создать затруднение для прочтения или уразумения написанного» [Сперанский, 1929, с. 2].

Использовалось несколько способов тайнописи: замена кириллических букв буквами других алфавитов, измененное начертание букв, замена одних букв другими по какой-нибудь определенной системе (литорея), изменение порядка букв в слове (анаграмма), акростих, а также счетная или цифирная тайнопись, использующая тот факт, что почти все буквы обладали также и числовым значением.

Нами опубликован ряд статей, посвященных проблемам дешифровки разных видов тайнописи [Алексеева, 2007a; 2007b; 2008; 2009; 2010; 2011; 2012]; предлагаемый доклад представляет собой продолжение этой темы.
Литература

Алексеева Е. Л. Дешифровка древнерусской тайнописи, использующей условный алфавит // Материалы XXXIX Международной филологической конференции, 15—20 марта 2010 г. Секция прикладной и математической лингвистики. СПб., 2010 С. 6—14.

Алексеева Е. Л. Еще раз о загадке Христофора // Сборник материалов по итогам XLI Международной филологической конференции. Секция прикладной и математической лингвистики. СПб., 2012.

Алексеева Е. Л. К вопросу о счетной (цифирной) тайнописи в русских памятниках письменности // Cтpуктуpнaя и пpиклaднaя лингвиcтикa. Вып. 7. CПб.: Изд-вo CПбГУ, 2008. C. 322—327.

Алексеева Е. Л. Криптограмма в «Диоптре» и ее варианты в древнерусской письменности // Материалы XXXVIII Международной филологической конференции, 16—21 марта 2009 г. Секция прикладной и математической лингвистики. СПб: Факультет филологии и искусств СПбГУ, 2009. С. 3—9.

Алексеева Е. Л. Счетная тайнопись в «Житии Кассиана Угличского»: Атрибуция // Прикладная и математическая лингвистика: Материалы секции XXXVII Международной филологической конференции, 11—15 марта 2008 г., Санкт-Петербург. СПб: Факультет филологии и искусств СПбГУ, 2008. С. 55—56.

Алексеева Е. Л. Тайнопись в Житии Дионисия Глушицкого // Материалы XXXVI Международной филологической конференции 12—17 марта 2007 г. Вып. 10: Прикладная и математическая лингвистика. СПб.: Филологический факультет СПбГУ, 2007. С. 9—10.

Алексеева Е. Л. Тайнопись в нескольких рукописях Кирилло-Белозерского монастыря начала XVII в. // Русская агиография: Исследования. Материалы. Публикации. СПб.: Пушкинский Дом, 2011. Т. II. С. 319—325.

Сперанский М. Н. Тайнопись в югославянских и русских памятниках письма. Л.: Изд-во АН СССР, 1929 С. 2.
E. L. Alexeeva

A Study in Old Russian Cryptography

The paper reveals some problems encountered while deciphering Old Russian cryptograms.
Л. Н. Беляева, д-р филол. наук, Российский государственный педагогический университет им. А. И. Герцена (Россия)

Система машинного перевода как часть технологического процесса

Современный уровень развития лингвистических технологий определяет необходимость уточнения места и функций технического перевода и самого технического переводчика в особой технологической цепочке. Эта цепочка как минимум включает в качестве инструментального ресурса системы машинного перевода, комплекс автоматизированных словарей, предметно-ориентированный корпус текстов, издательские прикладные программы и системы. Оставив в стороне рассуждения о том, является перевод ремеслом или искусством, мы просто вынуждены определить, каковы функции переводчика и терминолога в новой структуре, как должен быть организован обмен информацией в технологической цепочке перевода.

Система машинного перевода в подобной структуре должна включать большое количество специализированных словарей, ориентированных не только на принятую и стандартизированную терминологию соответствующих отраслей, но и на корпоративную терминологию, которая может существенно отличаться и по составу, и по переводным эквивалентам [Кит, 2010]. Сегодня можно утверждать, что результаты, получаемые разными системами МП, сопоставимы по качеству. Более высокое качество характерно для систем, использующих тексты, написанные по жестко заданным правилам и на контролируемых языках. Однако большинство перерабатываемых системами МП текстов написано на естественных языках и, что очень важно, на языках глобальных. Следовательно, для улучшения качества перевода необходимо учитывать особенности текстов и возможности его предварительной подготовки и редактирования.

Особую часть технологической цепочки перевода составляют лексикографические ресурсы, ориентированные на необходимость выполнения терминологической работы: для терминолога существует насущная необходимость реагировать быстро (и стандартным образом), для того чтобы удовлетворять требования к обработке информации и выделять не зарегистрированные ранее или просто новые терминологические единицы. Различия самих исходных текстов, уровней специализации текстов, целей и профилей конечных пользователей и уровня автоматизации объясняют отсутствие универсальных методов для решения задачи извлечения терминов из текстов. Результаты работы терминолога должны вводиться в систему лексикографических ресурсов до того, как переводчик получает текст и результат машинного перевода. В современной технологической цепочке перевода терминологическая работа не просто является самостоятельным звеном, но осуществляется до собственно перевода.

Соответственно, важным решением для организации технологического процесса является разделение функций терминолога и переводчика, т. е. выбор того, кто, собственно, осуществляет ведение специализированных словарей в системе машинного перевода по результатам работы терминолога и переводчика, осуществляется ли это решение до или после окончательного перевода текста, как учитываются переводчиком результаты работы терминолога.

Естественно, технологическая цепочка переводческого процесса должна включать специальное программное обеспечение, поддерживающее работу всех участников.
Литература

Кит М. С. О стратегии построения высокоэффективных сетевых словарей (на базе разработки словаря LexSite) // Вестник РГГУ. М.: Издательский центр РГГУ. 2010. № 9. С. 149—160.
L. N. Beliaeva

Machine Translation System as a Technological Process Component

Modern state of linguistic technologies determines the necessity to specify the place and functions of both technical translation and translator in the specific technological process and appropriate production string. This string includes as minimum a specialized machine translation system, complex of automated and/or automatic dictionaries, subject-oriented parallel or comparable text corpora, application software. Paying no attention to the problem whether translation is a craft or art, we are really forced to determine, what are translator and terminologist functions in this new structure, how information exchange in this technological process is to be organized.
С. Ю. Богданова, д-р филол. наук, Иркутский государственный лингвистический университет (Россия)

О разработке учебного мультимодального корпуса текстов

Мультимодальный (мультимедийный) корпус — это электронный ресурс, предназначенный для изучения звучащей речи, «погруженной» в обстоятельства ее произнесения. Корпус такого рода кроме текстовой составляющей включает видео- или аудиозаписи процесса коммуникации с привязкой к тексту. Тексты выравнивают с их расшифровками, что позволяет исследовать не только языковые единицы, но и речевые действия говорящего в различных ситуациях общения, его неречевое поведение (мимику, жесты, позы).

В Иркутском государственном лингвистическом университете идет работа по созданию учебного мультимодального корпуса (УМКО) видеозаписей неподготовленных учебных диалогов носителей и неносителей русского и китайского языков по определенным темам, размеченных в программе ELAN. В качестве подкорпуса создаваемого мультимодального корпуса разрабатывается параллельный русско-китайский корпус, в котором между собой выравниваются тексты на одном из языков, произнесенные носителями и не носителями языка. Выравнивание осуществляется по смысловым блокам внутри диалогов. Например, диалог носителей русского языка на русском языке сопоставляется с диалогом на ту же тему («Знакомство», «Регистрация в аэропорту» и др.) китайцев, изучающих русский язык, на русском языке. Видеоматериалы снабжены метаданными, включающими такие значимые сведения о коммуникантах, как возраст, пол, образование, стаж изучения иностранного языка и др. Координатором создания корпуса УМКО выступила кафедра прикладной лингвистики.

Выполнение данного крупномасштабного проекта относится к сфере одного из восьми приоритетных направлений развития науки РФ «Информационно-телекоммуникационные системы» в русле информационных технологий и создания электронных баз данных и преследует несколько важных целей:

1) лингводидактическая цель проекта заключается в разработке новых методик преподавания русского и китайского языков как иностранных на эмпирическом материале нового поколения, в том числе с учетом типичных ошибок при построении устных высказываний на иностранном языке студентами старших курсов. Данный корпус предназначен в первую очередь для выработки методических рекомендаций по обучению китайскому языку русских студентов и обучению русскому языку китайских студентов, поскольку позволяет найти пути устранения ошибок в ходе учебных занятий и самостоятельной работы студентов.

Возможность слышать не просто отдельно произнесенное слово, которую предоставляют в настоящее время многие словари, но слышать его в разных контекстах и с поддержкой видео, благодаря которому можно отследить движение губ, выражение лица и интонацию, позволяет точнее определить значение слова в предложении. Это подразумевает расширение осведомленности обучающихся о языковом разнообразии;

2) лингвистическая цель заключается в анализе различных языковых и сопутствующих им паралингвистических явлений, зафиксированных в подкорпусах, созданных на основе видеозаписей диалогов носителей русского и китайского языков. С помощью корпусов текстов можно не только с большей точностью анализировать отдельные факты реализации языковых единиц, но и выявлять общие закономерности, присущие языковой системе.

Постановка цели создания мультимодального русско-китайского учебного корпуса обладает абсолютной новизной. Аналоги корпуса отсутствуют.
S. Yu. Bogdanova

Designing the multimodal learners’ corpus

The first Multimodal Learners’ Corpus of the Russian and Chinese languages is being constructed in Irkutsk state linguistic university. Several topics of everyday use have been chosen and Chinese undergraduate students of Russian and Russian undergraduate students of Chinese were asked to make up dialogues in their own language and in the foreign language. These dialogues have been filmed and annotated with the help of ELAN corpus-manager. Paralinguistic annotation has been added, too. All the dialogues are also represented in the parallel corpus. The corpus will be used in Foreign language teaching.
Д. С. Воевудский, асп., Воронежский государственный университет (Россия)

Статистическая обработка данных о длине нидерландской лексики

(по данным нидерландско-русских словарей)

Целью предлагаемого исследования является выявление закономерностей распределения количества слов по длине посредством построения адекватной стохастической модели.

Для достижения поставленной цели были решены следующие задачи: 1) создание электронных баз данных исследуемых словарей; 2) обработка и аппроксимация полученных данных различными видами распределений с помощью GNU R; 3) проверка полученных результатов.

Поскольку звуковая форма является первичной реальностью языка, данные по этому параметру брались в звуках. Для этого показатели длины в буквах были обработаны по правилам чтения нидерландского языка [Берков, 2001, с. 74—75]. Для анализа были взяты три нидерландско-русских словаря различного размера [Дренясова, 1977; Миронов, 2006; Баар, 2012].

Вся обработка данных и их графическое представление произведены с помощью языка статистической обработки GNU R. В отечественной научно-практической литературе вопрос применения языка R для решения задач математической лингвистики остается нераскрытым.

Анализ словарей был проведен с помощью методов описательной статистики, а также посредством визуализации данных на диаграмме типа «скрипка» (violin plot), как это показано на рис. 1. Эта графическая форма представления дает больше информации о характере распределения, чем «ящик с усами» (box-and-whisker plot), т. к. помимо данных о медиане и квартилях отражает еще и показатели ядерной плотности распределения [Hintze, Nelson, 1998].



Рис. 1. Распределение в виде скрипки по исследуемым словарям
Из полученного распределения можно сделать вывод о том, что между словарями больших размеров наблюдается больше сходства, чем с малым словарем. Разницу в положении медианы можно объяснить тем, что в словарях большого объема больше представлена специальная лексика и термины, которые обычно обладают большей длиной, нежели общеупотребительные слова. Также можно заметить, что распределение ассиметрично со смещением вправо.

Затем полученные данные были обработаны методом бутстреппинга по методике Каллена и Фрея [Cullen, Frey, 1999], чтобы на основании расчета моментов выяснить, какое распределение следует использовать для последующей аппроксимации. Наиболее близкие результаты дали отрицательное биноминальное распределение и распределение Пуассона. Дальнейший анализ результатов аппроксимации методом максимального правдоподобия показал, что более адекватно в данном случае распределение Пуассона. Оно относится к семейству дискретных распределений и задается следующей функцией вероятности:

, где

λ > 0; k = 0,1,2,…; e — основание натурального логарифма.

Проведенные вычисления показали, что при использовании при аппроксимации распределения Пуассона λ ≈ средней длине слова в анализируемом словаре. Так, для словаря ван ден Баара эта величина равна 9,1, для словаря Миронова — 8,5, для словаря Дренясовой — 7,1.

Затем была проведена проверка адекватности аппроксимации распределением Пуассона — были взяты случайные выборки по каждому из словарей в количестве 2000, эти выборки были проведены 10 000 раз и для каждого раза вычислялся критерий согласия Пирсона. Количество успехов, где эмпирическое и теоретическое распределения совпадают, было равно 8441 для словаря Баара, 8508 — для словаря Дренясовой и 8426 — для словаря Миронова.

Таким образом, распределение Пуассона обеспечивает достаточно высокое качество аппроксимации и позволяет выявить закономерность в частотном распределении слов в словаре.
D. S. Voevudsky 
  1   2   3   4

Добавить документ в свой блог или на сайт

Похожие:

Прикладная и математическая лингвистика iconПрограмма дисциплины «Политическая лингвистика» для направления 035800....
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Прикладная и математическая лингвистика iconРабочая программа дисциплины опд. В. 02 «Практика аудирования» для...
«Лингвистика и новые информационные технологии», специальности 031301. 65 «Теоретическая и прикладная лингвистика», введённому в...
Прикладная и математическая лингвистика iconУчебно-методический комплекс рабочая программа для аспирантов специальностей
Сравнительно-историческое, типологическое и сопоставительное языкознание, 10. 02. 21 Прикладная и математическая лингвистика очной...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Оценка лингвистических систем и компонентов»...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Иностранный язык (французский)»  для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений подготовки 45....
Прикладная и математическая лингвистика iconЛекция 11. Прикладная лингвистика. Моделирование языковых процессов....
Прикладная лингвистика — направление в языкознании, занима­ющееся разработкой методов решения практических задач, свя­занных с использованием...
Прикладная и математическая лингвистика iconУчебно-методический комплекс рабочая программа для аспирантов специальностей
Русская литература, 10. 01. 09 Фольклористика, 10. 02. 01 Русский язык, 10. 02. 02 Языки народов Российской Федерации (татарский...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Лингвистическая конфликтология» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Прикладная и математическая лингвистика iconОтчет по результатам самообследования отдельной профессиональной...
«Фундаментальная и прикладная лингвистика», магистратура «Компьютерная лингвистика»
Прикладная и математическая лингвистика iconПрограмма дисциплины «Русская литература ХХ века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Русская литература ХХ века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Прикладная и математическая лингвистика iconПрограмма дисциплины «Русская литература XIX века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Русская литература XIX века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Прикладная и математическая лингвистика iconПрограмма по формированию навыков безопасного поведения на дорогах...
Математическая экономика – это прикладная математическая дисциплина, в которой изучаются конкретные количественные отношения экономических...
Прикладная и математическая лингвистика iconОсновная образовательная программа бакалавриата, реализуемая вузом...
Основная образовательная программа бакалавриата, реализуемая вузом по направлению подготовки 035700. 62 Лингвистика по профилю подготовки...
Прикладная и математическая лингвистика iconПрограмма дисциплины «Литовский язык» для направления 035800. 62...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 035800. 62 «Фундаментальная...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск