Компьютерная лингвистика: методы, ресурсы, приложения





Скачать 298.54 Kb.
НазваниеКомпьютерная лингвистика: методы, ресурсы, приложения
страница2/3
Дата публикации07.08.2013
Размер298.54 Kb.
ТипДокументы
100-bal.ru > Информатика > Документы
1   2   3

4. Лингвистические ресурсы

Разработка лингвистических процессоров требует соответствующего представления лингвистической информации об обрабатываемом ЕЯ. Эта информация отображается в разнообразных компьютерных словарях и грамматиках.

Словари являются наиболее традиционной формой представления лексической информации; они различаются своими единицами (обычно слова или словосочетания), структурой, охватом лексики (словари терминов конкретной проблемной области, словари общей лексики и т.п.). Единица словаря называется словарной статьей, в ней представляется информация о лексеме. Лексические омонимы обычно представляются в разных словарных статьях.

Наиболее распространены в КЛ морфологические словари, используемые для морфологического анализа, в их словарной статье представлена морфологическая информация о соответствующем слове – часть речи, словоизменительный класс (для флективных языков), перечень значений слова и т.п. В зависимости от организации лингвистического процессора в словарь может быть добавлена и грамматическая информация, например, модели управления слова.

Существуют словари, в которых представлена и более широкая информация о словах. Например, лингвистическая модель «СмыслТекст» существенно опирается на толково-комбинаторный словарь, в словарной статье которого помимо морфологической, синтаксической и семантической информации (синтаксические и семантические валентности) представлены сведения о лексической сочетаемости этого слова.

В ряде лингвистических процессоров используются словари синонимов. Сравнительно новый вид словарей – словари паронимов, т.е. внешне схожих слов, различающихся по смыслу, например, чужой и чуждый, правка и справка [34].

Еще один вид лексических ресурсов – базы словосочетаний, в которые отбираются наиболее типичные словосочетания конкретного языка. Такая база словосочетаний русского языка (около миллиона единиц) составляет ядро системы КроссЛексика [28].

Более сложными видами лексических ресурсов являются тезаурусы и онтологии. Тезаурус – это семантический словарь, т.е. словарь, в котором представлены смысловые связи слов – синонимические, отношения род-вид (иногда называемые отношением выше-ниже), часть-целое, ассоциации. Распространение тезаурусов связано с решением задач информационного поиска [39].

С понятием тезауруса тесно связано понятие онтологии [11]. Онтология – набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач.Онтологии могут создаваться на базе существующей в языке лексики – в этом случае они называются лингвистическими.

Подобной лингвистической онтологией считается система WordNet [24] – большой лексический ресурс, в котором собраны слова английского языка: существительные, прилагательные, глаголы и наречия, и представлены их смысловые связи нескольких типов. Для каждой из указанных частей речи слова сгруппированы в группы синонимов (синсеты), между которыми установлены отношения антонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое). Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения род-вид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формирует общую онтологию – систему основных понятий о мире.

По схеме английского WordNet были построены аналогичные лексические ресурсы для других европейских языков, объединенные под общим названием EuroWordNet.

Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ, тип которых зависит от используемой в процессоре модели синтаксиса. В первом приближении грамматика представляет собой набор правил, выражающих общие синтаксические свойства слов и групп слов. Общее число правил грамматики также зависит от модели синтаксиса, изменяясь от нескольких десятков до нескольких сотен. По существу, здесь проявляется такая проблема, как соотношение в модели языка грамматики и лексики: чем больше информации представлено в словаре, тем короче может быть грамматика и наоборот.

Отметим, что построение компьютерных словарей, тезаурусов и грамматик – объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработка лингвистической модели и соответствующего процессора. Поэтому одной из подчиненных задач КЛ является автоматизация построения лингвистических ресурсов [10, 15].

Компьютерные словари часто формируются конвертацией обычных текстовых словарей, однако нередко для их построения требуется гораздо более сложная и кропотливая работа. Обычно это бывает при построении словарей и тезаурусов для быстро развивающися научных областей – молекулярной биологии, информатики и др. Исходным материалом для извлечения необходимой лингвистической информации могут быть коллекции и корпуса текстов.

Корпус текстов – это коллекция текстов, собранная по определенному принципу представительности (по жанру, авторской принадлежности и т.п.), в которой все тексты размечены, т.е. снабжены некоторой лингвистической разметкой (аннотациями) – морфологической, акцентной, синтаксической и т.п. [3].В настоящее время существует не менее сотни различных корпусов – для разных ЕЯ и с различной разметкой, в России наиболее известным является Национальный корпус русского языка [43].

Размеченные корпуса создаются лингвистами и используются как для лингвистических исследований, так и для настройки (обучения) используемых в КЛ моделей и процессоров с помощью известных математических методов машинного обучения. Так, машинное обучение применяется для настройки методов разрешения лексической неоднозначности, распознавания части речи, разрешения анафорических ссылок.

Поскольку корпуса и коллекции текстов всегда ограничены по представленным в них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), в последнее время все чаще в качестве более полного лингвистического ресурса рассматриваются тексты сети Интернет [13, 35]. Безусловно, Интернет является самым представительным источником образцов современной речи, однако его использование как корпуса требует разработки специальных технологий.

5. Приложения компьютерной лингвистики

Область приложений компьютерной лингвистики постоянно расширяется, так что охарактеризуем здесь наиболее известные прикладные задачи, решаемые ее инструментами.

Машинный перевод [21] – самое раннее приложение КЛ, вместе с которым возникла и развивалась сама эта область. Первые программы перевода были построены более 50 лет назад и были основаны на простейшей стратегии пословного перевода. Однако довольно быстро было осознано, что машинный перевод требует полной лингвистической модели, учитывающей все уровни языка, вплоть до семантики и прагматики, что неоднократно тормозило развитие этого направления. Достаточно полная модель использована в отечественной системе ЭТАП [26], выполняющей перевод научных текстов с французского на русский язык.

Заметим, однако, что в случае перевода на родственный язык, например, при переводе с испанского на португальский или же с русского на украинский (у которых много общего в синтаксисе и морфологии), процессор может быть реализован на основе упрощенной модели, например, на основе все той же стратегией пословного перевода.

В настоящее время существует целый спектр компьютерных систем перевода (разного качества), от больших интернациональных исследовательских проектов до коммерческих автоматических переводчиков. Существенный интерес представляют проекты многоязыкового перевода, с использованием промежуточного языка, на котором кодируется смысл переводимых фраз. Другое современное направление – статистическая трансляция [5], опирающаяся на статистику перевода слов и словосочетаний (эти идеи, к примеру, реализованы в переводчике поисковика Google).

Но несмотря на многие десятилетия развития всего этого направления, в целом задача машинного перевода еще весьма далека до полного решения.

Еще одно довольно старое приложение компьютерной лингвистики – это информационный поиск и связанные с ним задачи индексирования, реферирования, классификации и рубрикации документов [1, 20, 22].

Полнотекстовый поиск документов в больших базах документов (в первую очередь – научно-технических, деловых), проводится обычно на основе их поисковых образов, под которыми понимается набор ключевых слов – слов, отражающих основную тему документа. Сначала в качестве ключевых слов рассматривались только отдельные слова ЕЯ, а поиск производился без учета их словоизменения, что некритично для слабофлективных языков типа английском. Для флективных языков, например, для русского потребовалось использование морфологической модели, учитывающей словоизменение.

Запрос на поиск также представлялся в виде набора слов, подходящие (релевантные) документы определялись на основе похожести запроса и поискового образа документа. Создание поискового образа документа предполагает индексирование его текста, т.е. выделение в нем ключевых слов [12] . Поскольку очень часто гораздо точнее тему и содержание документа отображают не отдельные слова, а словосочетания, в качестве ключевых слов стали рассматриваться словосочетания. Это существенно усложнило процедуру индексирования документов, поскольку для отбора значимых словосочетаний текста потребовалось использовать различные комбинации статистических и лингвистических критериев.

По сути, в информационном поиске в основном используется векторная модель текста (называемая иногда bag of words – мешок слов), при которой документ представляется вектором (набором) своих ключевых слов. Современные интернет-поисковики также используют эту модель, выполняя индексирование текстов по употребляемым в них словам (в то же время для выдачи релевантных документов они используют весьма изощренные процедуры ранжирования).

Указанная модель текста (с некоторыми усложнениями) применяется и в рассматриваемых ниже смежных задачах информационного поиска.

Реферирование текста – сокращение его объема и получение его краткого изложения – реферата (свернутого содержания), что делает более быстрым поиск в коллекциях документов. Общий реферат может составляться также для нескольких близких по теме документов.

Основным методом автоматического реферирования до сих пор является отбор наиболее значимых предложений реферируемого текста, для чего обычно сначала вычисляются ключевые слова текста и рассчитывается коэффициент значимости предложений текста. Выбор значимых предложений осложняется анафорическими связями предложений, разрыв которых нежелателен – для решения этой проблемы разрабатываются определенные стратегии отбора предложений.

Близкая к реферированию задача – аннотирование текста документа, т.е. составление его аннотации. В простейшей форме аннотация представляет собой перечень основных тем текста, для выделения которых могут использоваться процедуры индексирования.

При создании больших коллекций документов актуальны задачи классификации и кластеризации текстов с целью создания классов близких по теме документов [31]. Классификация означает отнесение каждого документа к определенному классу с заранее известными параметрами, а кластеризация – разбиение множества документов на кластеры, т.е. подмножества тематически близких документов. Для решения этих задач применяются методы машинного обучения, в связи с чем эти прикладные задачи называют Text Mining и относят к научному направлению, известному как Data Mining, или интеллектуальный анализ данных [27].

Очень близка к классификации задача рубрицирования текста – его отнесение к одной из заранее известных тематических рубрик (обычно рубрики образуют иерархическое дерево тематик).

Задача классификации получает все большее распространение, она решается, например, при распознавании спама, а сравнительно новое приложение – классификация SMS-сообщений в мобильных устройствах. Новое и актуальное направление исследований для общей задачи информационного поиска – многоязыковой поиск по документам.

Еще одна относительно новая задача, связанная с информационным поиском – формирование ответов на вопросы (Question Answering) [9]. Эта задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих ответ на этот вопрос, и извлечением ответа из этих текстов.

Совершенно иное прикладное направление, которое развивается хотя и медленно, но устойчиво – это автоматизация подготовки и редактирования текстов на ЕЯ. Одним из первых приложений в этом направлении были программы автоматической определения переносов слов и программы орфографической проверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простоту задачи переносов, ее корректное решение для многих ЕЯ (например, английского) требует знания морфемной структуры слов соответствующего языка, а значит, соответствующего словаря.

Проверка орфографии уже давно реализована в коммерческих системах и опирается на соответствующий словарь и модель морфологии. Используется также неполная модель синтаксиса, на основе которой выявляются достаточно частотные все синтаксические ошибки (например, ошибки согласования слов). В то же время в автокорректорах не реализовано пока выявление более сложных ошибок, к примеру, неправильное употребление предлогов. Не обнаруживаются и многие лексические ошибки, в частности, ошибки, возникающие в результате опечаток или неверного использования схожих слов (например, весовой вместо весомый). В современных исследованиях КЛ предлагаются методы автоматизированного выявления и исправления подобных ошибок, а также некоторых других видов стилистических ошибок [25, 29]. В этих методах используется статистика встречаемости слов и словосочетаний.

Близкой к поддержке подготовки текстов прикладной задачей является обучение естественному языку, в рамках этого направления часто разрабатываются компьютерные системы обучения языку – английскому, русскому и др. (подобные системы можно найти в Интернете). Обычно эти системы поддерживают изучение отдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются на соответствующие модели, например, модель морфологии.

Что касается изучения лексики, то для этого также используются электронные аналоги текстовых словарей (в которых по сути нет языковых моделей). Однако разрабатываются также многофукциональные компьютерные словари, не имеющие текстовых аналогов и ориентированные на широкий круг пользователей – например, словарь русских словосочетаний Кросслексика [28]. Эта система охватывает широкий круг лексики – слов и допустимых их словосочетаний, а также предоставляет справки по моделям управления слов, синонимам, антонимам и другим смысловым коррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но и носителям языка.

Следующее прикладное направление, которое стоит упомянуть – это автоматическая генерация текстов на ЕЯ [2]. В принципе, эту задачу можно считать подзадачей уже рассмотренной выше задачи машинного перевода, однако в рамках направления есть ряд специфических задач. Такой задачей является многоязыковая генерация, т.е. автоматическое построение на нескольких языках специальных документов – патентных формул, инструкций по эксплуатации технических изделий или программных систем, исходя из их спецификации на формальном языке. Для решения этой задачи применяются довольно подробные модели языка.

Все более актуальная прикладная задача, часто относимая к направлению Text Mining – это извлечение информации из текстов, или Information Extraction [8], что требуется при решении задач экономической и производственной аналитики. Для этого осуществляется выделение в тесте ЕЯ определенных объектов – именованных сущностей (имен, персоналий, географических названий), их отношений и связанных с ними событий. Как правило, это реализуется на основе частичного синтаксического анализа текста, позволяющего выполнять обработку потоков новостей от информационных агентств. Поскольку задача достаточно сложна не только теоретически, но и технологически, создание значимых систем извлечения информации из текстов осуществимо в рамках коммерческих компаний [44].

К направлению Text Mining относятся и две другие близкие задачи – выделение мнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis), привлекающие внимание все большего числа исследователей. В первой задаче происходит поиск (в блогах, форумах, интернет-магазинах и пр.) мнений пользователей о товарах и других объектах, а также производится анализ этих мнений. Вторая задача близка к классической задаче контент-анализа текстов массовой коммуникации, в ней оценивается общая тональность высказываний.

Еще одно приложение, которое стоит упомянуть – поддержка диалога с пользователем на ЕЯ в рамках какой-либо информационной программной системы. Наиболее часто эта задача решалась для специализированных баз данных – в этом случае язык запросов достаточно ограничен (лексически и грамматически), что позволяет использовать упрощенные модели языка. Запросы к базе, сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняется поиск нужной информации и строится соответствующая фраза ответа.

В качестве последнего в нашем перечне приложений КЛ (но не по важности) укажем распознавание и синтез звучащей речи. Неизбежно возникающие в этих задачах ошибки распознавания исправляются автоматическими методами на основе словарей и лингвистических знаний о морфологии. В этой области также применятся машинное обучение.
1   2   3

Похожие:

Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма дисциплины «Оценка лингвистических систем и компонентов»...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Компьютерная лингвистика: методы, ресурсы, приложения iconОтчет по результатам самообследования отдельной профессиональной...
«Фундаментальная и прикладная лингвистика», магистратура «Компьютерная лингвистика»
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма дисциплины «Численные методы» для специальности 090102. 65 «Компьютерная безопасность»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов специальности 090102 «Компьютерная...
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма по формированию навыков безопасного поведения на дорогах...
Сущность качества и управления им, основные методы управления качеством, сферы приложения методов управления качеством, сферы приложения...
Компьютерная лингвистика: методы, ресурсы, приложения iconОглавление приложения 2
Анализ соответствия учебного плана ооп федеральному государственному образовательному стандарту по направлению подготовки 035700....
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма по формированию навыков безопасного поведения на дорогах...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма дисциплины Современные методы принятия решений  для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 010400....
Компьютерная лингвистика: методы, ресурсы, приложения iconЛекция 11. Прикладная лингвистика. Моделирование языковых процессов....
Прикладная лингвистика — направление в языкознании, занима­ющееся разработкой методов решения практических задач, свя­занных с использованием...
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма дисциплины «Политическая лингвистика» для направления 035800....
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Компьютерная лингвистика: методы, ресурсы, приложения iconРабочая программа дисциплины опд. В. 02 «Практика аудирования» для...
«Лингвистика и новые информационные технологии», специальности 031301. 65 «Теоретическая и прикладная лингвистика», введённому в...
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма по формированию навыков безопасного поведения на дорогах...
Технологии: эор интернет, собственно разработанные ресурсы: компьютерный тест, компьютерная презентация
Компьютерная лингвистика: методы, ресурсы, приложения iconПрограмма для первокурсников «Точка Опоры» Программа рассчитана на...
Использовать возможные ресурсы для эффективной учебы (собственные ресурсы, ресурсы вуза, ресурсы внешней среды)
Компьютерная лингвистика: методы, ресурсы, приложения iconО. Д. Дербенева
Рабочая программа учебной дисциплины «Математические методы в лингвистике» составлена в соответствии с требованиями ооп: 035700....
Компьютерная лингвистика: методы, ресурсы, приложения iconРабочая программа для студентов бакалавриата 036700. 2 «Лингвистика»
«Лингвистика», «Теория и методика преподавания языков и культур» очной формы обучения
Компьютерная лингвистика: методы, ресурсы, приложения iconТема урока: «Информационные ресурсы Интернет. Всемирная паутина»...
Группа кратковременного пребывания «Алёнушка» при мбоу «Тойгильдинская оош» Моргаушского района чр
Компьютерная лингвистика: методы, ресурсы, приложения iconРабочая программа дисциплины опубликована на сайте ТюмГУ: Когнитивная...
Лингвистика (Теория преподавания иностранных языков и культур) очной формы обучения


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск