Скачать 90.42 Kb.
|
УДК 004.9 Статистические методы анализа языка как способ повышения эффективности генерации языка по шаблонам из многомерных баз данных Маглинец А.Ю., Личаргин Д.В. научный руководитель канд. техн. наук Личаргин Д.В. Сибирский Федеральный Университет, г. КрасноярскАннотация В статье рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели Марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики. Рассматривается вопрос о методах построения шаблонов генерации осмысленных фраз и различных видов проекций информации из этих шаблонов на предложения из корпусов текстов на естественном языке. Рассматривается также вопрос о проецировании частично бессмысленных фраз и фраз с ошибками на данные шаблоны в рамках проблемы автоматической семантической корректуры текста. Делается вывод о необходимость гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам, в частности, устранения семантических ошибок, перевода с элементами реферирования и семантической стандартизации текста. В работе рассматривается проблема построения алгоритма вычисления вероятности проекции фрагмента текста на семантические шаблоны реляционной базы данных. На сегодняшний день широко распространены и разрабатываются разнообразные системы анализа текстов на естественном языке, используются различные методы и критерии отделения осмысленных фраз языка от бессмысленных, в частности, особо важную роль в современной дисциплине «обработка естественного языка» играет статистический метод определения осмысленности фраз. Будучи наиболее проработанным методом на сегодняшний день, он позволяет формировать достаточно работоспособные модели на основе Марковских процессов. Проблема является актуальной в связи с тем, что анализ и аналитика текстов на естественном языке требует больших человеческих и временных ресурсов и нуждается во всё большей автоматизации. Проблема генерации множества осмысленных фраз языка решается на стыке таких наук, как компьютерная лингвистика, искусственный интеллект, традиционная лингвистика, информатика, психология. Проблема генерации естественного языка давно и широко исследуется различными авторами, в частности Т. Виноград, Р. Г. Пиотровским, К. Шенноном, А. Тьюрингом и многими другими. Цель данной работы состоит в описания алгоритма определения соответствия «фрагмент текста – фрагмент базы данных» в первом приближении. Задачи данной работы заключаются в:
Основная идея работы состоит в построении гибридной модели численной оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов. Новизна работы состоит в том, чтобы предложить формулу оценки данной вероятности. Статистический критерий осмысленности. В работах М. Коллинза, Колумбийский Университет, рассматривается вопрос об оценки условного параметра осмысленности фраз естественного языка на основе статистических оценок словоупотребления в контексте пар, троек, четверок и пятерок слов в корпусах текстов на основе модели Марковских процессов. Осуществляется вероятностная оценка возможности вхождения той или иной фразы во множество осмысленных фраз языка с учётом вероятностных оценок прецедентов вхождения однёрок-двоек-троек и так далее слов в большие по объёму корпусы текстов. Парадигматический критерий осмысленности. Данный критерий основывается на классификации понятий и слов естественного языка. Для этого используются деревья классификации, узлами которых являются понятия. Каждому понятию может соответствовать одно слово или целый ряд синонимов или же не соответствовать ни одного слова. Набор узлов-понятий назовем понятийным пространством. Каждому уровню дерева соответствует один определенный семантический дифференцирующий признак, с конечным, фиксированным набором значений. Признаки для узлов разных уровней составляют ряд или вектор признаков классификации. Признаки одного ряда имеют тождественные элементы, определяющие связи и логику классификации, выраженную в виде семантической формулы определяемых понятий. Значения каждого элемента семантического вектора являются понятиями другой классификации – более низкого уровня. Единицы языка разного уровня – предложения, слова и понятия, семы (атомы смысла) и т. д. представлены соответствующими классификациями разного уровня (или как говорят лингвисты разного «яруса»). Каждая классификация генерирует понятия для создания ряда признаков последующих классификаций. Каждую из классификаций задает свой вектор семантических признаков. На основании каждого из этих векторов можно построить семантическую формулу, дерево классификации или многомерное понятийное пространство общие для всех единиц одного уровня. Признаки классификации. Как указывается в работах таких авторов как |
I я | can может | drive водить | my мой | car автомобиль |
We мы | could мог бы | ride везти | your твой | bus автобус |
You вы | may может (с разрешения) | take сесть на | his его | means of transport транспортное средство |
they они | might мог бы (с разрешения) | get on сесть на | her ее | plane самолет |
he он | Shall следует | sit in сесть в | our наш | airplane аэроплан |
Генерация учебных заданий на основе многомерных лингвистических баз данных «Иностранный язык». Выявляются преимущества упорядочения структуры электронного курса и возможности его автоматической генерации... | Отделение статистики, анализа данных и демографии статистические... Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г | ||
Презентация как способ повышения мотивации учащихся на уроках английского языка Задача учителя состоит в том, чтобы создать условия практического овладения языком для каждого учащегося, выбрать так же методы обучения,... | Делимся опытом Конева О. И. Игра как способ повышения учебной мотивации на уроках английского языка | ||
Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, Data Mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | ||
Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | ||
Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори | ||
Урок 4 Класс: 11. Тема урока: «Способы организации баз данных: иерархический,... ... | 2. Поля Цель курса получение студентами знаний об этапах разработки баз данных; о перспективных направлений развития баз данных | ||
А. Л. Исаев, А. М. Чеповский введение в теорию баз данных Введение в теорию баз данных: Учебно-методическое пособие по курсам «Вычислительная техника и информационная технология» и «Базы... | Программа по формированию навыков безопасного поведения на дорогах... И., Сергеева Т. М. На первом заседании в сентябре уточнили план работы на год, определили тему, над которой будет работать методическое... | ||
Методические рекомендации по курсу базы данных подготовки бакалавриата... Цель данного курса дать основные понятия теории баз данных и подходы к проектированию реляционных баз данных. Представить современные... | Программа по формированию навыков безопасного поведения на дорогах... Место урока в теме – урок проводится в ходе изучения темы “Информационные системы”, после изучения понятий базы данных, видов баз... |