Скачать 0.7 Mb.
|
Министерство образования и науки Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Уральский федеральный университет имени первого Президента России Б.Н. Ельцина» Математико-механический факультет Кафедра информатики и процессов управления “ Визуализация семантического анализа текстов ”
Екатеринбург 2011 СОДЕРЖАНИЕ ВВЕДЕНИЕ…………………………………………………………….4 Глава I. ИСТОРИКО-БИБЛИОГРАФИЧЕСКИЙ ОБЗОР………6 Глава II. РЕЗУЛЬТАТЫ СОБСТВЕННЫХ ИССЛЕДОВАНИЙ.34
1.2. Деление пространства………………………………………………..37 1.3. Уточнения, связанные с естественными языками……………...……38
2.1. Radius……………...…………………………………………………44 2.1.1. Архитектура Radius, взаимодействие режимов……………...……..45 2.1.2. Режим сцен……………...………………………………………….49 2.1.3. Режим ресурсов, внешние редакторы……………...…………...…572.1.4. Режим геометрии……………...……………………………………64 2.1.5. Возможности расширения: режим материалов, режим настройки/отладки объекта, режим редактирования сцен UGD…………68 2.2. Перспективы развития проекта……………...………………………69 ЗАКЛЮЧЕНИЕ…………….............................................................…….73 ЛИТЕРАТУРА……………...…………………………………………….74 Условные обозначения, символы, нестандартные сокращения ЭВМ – электронно-вычислительная машина РСС – расширенные семантические сети СМИ – средства массовой информации АЦПУ – аналого-цифровое печатающее устройство АСА – автоматический синтаксический анализ СFVR – “Certain Frames of Virtual Reality”, создаваемая автором программная платформа имитационного моделирования UGD – “Underwater game deluxe” (первоначальное название), один из компонентов CFVR, отвечающий за рендеринг и тестирование результатов моделирования ВВЕДЕНИЕ Роль процессов, связанных с содержательной обработкой информации, несомненно, является в нынешнюю эпоху тотальной информатизации наиболее определяющим звеном научно-технического прогресса. Основная часть ранних работ в области представления знаний, то есть науки о том, как преобразовать знания в такую форму, с которой может легко оперировать компьютер, была привязана к языку и подпитывалась исследованиями в области лингвистики, которые, в свою очередь, основывались на результатах философского анализа языка, проводившегося в течение многих десятилетий. Таким образом, современная лингвистика и бурно развивающаяся наука по созданию искусственного интеллекта, зародившиеся в середине ХХ века, продолжают расти вместе, пересекаясь в гибридной области, которая и называется обработкой естественного языка или компьютерной лингвистикой. Любые значимые успехи, получаемые ныне исследователями в этой области, являются основой успешного научно-технического и экономического развития как частных фирм, так и на уровне государств. Поэтому исследования и разработки в области автоматической обработки текста в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Европейский союз уже несколько лет координирует различные программы в области автоматической обработки текста. Например, Human Language Technology Sector of the Information Society Technologies (IST) Programme 1998 - 2000. Один из наиболее интересных проектов в рамках данной программы - SPARKLE (Shallow PARsing and Knowledge Extraction for Language Engineering), в число участников которого входят такие всемирно известные концерны, фирмы и организации, как Daimler-Benz, Xerox Research Centre in Europe и Cambridge University Computer Laboratory. Цель проекта - создание частичных синтаксических анализаторов для основных языков Европейского союза. В США с 1991 до осени 1998 года существовал проект TIPSTER, организованный Департаментом Обороны и ЦРУ совместно с Национальным Институтом Стандартов и Технологий и Центром военно-воздушных и военно-морских вооружений (SPAWAR). В работе консультативного совета программы участвовали также ФБР, Национальный Научный Фонд и некоторые другие организации. Основной целью программы было сравнение и оценка результатов работы различных поисковых систем и систем реферирования [22]. Глава I. ИСТОРИКО-БИБЛИОГРАФИЧЕСКИЙ ОБЗОР Компьютерная лингвистика как наука и этапы ее развития Технологии анализа естественного языка, моделирования когнитивных процессов понимания, языкового взаимодействия и извлечения информации из текстов объединяются общим термином “Компьютерная лингвистика” (вычислительная лингвистика, computational linguistics) [32]. Компьютерная лингвистика возникает как одно из направлений искусственного интеллекта в 50-х годах 20-го века и основные этапы его развития во многом соотносятся с эволюцией подходов и методов в создании искусственного интеллекта в целом. Толчком к развитию искусственного интеллекта и компьютерной лингвистики послужило, в частности, создание первых ЭВМ в 40-х годах, и, в немалой степени, успешное использование их во время второй мировой войны. Первый этап фундаментального осмысления задач, стоящих перед разработчиками искусственного интеллекта, связывают с классической статьей Тьюринга [57], которая начинается с рассмотрения философски значимого вопроса “может ли машина мыслить” («Can machines think?»). Тьюринг предположил, что о создании искусственного интеллекта можно будет говорить в том случае, если воображаемый компьютер сможет успешно пройти следующий тест: человек, находящийся в другой комнате и задающий вопросы, не может отличить полученные ответы другого человека от ответов машины. Этот тест получил название теста Тьюринга и был подвергнут широкому обсуждению. Важно отметить, что в основе теста лежат проблемы, относящиеся к области автоматической обработки естественного языка и моделирования языкового взаимодействия. Первые разработки в области компьютерной лингвистики были связаны с попытками моделирования языковых способностей человека. Проводились эксперименты по созданию систем машинного перевода и интеллектуальных систем, моделирующих языковое поведение человека (разработка систем общения человека с компьютером, систем понимания естественного языка). Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Однако достаточно скоро стало ясно, что в решении таких задач ни на одном из данных направлений не удается достичь быстрых успехов. В России термин «прикладная лингвистика» получил широкое распространение в 1950-х годах. Это обстоятельство связано с появлением первых компьютерных систем автоматической обработки текстовой информации (машинного перевода, автоматического реферирования и др.). В русскоязычной литературе распространен подход, при котором термин «прикладная лингвистика» отождествляется с терминами «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика», «инженерная лингвистика [3]. Несмотря на большое разнообразие методов, применяемых в различных направлениях прикладной лингвистики, можно выделить общие характерные для нее аспекты — ведущую роль метода моделирования, экспериментальный характер прикладных методик, комплексное сочетание разных наук. Наука о знаках и символах как элементах языка была названа Джоном Локком семиотикой и посвящалась выяснению семантической структуры знаковых систем, позволяющих воплотить необходимую информацию. Знаковая ситуация – это пара из знака и означаемого. Для означаемого в семиотике имеется общепринятый термин денотат. Примеры знаковых ситуаций: реферат- документ, буква-число (в алгебре). Основные черты знака:
Многозначность соответствия «знак-денотат» проявляется как в том, что один и тот же знак может означать разные объекты (омонимия или, иначе, полисемия знака), так и в том, что один и тот же денотат может определяться разными знаками. В последнем случае знаки называются синонимичными. Даже классификационный индекс документа допускает некоторый произвол в выборе, зависящий от интерпретации индексатора. Если же индексирование выполняется автоматически, то этот элемент произвола загоняется в алгоритм индексирования [34]. Концепт. В знаковых ситуациях проявляется всегда и противоположное свойство - системность употребления знаков. Например, даже при выборе собственного (личного) имени не существует полного произвола — имена обычно выбираются из сравнительно узкого списка, причем довольно специфического для данной социальной среды. Собственное имя не столько различает людей, сколько характеризует их принадлежность к некоторому слою, оно может характеризовать национальность, социальную принадлежность, семейную традицию и некоторые другие особенности. Каждое имя, кроме того, что оно обозначает предмет, обозначает и признак, некоторое релевантное свойство обозначаемого. Таким образом, знак может не только обозначать конкретный денотат, но и указывать его место в мире, его отношение к универсуму. Следовательно, знак — это не только условная метка обозначаемого, но и ярлык, определяющий какие-то свойства обозначаемого. Раздел языкознания, изучающий значение единиц языка, называется сема́нтика (от древнегреческого σημαντικός — обозначающий). В качестве инструмента изучения применяют семантический анализ [27]. Теория семантического анализа направлена на решение задач, связанных с возможностью понимания смысла фразы и выдачи запроса поисковой системе в необходимой форме. Сема́нтика в программировании — система правил определения поведения отдельных языковых конструкций и определения смыслового значения предложений алгоритмического языка. [9]. Идея языка как действия была сформулирована в рамках философских исследований лингвистической направленности в ХХ веке. «Грамматическая» модель описания естественных языков была впервые предложена американским лингвистом и психологом Ноамом Хомским в середине 1950-х годов для анализа английского синтаксиса [39] и независимо от него Джоном Бэкусом для анализа синтаксиса языка Algol-58. На данном этапе выяснилось, что проблема понимания языка является гораздо более сложной, чем представлялось. Для понимания языка требуется понимание предмета и контекста речи, а не только анализ структуры предложений. Одной из самых ранних работ по устранению неоднозначности является исследование Уилкса [59] по теории семантики предпочтений, позволяющей свести к минимуму количество семантических аномалий. В этом направлении не без успеха проводились работы и другими авторами, в результате чего получили более широкое распространение методы, основанные на использовании явной байесовской инфраструктуры [38]. В 1963 году в соавторстве с французским математиком Марселем Шютценберже Хомский систематизировал иерархию классов грамматик и соответствующих им классов формальных языков. Как и семантические сети, контекстно-свободные грамматики (или грамматики структуры словосочета- ний) по сути представляют собой повторное изобретение метода, использовав- шегося еще древнеиндийскими филологами. В дальнейшем рядом авторов были разработаны другие варианты и разновидности грамматик – грамматика атрибутов, грамматика определенных выражений, грамматика метаморфоз и другие. Наиболее удачными вариантами формальных грамматик, относящихся к вычислительной лингвистике, т.е. машинно-ориентированных грамматик, являются системы, разработанные в рамках проекта Linguistic String Project в университете штата Нью-Йорк [53], [54] и проекта XTAG в университете штата Пенсильвания [42]. Удачным вариантом системы DCG является Core Language Engine [35]. В рамках направления компьютерная лингвистика в широком смысле слова объединяются как компьютерное моделирование с целью проверки адекватности теоретических формально-математических моделей языка и его отдельных уровней, так и применение различных математических методов для решения конкретных прикладных задач в различных системах обработки информации. Среди современных направлений компьютерной лингвистики можно выделить следующие:
ASR)
Часть данных направлений, а также разработка систем автоматического анализа на разных языковых уровнях: морфологических анализаторов (парсеров), систем автоматического синтаксического анализа и т.п. часто выделяют в отдельную область - автоматическая обработка естественного языка (Natural Language Processing, NLP — общее направление искусственного интеллекта и компьютерной лингвистики [5]. Исторически первую модель распознавателя формальных языков предложил еще в 1936 году английский математик Алан Тьюринг. Машина Тьюринга могла не только распознавать строки символов, но и преобразовывать одни строки в другие. Именно на основе своей машины Тьюринг и спроектировал один из первых в мире компьютеров. Но все же первыми системами NLP, способными решать реальные, хотя и весьма узкоспециализированные задачи, стали, по-видимому, системы формирования ответов на вопросы по бейсбольной статистике BASEBALL в 1961 г. [44] и система Lunar, созданная Вудсом для ответов на вопросы об образцах доставленного «Аполлоном» на Землю лунного грунта [61]. В России термин «прикладная лингвистика» получил широкое распространение в 1950-х годах. Это обстоятельство связано с появлением первых компьютерных систем автоматической обработки текстовой информации (машинного перевода, автоматического реферирования и др.). В русскоязычной литературе распространен подход, при котором термин «прикладная лингвистика» отождествляется с терминами «компьютерная лингвистика», «вычислительная лингвистика», «автоматическая лингвистика», «инженерная лингвистика» [3]. С возникновением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом. В 1960-х годах подобные исследования начались и в СССР. Основной областью разработок стали системы машинного перевода, наиболее известная из которых – ЭТАП – разрабатывается и по сей день в «Лаборатории компьютерной лингвистики» Института Проблем Передачи Информации. |
Реферат: Коваленко А. Е. Разработка системы научной визуализации.... Коваленко А. Е. Разработка системы научной визуализации. Квалификационная работа на степень магистра наук по направлению «Математика.... | Реферат: Шайдуров А. Г. Исследование и разработка некоторых графических... Шайдуров А. Г. Исследование и разработка некоторых графических алгоритмов. Квалификационная работа на степень магистра наук по направлению... | ||
1 Нормативные документы для разработки ооп впо по направлению подготовки... Общая характеристика вузовской основной образовательной программы высшего профессионального образования по направлению подготовки... | Основная образовательная программа (ооп) бакалавриата, реализуемая... Нормативные документы для разработки ооп бакалавриата по направлению подготовки «Прикладная математика и информатика» | ||
Образовательная программа высшего образования, реализуемая университетом... ... | ЕН. Ф. 1 Математика и информатика: математика Учебная дисциплина Математика и информатика: "Математика" введена в процесс обучения для бакалавров по направлению подготовки "Художественное... | ||
Программа дисциплины Современные методы принятия решений для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 010400.... | Программа дисциплины «Модели корпусной лингвистики» для направления... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 010400. 68 "Прикладная... | ||
Программа дисциплины «История» для направления 231300. 62 и 230700.... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 231300.... | Программа дисциплины «Герменевтика» для направления 010400. 68 «Прикладная... Программа предназначена для преподавателей, ведущих данную дисциплину, и студентов направления подготовки 010400. 68 "Прикладная... | ||
Квалификационной работы на факультете математики и компьютерных наук В соответствии с действующими государственными образовательными стандартами выпускная квалификационная работа по специальности «Математика»... | Реферат Флягина Т. А. Проблемы разработки многооконных интерфейсов,... Флягина Т. А. Проблемы разработки многооконных интерфейсов, квалификационная работа на степень бакалавра наук | ||
Программа по формированию навыков безопасного поведения на дорогах... Программа предназначена для преподавателей, ведущих данную дисциплину и студентов направлений 233400. 62 «Информационные системы... | Направлений форума Прикладная и фундаментальная математика (интегрированная в межпредметных областях: математика и история) | ||
Программа дисциплины Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений 231300. 62 «Прикладная... | Программа дисциплины «Правоведение» 010400. 62 «Прикладная математика и информатика» Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки010400.... |