Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика»





Скачать 263.72 Kb.
НазваниеПрограмма дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика»
страница6/7
Дата публикации08.11.2014
Размер263.72 Kb.
ТипПрограмма дисциплины
100-bal.ru > Информатика > Программа дисциплины
1   2   3   4   5   6   7

10.3Дополнительная литература


  • Толдова С.Ю., Соколова Е.Г., Астафьева И., Гарейшина А., Королева А., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О.Н. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 11(18). М.: Изд-во РГГУ, 2012. C. 797-809. URL: http://www.dialog-21.ru/digests/dialog2012/materials/pdf/Toldova.pdf

  • Jan Hajič, Massimiliano Ciaramita, Richard Johansson, Daisuke Kawahara, Maria Antonia Mart, Llu´ıs Marquez, Adam Meyers, Joakim Nivre, Sebastian Pado, Jan Štěpánek, Pavel Straňak, Mihai Surdeanu, Nianwen Xue, Yi ZhangThe. CoNLL-2009 Shared Task: Syntactic and Semantic Dependencies in Multiple Languages. CoNLL '09 Proceedings of the Thirteenth Conference on Computational Natural Language Learning: Shared Task. С. 1 19. URL: http://www.mt-archive.info/CoNLL-2009-Hajic.pdf

  • I Chetviorkin, P Braslavskiy, N Loukachevitch. Sentiment Analysis Track at ROMIP 2011//Компьютерная лингвистика и интеллектуальные технологии.–Вып. 11 (18)



10.4Программные средства


Для успешного освоения дисциплины, студент использует следующие программные средства:

Brat rapid annotation tool http://brat.nlplab.org/

Gate https://gate.ac.uk/

И Интернет-ресурсы:

11Материально-техническое обеспечение дисциплины


Занятия должны проходить в компьютерных классах, необходим проектор.
Приложение 1 Примеры практических заданий:
Практическое задание-1

Дан текст. Определите по тексту сложные и спорные случаи для всех этапов (токенизация, лемматизация, омонимя, идиоматизация, незнакомые слова и т.п.) автоматического морфологического анализа. Предложите свои решения относительно проблемных случаев токенизации. Сравните решения относительно токенизации в данных случаях в разных поисковых системах.

Практическое задание-2

В группах по 2-3 человека

Соберите корпус для оценки выделения именованных сущностей. Опишите правила и схему разметки именованных сущностей.

Практическое задание-2-3

3.1.Дан фрагмент текста. Произведите морфологический анализ текста вручную каждый из группы независимо друг от друга. Сравните полученную морфологическую аннотацию (токены, леммы и т.д.).

3.2. В отдельном файле предложен морфологический анализ данного текста 10 разными морфологическими анализаторами. Сравните решения, принятые данными анализаторами для проблемных случаев.

3.3. Оцените, какие типы морфологических тегов Вы будете оценивать, какие теги не стоит включать в оценку.

Практическое задание-4. Задание по анализу работы морфологических разметчиков.


Сравнение работы морфологических анализаторов (в группах из 3-4 человек). Протестируйте работу морфологических анализаторов на выбор:

Mystem - http://company.yandex.ru/technologies/mystem/

    http://www.connexor.com/demo/ - The online demo shows how Machinese analyses language. The featured components are Machinese Phrase Tagger and Machinese Syntax. The supported languages are English, French, German, Spanish, Italian, Dutch, Swedish, Danish, Norwegian and Finnish.

http://nlp.stanford.edu/links/statnlp.html

Ресурсы VISL – http://visl.sdu.dk/visl/en/parsing/automatic/trees.php - анализ английских предложений

  1. Подготовьте файл для функционального тестирования и протестируйте одну из систем.

Позсказка: в файле должны содержаться специально подобранные примеры. Результаты анализа этих примеров должны помочь Вам ответить на следующие вопросы:

    1. Как решаются проблемы токенизации: что происходит с числами, десятичными числами, сокращениями типа г., словами с дефисами, апострофом, знаками препинания? спецзнаками типа $ или &, смешанными элементами (буквы+цифры, вкраплениями другого алфавита) etc. ?

    2. Умеет ли система предсказывать незнакомые слова? Насколько хорошо предсказываются их грамматические характеристики, их леммы?

    3. Что происходит с омонимичными словоформами: предлагается только один максимально вероятный вариант, предлагаются все возможные варианты, предлагаются все варианты, за исключением очень маловероятных случаев или случаев, снимаемых "надежными" правилами и т.п.

    4. Какие типы омонимии разрешаются хорошо, в каких часто возникают ошибки и т.п.

  1. Обработайте с помощью морфологического парсера 2 текста разных жанров объемом 1000 словоупотреблений. Оцените работу системы по следующим метрикам:

  • Уровень оставшейся неоднозначности: число элементов в Output(W) для всех  слов текста, поделенное на число слов в тексте.  Если алгоритм работает однозначно, то этот параметр равняется 1.

  • Лексическая точность алгоритма - число слов текста, для которых лемма приписана правильно, поделенное на общее число слов в тексте.

  • Точностью  назовем число слов текста, для которых в выходном файле осталась правильная морфологическая интерпретация, поделенное на общее число слов в тексте.

  • Полнота – отношение числа разобранных словоупотреблений к числу словоупотреблений в тексте.

Практическое задание 5. Тестирование синтаксических парсеров


(группа из 2-3 человек)

Задача: Тестирование и анализ работы различных синтаксических парсеров

В результате тестирования разметчиков ответьте на следующие вопросы:

  • Какие типы синтаксических связей (составляющих) данные разметчики анализируют наиболее надежно?

  • Какие типы синтаксических связей представляют сложности для разметки?

  • Представляет ли разметчик полный или только частичный синтаксический разбор?

  • Влияет ли на результат разбора порядок слов?

  • Как анализируются предложения с омонимичными словоформами (которым можно приписать 2 и более морфологических тэга), с неизвестными словоформами, с числовыми вставками?

  • Как решается вопрос синтаксической омонимией?

  • Используя лекцию по синтаксической разметке, укажите, какие проблемные места при синтаксической разметке могут возникать, проанализируете, как с ними справляются данные разметчики (3-4 проблемы)?

  • Как справляются разметчики с «разрывными составляющими»?

  • Вспомните плюсы и минусы двух формализмов (НС и зависимости): как эти плюсы и минусы проявляются при реальной работе автоматических синтаксических парсеров, основанных на этих двух формализмах? (см. также лекцию и #Приложение2)
1   2   3   4   5   6   7

Похожие:

Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Политическая лингвистика» для направления 035800....
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Русская литература ХХ века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Русская литература ХХ века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Русская литература XIX века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Русская литература XIX века» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Лингвистическая конфликтология» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Литовский язык» для направления 035800. 62...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 035800. 62 «Фундаментальная...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Теория языка»  для направления 035800. 62...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 035800. 62 «Фундаментальная...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Теория и методика преподавания русского как...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 035800. 62 «Фундаментальная...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Академическое письмо (русский язык)» для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 035800....
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины для направления 035800. 62 «Фундаментальная и прикладная лингвистика»
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины для направления 035800. 62 «Фундаментальная и прикладная лингвистика»
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Иностранный язык (французский)»  для направления...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направлений подготовки 45....
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Лингвистические и логические задачи» для направления...
Составитель – Т. Н. Ермакова, кандидат юридических наук, старший преподаватель кафедры уголовно-правовых дисциплин Вятггу
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «Морфология» для направления 035800. 62 «Фундаментальная...
...
Программа дисциплины «Оценка лингвистических систем и компонентов»  для направления 035800. 68 «Фундаментальная и прикладная лингвистика» iconПрограмма дисциплины «История России в компаративном освещении» для...
Негосударственное образовательное учреждение высшего профессионального образования Филиал спб института внешнеэкономических связей,...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск