Протокол





НазваниеПротокол
страница6/8
Дата публикации16.07.2014
Размер0.93 Mb.
ТипДокументы
100-bal.ru > Информатика > Документы
1   2   3   4   5   6   7   8

Дополнительная литература:


  1. Архангельская И.Б. Герберт Маршалл МакЛюэн. От исследования литературы к теории массмедиа. – М., 2007.

  2. Барт. Р. Camera lucida. М., 1997.

  3. Ильин И.П. Постструктурализм. Деконструктивизм. Постмодернизм. – М., 1996.

  4. Лотман Ю.М. Из наблюдений над поэтикой сборника Иосифа Бродского «Урания» // Лотман Ю.М. О поэтах и поэзии. – СПб., 1996.

  5. МакЛюэн М. Галактика Гутенберга. Становление человека печатающего. – М., 2005.

  6. МакЛюэн М. Понимание Медиа. Внешние расширения человека. – М., 2003.

  1. Шнитке А.Г. Полистилистические тенденции в современной музыке // Беседы с Альфредом Шнитке. М., 1994.

  2. Эйзенштейн С. Монтаж. – М., 1998.

  1. Visuelle Poesie // H.L.Arnold, H.Korte. – München, 1997.

  2. Zima Peter V. Komparatistik. – Tübingen, 1992.


Аннотация курса «Компьютерный поиск информации в интернет»

1.Пояснительная записка

Цель курса – познакомить магистров с современными проблемами поиска информации в интернет. Курс «Компьютерный поиск информации в интернет» входит в вариативную часть цикла специализированной подготовки магистерской программы «Компьютерная лингвистика».

Задачи курса: по итогам изучения курса слушатели должны

- понимать теоретическую базу построения алгоритмов поиска

- разбираться в алгоритмах поиска и выбора информации

- уметь применять теоретические знания для решения практических задач поиска информации
Содержание курса:

1. Различные эмпирические данные об устройстве ссылочного веб-графа и ему подобных структур: «мир тесен», степенной закон, предпочтительное присоединение и пр. Обзор существующих моделей случайного графа и веб-графа.

2. Сравнение существующих моделей случайного веб-графа.

3. Распределение степеней вершин и диаметр случайного веб-графа в модели Барабаши – Альберт (теорема Боллобаша – Риордана).

4. Случайные блуждания на графах и соответствующие модели.

5. Различные виды PageRanking.

6. Эпидимические процессы и перколяция.

7. Кластеризация графов.
Литература

1. R. Durrett, «Random graph dynamics», Cambridge, 2007.

2. L.-A. Barabasi, R. Albert, H. Jeong, «Scale-free characteristics of random networks: the topology of the world-wide web», Physica, A281 (2000), 69-77.

3. R. Albert, H. Jeong, L.-A. Barabasi, «Diameter of the world-wide web», Nature, 401 (1999), 130-131.

4. A. Broder et al., «Graph structure in the Web», Computer Networks, 33 (2000), 309-320.

5. J. Leskovec, J. Kleinberg, Ch. Faloutsos, «Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations», Proc. of KDD'05, August 21-24, 2005, Chicago, Illinois, USA.

6. B. Bollobas, O. Riordan, J. Spencer, G. Tusnady, «The degree sequence of a scale-free random graph process», Random Structures Algorithms, 18 (2001), N3, 279-290.

7. B. Bollobas, O. Riordan, «Mathematical results on scale-free random graphs», Handbook of graphs and networks, 1 - 34, Wiley-VCH, Weinheim, 2003.

8. B. Bollobas, O. Riordan, «Robustness and vulnerability of scale-free random graphs», Internet Math., 1 (2003), N1, 1-35.

9. B. Bollobas, O. Riordan, «The diameter of a scale-free random graph», Combinatorica, 24 (2004), N1, 5-34.

10. R. Karp, C. Schindelhauer, S. Shenker, B. Vocking. Randomized Rumor Spreading. 41st IEEE Symposium on Foundations of Computer Science, 2000.

11. L. Lovasz. Random Walks on Graphs: A Survey. Combinatorics: Paul Erdos is Eighty (vol. 2), 1996, pp. 353-398.

12. S. Dill, R. Kumar, K. McCurley, S. Rajagopalan, D. Sivakumar, A. Tomkins. Self-similarity in the Web. 27th International Conference on Very Large Data Bases, 2001.

13. Gary Flake, K. Tsioutsiouliklis, R.E. Tarjan. Graph Clustering Techniques based on Minimum Cut Trees. Internet Mathematics, 2002.
Приложение 4

к протоколу ученого совета

НИУ ВШЭ–НН

от 24 марта 2011 г. № 3
Концепция научно-исследовательского семинара

магистерской программы «Компьютерная лингвистика»
1.Пояснительная записка
Целью междисциплинарного семинара является подготовка магистров, специализирующихся по компьютерной лингвистике, к самостоятельной научно-исследовательской и проектно-организационной работе в области изучения разных семиотических систем. На материале конкретных проектов, осуществляемых учеными НФ ГУ-ВШЭ и приглашенными специалистами, рассматриваются современные методы и средства компьютерной лингвистики.

Прикладной аспект семинара посвящен применению компьютерных инструментов и математических методов к анализу текстов, автоматической обработке сложных текстов, поиску информации в сложной распределенной информационной среде web.

Основная задача семинара – теоретическая и практическая подготовка магистров по компьютерной лингвистике. Ряд тем в семинаре обсуждаются на английском языке. Предполагается участие в работе семинара приглашенных специалистов из университетов Европы и США, что способствует интернационализации магистерской программы.

Научно-исследовательский семинар «Компьютерная лингвистика» опирается на знания и компетенции, полученные студентами в ходе изучения обязательных и вариативных дисциплин общенаучного и профессионального цикла («Современные методы прикладной математики и информатики», «Герменевтика. Философия языка», «Теория межкультурной коммуникации», «Машинное обучение», «Семантика», «Статистические методы анализа текстов», «Интермедиальная компаративистика» и др.).

Проблематика научно-исследовательского семинара в ряде случаев (создание прототипов частотного анализа художественных текстов») соотносится с программой научно-исследовательского семинара по семиотике.

В ходе семинара студенты будут делать рефераты, краткие сообщения, мультимедийные презентации, выступать в прениях по докладам специалистов, создавать рабочие проекты в области семиотики и компьютерной лингвистики. Отчетность предусматривается в виде зачета.
Порядок организации семинара.

Научно-исследовательский семинар предполагается организовать в два этапа (краткое содержание см. ниже).

Этап 1. НИС «Методология и методы исследований в компьютерной лингвистике».

Этап 2. НИС по выбору:

«Технологии компьютерной лингвистики»

«Семиотика сложных мультимедийных текстов»

Т.к. основным результатом успешно проведенного НИС является качественно выполненное диссертационное исследование (магистерская диссертация), принципиально важным является понимание того, что:

  • работа над курсовой выступает первым этапом работы над магистерской диссертацией;

  • выбор и утверждение тем магистерских диссертаций должно быть осуществлено уже на первом году обучения;

  • в работе НИС должны принимать активное участие не только преподаватели-ученые и практики, но и руководители курсовых и магистерских работ.


Формы работы на семинаре.

  • семинар по проектированию научных исследований (курсовой работы и магистерской диссертации);

  • консультативный семинар по отдельным видам научно-исследовательской деятельности (составление аналитических обзоров, организация и проведение эмпирических исследований, количественная и качественная обработка результатов, оформление результатов исследований в форме текстов магистерской диссертации и публикаций, подготовка научных докладов);

  • семинар по презентации и обсуждению результатов выполненных исследований (отдельных этапов и работы в целом);

  • научная дискуссия


Краткое содержание этапов научно-исследовательского семинара магистерской программы «Компьютерная лингвистика»
Этап 1. НИС «Методология и методы исследований в компьютерной лингвистике». (1 курс. Модуль 2, 3)
Научное исследование: принципы и структура (методология науки, нормативный процесс научного исследования, теория и ее структура, научная проблема, гипотеза, общенаучные исследовательские методы, научные школы и парадигмы, особенности исследований в различных отраслях научного знания)

Методы исследований (компьютерная лингвистика как междисциплинарная отрасль прикладного знания; методы исследований в компьютерной лингвистике; экспертная и проектная деятельность в компьютерной лингвистике; основные направления и результаты исследований в компьютерной лингвистике)
Этап 2. НИС по выбору (1 курс. Модуль 4. 2 курс. Модуль 1-3):

«Технологии компьютерной лингвистики»

«Семиотика сложных мультимедийных текстов»
Аннотация научно-исследовательского семинара

«Технологии компьютерной лингвистики»
Содержание семинара
ТЕМА 1. Основные понятия обработки текстов. Письменность с практической точки зрения: буквы, диакритики, лигатуры, регистр, bidirecrtionality. Кодировки, Unicode, каноническое представление. Сегментация теста: графема, слово/лексема, предложение. Алгоритмы сегментации: правила на регулярных выражениях, использование статистики для сегментации.
ТЕМА 2. Булев поиск N-граммный индекс, расстояние Левенштейна, исправление опечаток, soundex-код. Булевский поиск: список позиций, частота термина (TF), документная частота (DF). Инвертированный индекс. Сжатие индекса: стоп-слова, кодирование с переменной длиной, префиксные коды.
ТЕМА 3. Скрытые марковские модели и их применение. Обучение скрытой марковской модели: биграммная модель первого порядка, триграммная модель второго порядка, линейная интерполяция N-граммов, несглаженные N-граммы, сглаживание Лапласа "добавление единицы", сглаживание Witten-Bell-а, сглаживание Good-Turing-а. Алгоритмы для N-граммной модели: forward-backward, Baum-Welch, Viterbi.
ТЕМА 4. Морфология с лингвистической точки зрения. Объект морфологии. Морфемика и грамматическая семантика. Морфологическая классификация языков. Аналитизм и синтетизм. Эволюция языка. Корни и аффиксы. Позиционная классификация аффиксов. Основа и флексия. Словоформа, лексема, парадигма. Согласование. Управление. Семантические и синтаксические роли. Предикат и аргументы. Падежи. Именные и глагольные семантические категории. Семантическая классификация предикатов.
ТЕМА 5. Морфология с алгоритмической точки зрения. Нормализация слов и морфология: выделение основы (stemming), базовая (основная/словарная/нормальная) форма (лемма), лемматизация, tagging.. Морфологический конечный автомат: бессловарный алгоритм Портера, регулярные выражения.
ТЕМА 6. Информационный поиск и ранжирование. Снятие лексической и грамматической омонимии: снятие неоднозначности тегов (POS-tagging), снятие лексической неоднозначности. Векторная модель: векторное пространство, обратная документная частота, tf-idf, нотация Smart, сглаживание, нормализация длины. Вероятностная модель: распределение Пуассона, смешанная модель Katz-а (k-mixture), "двухпуассоновое" распределение, наивная модель Байеса, многовариативная модель Бернулли. Формула Okapi BM25. Языковая модель: отношение правдоподобия (likelihood ratio), униграммная языковая модель, биграммная языковая модель, модель подобия запроса и документа, линейная интерполяция моделей. Оценка качества: информационная потребность, полнота, точность, качество (accuracy), ошибка (fallout), F-мера. Исполнение запроса и вычисление ранга: выполнение запроса по-документное и по-словное (TO, T.A.T), неточные лучшие K документов, прюнинг, "чемпионский список", упорядочивание по убыванию статического ранга.
ТЕМА 7. Основы направления компьютерной лингвистики. Прикладная фонетика. Автоматический синтез и распознавание речи. Корпусная лингвистика и лингвистические ресурсы. Аннотированные корпусы текстов. Методы разметки. Лексические ресурсы и их применение. Машинный перевод.
ТЕМА 8. Морфология. Теггеры на основе марковских моделей. Теггеры на основе трансформаций.Точность теггеров и их применение.
ТЕМА 9. Грамматики и разборы. Контекстно-свободные грамматики, деревья разбора, нормальные формы. Примеры грамматики для английского языка. Разбор сверху вниз и снизу вверх. Алгоритмы Early и CYK. Вероятностные грамматики. Наборы признаков и их унификация. Использование признаков в грамматике, разбор с ограничениями. Типизированные признаки. Лексикализованные, атрибутивные, категориальные грамматики.
ТЕМА 10. Машинный перевод. Выравнивание параллельных текстов. Статистический машинный перевод. Оценка качества машинного перевода. Выделение устойчивых словосочетаний.
ТЕМА 11. Веб и поисковые роботы. Веб-графы. Архитектура поисковых роботов. Анализ ссылок, pagerank, HITS. Анализ потоков данных: выборки, приближенный подсчет и порядковые статистики. Дубликаты и полудубликаты документов. Хеширование с учетом расстояния (locality sensitive hashing). Обзор методов выделения дубликатов и полудубликатов документов.
Основная литература

  1. Марчук Ю.Н. Основы компьютерной лингвистики: Учебное пособие. - М., 1999. - 225 с.

  2. Баранов А.Н. Введение в прикладную лингвистику. - М.: Эдиториал УРСС, 2001. - 360 с.

  3. Бабкин Э. А. Методы искусственного интеллекта: Учебное пособие.-НН:НГТУ.2001. – 302 с.

  4. Кронгауз М. А.
   Семантика : учебник для вузов / М. А. Кронгауз. - М. : РГГУ, 2001. – 398

  5. SPEECH and LANGUAGE PROCESSING: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, By  Daniel Jurafsky and  James H. Martin, Prentice-Hall, 2000, ISBN: 0-13-095069-6

  6. COMPUTATIONAL LINGUISTICS: Models, Resources, Applications by Igor A. Bolshakov and Alexander Gelbukh IPN-UNAM-FCE, 2004, 186 pp.,



1   2   3   4   5   6   7   8

Похожие:

Протокол iconДепартамент научно-технологической политики и образования
Утверждено решением Ученого совета Академии 27. 09. 2004 г. (протокол №1), с изменениями в соответствии с решением Ученого совета...
Протокол iconПротокол № Ильина О. С. Привалов Н. Т
Протокол № от мбоу «Татарско Кандызская сош» /Халиуллин И. Ш
Протокол iconПротокол № от 2011 г
Зам дир по увр с. П. Хлопушина от 2012г. № протокол №
Протокол iconСогласовано утверждено и введено
Мо протокол № педагогического совета школот 20 г протокол № от 20
Протокол iconПротокол от «28» 08. 2012г. №1
Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии (протокол от 20 г. № )
Протокол iconПротокол №1 от «25» августа 2011 г
Обсуждена на заседании кафедры экономики производства 27 января 2009, протокол №9
Протокол iconПротокол заседания от «30» августа 2011г. №01
Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии протокол от 2012 г. №
Протокол iconПриказ №94. 4 от 03. 09. 2012 И. В. Москаленко Протокол № от Протокол
Планируемые результаты освоения обучающимися основной образовательной программы основного общего образования
Протокол iconПротокол №3 от21. 03. 2012г. Принято на педагогическом Совете Протокол №5 от
Программы отдельных учебных предметов, курсов на ступени основного общего образования по фгос
Протокол iconПротокол№1 Протокол №1 Приказом школы №
Программа предназначена для учащихся 8 класса, изучающие предмет «немецкий язык» седьмой год и разработана на основе
Протокол iconПротокол № от 20 г. Председатель Рабочая программа «Деловой этикет и протокол»
Охватывают материал по страноведению англоязычных стран, речевому этикету и правилам написания делового письма
Протокол iconПротокол от 31. 08. 2011г. №1 согласована протокол заседания управляющего...
До революции село Вязовое являлось крупным волостным центром Грайворонского уезда Курской губернии. Здесь до 1917 года действовали...
Протокол iconПрограмма по дпи, разработана на основе базисного учебного плана...
Мо протокол № педагогического совета школот 20 г протокол № от 20
Протокол iconПротокол №1 от 29. 08. 2012г от 31. 08. 2012г
Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии(протокол от «29»марта 2012 г. №8)
Протокол iconПротокол №1 от 31. 08. 2012 г
Рассмотрено и утверждено на заседании учёного совета факультета экономики и управления (протокол от 2012 г. № )
Протокол iconПротокол №3 от 01. 03. 2012 г
Рассмотрено и утверждено на заседании учёного совета факультета экономики и управления (протокол от 2012 г. № )


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск