Скачать 0.93 Mb.
|
Дополнительная литература:
Аннотация курса «Компьютерный поиск информации в интернет» 1.Пояснительная записка Цель курса – познакомить магистров с современными проблемами поиска информации в интернет. Курс «Компьютерный поиск информации в интернет» входит в вариативную часть цикла специализированной подготовки магистерской программы «Компьютерная лингвистика». Задачи курса: по итогам изучения курса слушатели должны - понимать теоретическую базу построения алгоритмов поиска - разбираться в алгоритмах поиска и выбора информации - уметь применять теоретические знания для решения практических задач поиска информации Содержание курса: 1. Различные эмпирические данные об устройстве ссылочного веб-графа и ему подобных структур: «мир тесен», степенной закон, предпочтительное присоединение и пр. Обзор существующих моделей случайного графа и веб-графа. 2. Сравнение существующих моделей случайного веб-графа. 3. Распределение степеней вершин и диаметр случайного веб-графа в модели Барабаши – Альберт (теорема Боллобаша – Риордана). 4. Случайные блуждания на графах и соответствующие модели. 5. Различные виды PageRanking. 6. Эпидимические процессы и перколяция. 7. Кластеризация графов. Литература 1. R. Durrett, «Random graph dynamics», Cambridge, 2007. 2. L.-A. Barabasi, R. Albert, H. Jeong, «Scale-free characteristics of random networks: the topology of the world-wide web», Physica, A281 (2000), 69-77. 3. R. Albert, H. Jeong, L.-A. Barabasi, «Diameter of the world-wide web», Nature, 401 (1999), 130-131. 4. A. Broder et al., «Graph structure in the Web», Computer Networks, 33 (2000), 309-320. 5. J. Leskovec, J. Kleinberg, Ch. Faloutsos, «Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations», Proc. of KDD'05, August 21-24, 2005, Chicago, Illinois, USA. 6. B. Bollobas, O. Riordan, J. Spencer, G. Tusnady, «The degree sequence of a scale-free random graph process», Random Structures Algorithms, 18 (2001), N3, 279-290. 7. B. Bollobas, O. Riordan, «Mathematical results on scale-free random graphs», Handbook of graphs and networks, 1 - 34, Wiley-VCH, Weinheim, 2003. 8. B. Bollobas, O. Riordan, «Robustness and vulnerability of scale-free random graphs», Internet Math., 1 (2003), N1, 1-35. 9. B. Bollobas, O. Riordan, «The diameter of a scale-free random graph», Combinatorica, 24 (2004), N1, 5-34. 10. R. Karp, C. Schindelhauer, S. Shenker, B. Vocking. Randomized Rumor Spreading. 41st IEEE Symposium on Foundations of Computer Science, 2000. 11. L. Lovasz. Random Walks on Graphs: A Survey. Combinatorics: Paul Erdos is Eighty (vol. 2), 1996, pp. 353-398. 12. S. Dill, R. Kumar, K. McCurley, S. Rajagopalan, D. Sivakumar, A. Tomkins. Self-similarity in the Web. 27th International Conference on Very Large Data Bases, 2001. 13. Gary Flake, K. Tsioutsiouliklis, R.E. Tarjan. Graph Clustering Techniques based on Minimum Cut Trees. Internet Mathematics, 2002. Приложение 4 к протоколу ученого совета НИУ ВШЭ–НН от 24 марта 2011 г. № 3 Концепция научно-исследовательского семинара магистерской программы «Компьютерная лингвистика» 1.Пояснительная записка Целью междисциплинарного семинара является подготовка магистров, специализирующихся по компьютерной лингвистике, к самостоятельной научно-исследовательской и проектно-организационной работе в области изучения разных семиотических систем. На материале конкретных проектов, осуществляемых учеными НФ ГУ-ВШЭ и приглашенными специалистами, рассматриваются современные методы и средства компьютерной лингвистики. Прикладной аспект семинара посвящен применению компьютерных инструментов и математических методов к анализу текстов, автоматической обработке сложных текстов, поиску информации в сложной распределенной информационной среде web. Основная задача семинара – теоретическая и практическая подготовка магистров по компьютерной лингвистике. Ряд тем в семинаре обсуждаются на английском языке. Предполагается участие в работе семинара приглашенных специалистов из университетов Европы и США, что способствует интернационализации магистерской программы. Научно-исследовательский семинар «Компьютерная лингвистика» опирается на знания и компетенции, полученные студентами в ходе изучения обязательных и вариативных дисциплин общенаучного и профессионального цикла («Современные методы прикладной математики и информатики», «Герменевтика. Философия языка», «Теория межкультурной коммуникации», «Машинное обучение», «Семантика», «Статистические методы анализа текстов», «Интермедиальная компаративистика» и др.). Проблематика научно-исследовательского семинара в ряде случаев (создание прототипов частотного анализа художественных текстов») соотносится с программой научно-исследовательского семинара по семиотике. В ходе семинара студенты будут делать рефераты, краткие сообщения, мультимедийные презентации, выступать в прениях по докладам специалистов, создавать рабочие проекты в области семиотики и компьютерной лингвистики. Отчетность предусматривается в виде зачета. Порядок организации семинара. Научно-исследовательский семинар предполагается организовать в два этапа (краткое содержание см. ниже). Этап 1. НИС «Методология и методы исследований в компьютерной лингвистике». Этап 2. НИС по выбору: «Технологии компьютерной лингвистики» «Семиотика сложных мультимедийных текстов» Т.к. основным результатом успешно проведенного НИС является качественно выполненное диссертационное исследование (магистерская диссертация), принципиально важным является понимание того, что:
Формы работы на семинаре.
Краткое содержание этапов научно-исследовательского семинара магистерской программы «Компьютерная лингвистика» Этап 1. НИС «Методология и методы исследований в компьютерной лингвистике». (1 курс. Модуль 2, 3) Научное исследование: принципы и структура (методология науки, нормативный процесс научного исследования, теория и ее структура, научная проблема, гипотеза, общенаучные исследовательские методы, научные школы и парадигмы, особенности исследований в различных отраслях научного знания) Методы исследований (компьютерная лингвистика как междисциплинарная отрасль прикладного знания; методы исследований в компьютерной лингвистике; экспертная и проектная деятельность в компьютерной лингвистике; основные направления и результаты исследований в компьютерной лингвистике) Этап 2. НИС по выбору (1 курс. Модуль 4. 2 курс. Модуль 1-3): «Технологии компьютерной лингвистики» «Семиотика сложных мультимедийных текстов» Аннотация научно-исследовательского семинара «Технологии компьютерной лингвистики» Содержание семинара ТЕМА 1. Основные понятия обработки текстов. Письменность с практической точки зрения: буквы, диакритики, лигатуры, регистр, bidirecrtionality. Кодировки, Unicode, каноническое представление. Сегментация теста: графема, слово/лексема, предложение. Алгоритмы сегментации: правила на регулярных выражениях, использование статистики для сегментации. ТЕМА 2. Булев поиск N-граммный индекс, расстояние Левенштейна, исправление опечаток, soundex-код. Булевский поиск: список позиций, частота термина (TF), документная частота (DF). Инвертированный индекс. Сжатие индекса: стоп-слова, кодирование с переменной длиной, префиксные коды. ТЕМА 3. Скрытые марковские модели и их применение. Обучение скрытой марковской модели: биграммная модель первого порядка, триграммная модель второго порядка, линейная интерполяция N-граммов, несглаженные N-граммы, сглаживание Лапласа "добавление единицы", сглаживание Witten-Bell-а, сглаживание Good-Turing-а. Алгоритмы для N-граммной модели: forward-backward, Baum-Welch, Viterbi. ТЕМА 4. Морфология с лингвистической точки зрения. Объект морфологии. Морфемика и грамматическая семантика. Морфологическая классификация языков. Аналитизм и синтетизм. Эволюция языка. Корни и аффиксы. Позиционная классификация аффиксов. Основа и флексия. Словоформа, лексема, парадигма. Согласование. Управление. Семантические и синтаксические роли. Предикат и аргументы. Падежи. Именные и глагольные семантические категории. Семантическая классификация предикатов. ТЕМА 5. Морфология с алгоритмической точки зрения. Нормализация слов и морфология: выделение основы (stemming), базовая (основная/словарная/нормальная) форма (лемма), лемматизация, tagging.. Морфологический конечный автомат: бессловарный алгоритм Портера, регулярные выражения. ТЕМА 6. Информационный поиск и ранжирование. Снятие лексической и грамматической омонимии: снятие неоднозначности тегов (POS-tagging), снятие лексической неоднозначности. Векторная модель: векторное пространство, обратная документная частота, tf-idf, нотация Smart, сглаживание, нормализация длины. Вероятностная модель: распределение Пуассона, смешанная модель Katz-а (k-mixture), "двухпуассоновое" распределение, наивная модель Байеса, многовариативная модель Бернулли. Формула Okapi BM25. Языковая модель: отношение правдоподобия (likelihood ratio), униграммная языковая модель, биграммная языковая модель, модель подобия запроса и документа, линейная интерполяция моделей. Оценка качества: информационная потребность, полнота, точность, качество (accuracy), ошибка (fallout), F-мера. Исполнение запроса и вычисление ранга: выполнение запроса по-документное и по-словное (TO, T.A.T), неточные лучшие K документов, прюнинг, "чемпионский список", упорядочивание по убыванию статического ранга. ТЕМА 7. Основы направления компьютерной лингвистики. Прикладная фонетика. Автоматический синтез и распознавание речи. Корпусная лингвистика и лингвистические ресурсы. Аннотированные корпусы текстов. Методы разметки. Лексические ресурсы и их применение. Машинный перевод. ТЕМА 8. Морфология. Теггеры на основе марковских моделей. Теггеры на основе трансформаций.Точность теггеров и их применение. ТЕМА 9. Грамматики и разборы. Контекстно-свободные грамматики, деревья разбора, нормальные формы. Примеры грамматики для английского языка. Разбор сверху вниз и снизу вверх. Алгоритмы Early и CYK. Вероятностные грамматики. Наборы признаков и их унификация. Использование признаков в грамматике, разбор с ограничениями. Типизированные признаки. Лексикализованные, атрибутивные, категориальные грамматики. ТЕМА 10. Машинный перевод. Выравнивание параллельных текстов. Статистический машинный перевод. Оценка качества машинного перевода. Выделение устойчивых словосочетаний. ТЕМА 11. Веб и поисковые роботы. Веб-графы. Архитектура поисковых роботов. Анализ ссылок, pagerank, HITS. Анализ потоков данных: выборки, приближенный подсчет и порядковые статистики. Дубликаты и полудубликаты документов. Хеширование с учетом расстояния (locality sensitive hashing). Обзор методов выделения дубликатов и полудубликатов документов. Основная литература
|
Департамент научно-технологической политики и образования Утверждено решением Ученого совета Академии 27. 09. 2004 г. (протокол №1), с изменениями в соответствии с решением Ученого совета... | Протокол № Ильина О. С. Привалов Н. Т Протокол № от мбоу «Татарско Кандызская сош» /Халиуллин И. Ш | ||
Протокол № от 2011 г Зам дир по увр с. П. Хлопушина от 2012г. № протокол № | Согласовано утверждено и введено Мо протокол № педагогического совета школот 20 г протокол № от 20 | ||
Протокол от «28» 08. 2012г. №1 Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии (протокол от 20 г. № ) | Протокол №1 от «25» августа 2011 г Обсуждена на заседании кафедры экономики производства 27 января 2009, протокол №9 | ||
Протокол заседания от «30» августа 2011г. №01 Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии протокол от 2012 г. № | Приказ №94. 4 от 03. 09. 2012 И. В. Москаленко Протокол № от Протокол Планируемые результаты освоения обучающимися основной образовательной программы основного общего образования | ||
Протокол №3 от21. 03. 2012г. Принято на педагогическом Совете Протокол №5 от Программы отдельных учебных предметов, курсов на ступени основного общего образования по фгос | Протокол№1 Протокол №1 Приказом школы № Программа предназначена для учащихся 8 класса, изучающие предмет «немецкий язык» седьмой год и разработана на основе | ||
Протокол № от 20 г. Председатель Рабочая программа «Деловой этикет и протокол» Охватывают материал по страноведению англоязычных стран, речевому этикету и правилам написания делового письма | Протокол от 31. 08. 2011г. №1 согласована протокол заседания управляющего... До революции село Вязовое являлось крупным волостным центром Грайворонского уезда Курской губернии. Здесь до 1917 года действовали... | ||
Программа по дпи, разработана на основе базисного учебного плана... Мо протокол № педагогического совета школот 20 г протокол № от 20 | Протокол №1 от 29. 08. 2012г от 31. 08. 2012г Рассмотрено и утверждено на заседании учёного совета факультета педагогики и психологии(протокол от «29»марта 2012 г. №8) | ||
Протокол №1 от 31. 08. 2012 г Рассмотрено и утверждено на заседании учёного совета факультета экономики и управления (протокол от 2012 г. № ) | Протокол №3 от 01. 03. 2012 г Рассмотрено и утверждено на заседании учёного совета факультета экономики и управления (протокол от 2012 г. № ) |