Скачать 122.91 Kb.
|
V Международная научно-практическая конференция«Современные информационные технологии и ИТ-образование»Доклад на тему: «Автоматический геокодинг новостной информации» Подготовил: Комяков Алексей Владимирович МОСКВА 2010 1. Постановка задачи и актуальность В связи с постоянным ростом количества информационных ресурсов предоставляющих актуальные новости, возрастает и нагрузка на аналитические центры по их обработке. В настоящее время новостная информация в Интернете составляется, анализируется и обрабатывается практически без применения средств автоматизации. То есть все имеющиеся новости проходят через аналитические центры, где сортировать и отбирать их по каким-либо признакам приходится человеку. Потребность в создание средства автоматического анализа текста стоит особенно остро. Сейчас в распоряжении пользователей Интернета имеется несколько сервисов, производящих сбор и геокодирование новостной информации (напр. Yahoo Local Maps). Цель такого сервиса анализировать и систематизировать новостную и другую информацию по географическим названиям или объектам. Актуальность данной работы заключается в том, что на русском языке подобных сервисов не существует, а все известные ресурсы, отображающие информацию на карте производят анализ информации вручную (напр. Яндекс Новости). Целью данной работы является создание системы «Автоматического геокодирования новостной информации» и отображение ее на карте с использованием сервиса Google Maps. Для реализации поставленной задачи необходимо выполнить следующие шаги:
2. Анализ существующих технологий Геокодинг – процесс нахождения широты и долготы по введенному адресу. В моей работе был использован геоинформационный ресурс Google, который позволяет нанести на карту точки с полученными координатами. В роли геоинформационной системы будет выступать веб-приложение, которое должно получать новостную информацию, геокодировать ее и отображать на карте. В этом приложении должны быть реализованы следующие функциональные возможности:
В моей работе были проанализированы технологии и принципы доступа к данным, а также поиска слов на русском языке и инструментарий для создания Веб – картографического сервиса. Перечислим вкратце каждую из этих технологий:
Таким образом, перечисленные средства можно положить в основу системы по поиску географических названий в тексте и отображению полученных результатов на карте. Создание подобного средства автоматизации это еще один шаг на пути к более доступному и удобному использованию ресурсов Интернета. 3. Проектирование и разработка программы 3.1. Эскизный проект разрабатываемого ПО Рассмотрим создаваемое приложение как совокупность отдельных элементов (модулей) и опишем их функционирование в отдельности и в составе системы. Каждый элемент будет выполнять свои функциональные задачи, используя конкретные технологии описанные выше. Создаваемую систему можно разделить на следующие компоненты(Рис. 1): Рис. 1 Общая схема системы
Рис. 2 Схема функционирования системы 3.2. Алгоритм поиска географического названия В связи с тем, что охватить весь спектр названий в своей работе практически не возможно, для исследования выбран самый актуальный и наиболее насыщенный новостями регион, а именно город Москва. Для того чтобы разработать алгоритм и понять как программа должна выделять в тексте географические названия необходимо проанализировать ряд текстов с реальными новостями опубликованными в Интернете.
Таблица 1. Примеры новостей со словом «УЛИЦА» Разберем более тщательно представленные тексты, в них выделены пять слов-признаков, по которым можно определить наличие адреса в тексте Для удобства разделим их на группы: 1 уровень – название города (Москве); 2 уровень – вид улицы (улице); 3 уровень – название улицы (Исаковского), 4 уровень – слово указывающее на номер дома (дома), 5 уровень – слово указывающее на номер корпуса (корп.). При наличие первого уровня, можно сделать вывод, что вероятно имеется следующий уровень (2-ой – вид улицы), а при наличии второго –третий и так далее. Важно понять, что обратная последовательность не будет соблюдаться, т.е. если встретится слово 4 уровня (дом) то совсем не обязательно встретится слово 2-го (улица) и уж тем более 3-го уровня (Исаковского). Таким образом, алгоритм будет представлять своего рода фильтр, отсеивающий сначала все тексты со словами 1-го уровня, затем 2-го и так далее. В итоге должны остаться только интересующие нас новости с адресами. Для реализации этого алгоритма необходимо создать под каждый уровень рабочий словарь и определить шаблонные правила построения адреса из этих слов. Получится перечень следующих словарей: 1 - словарь возможных названий города, 2 - словарь видов улиц (метро будем считать как вид улицы) 3 - словарь названий улиц (станций метро). Поиск номера дома из рассмотрения исключается ввиду редкого упоминания в рассматриваемых текстах. В последствии и этот уровень адреса не сложно научиться выделять. Вернемся к правилам написания адреса в текстах новостей. Самый простой вариант когда адрес не видоизменен. Например: Москва улица Исаковского. В данном случае имеются слова из всех словарей, т.е. Москва – словарь названий города, улица – словарь видов улиц и наконец Исаковского – словарь названий улиц указанного типа. Определить такой адрес в тексте не составляет труда. Однако в таком виде адрес в тексте встречается очень редко. Очевидно, что он будет окружен другими словами, определяющими суть новости, а сам адрес будет видоизменен в соответствии с правилами русского языка. Тогда это будет выглядеть так: Сегодня в Москве произошло … не далеко от улицы Исаковского Следует заметить, что при такой записи сложно формализовать вид адреса, так как слово записано в одной из своих лексических форм. Для точного определения лексем слова необходимо иметь полный словарь языка. Для того чтобы этого избежать воспользуемся ранее описанным алгоритмом выделения основы в слове без использования словаря, т.е. алгоритмом стемминга. Этот алгоритм на входе получает любое слово, а на выходе возвращает не полную основу этого слова, т.е. слово без окончания и суффикса. Для данного примера основы слов будут иметь вид: Москв - город; Улиц - вид улицы; Исаковск - название улицы. Осуществив последовательный поиск таких слов с дописанным в начале пробелом, мы наверняка найдем искомое предложение с небольшой вероятностью ошибки . Исходя из проведенного анализа, можно составить словари названий интересующего города, в данном случае это город Москва.
Таблица 2. Словарь основ названий города Затем сформируем словарь (Таблица 3) для определения в тексте объектов типа "Вид улицы". Словарь будет содержать основу слов «Вид улицы». Полная форма слов будет содержаться в таблице с названиями улиц.
Таблица 3. Словарь видов улиц города При осуществлении поиска представленный словарь позволит с определенной вероятностью утверждать, что рядом с этим словом находится и название соответствующей улицы. Однако само название определяется по контекстным правилам, и может состоять из одного или нескольких слов, а может и вообще отсутствовать в анализируемом предложении. Например: По улацам Москвы прошла военная техника… В таком случае необходимо ограничить область поиска слова только следующим и предыдущим словом. Итак, остальная информация, непосредственно названия улиц, является справочной. Достоверность и полнота ее напрямую влияет на эффективность поиска. Сделав выбор в пользу столичного региона мы тем самым облегчили себе задачу по составлению базы улиц, так как этот регион самый востребованный и найти его базу улиц не составит большого труда. В моей работе была использована БД классификатора КЛАДР 6.0, с официального сайта «ГНИВЦ ФНС России» (http://www.gnivc.ru/Document.aspx?id=1571). Там же можно найти информацию по другим городам России. В перечень улиц также включены станции московского метро как альтернативный способ определения места. Полученный список улиц необходимо разбить на группы в соответствии с видом улицы. Таким образом получится следующая таблица (Таблица 4) со списком улиц и указанием ее типа. В последующем это сократит время на выборку по конкретному типу.
Таблица 4. Список улиц города Москва Как видно из приведенного примера создано отдельно поле (firstword) в котором указано первое слово в названии улицы. Таким образом, поиск будет осуществляться только по этому первому слову. Сделано это опять же для того, чтобы уйти от лингвистического анализа и создать готовый к работе инструмент. В связи с этим, несомненно, возрастут ошибки неверного определения адреса, но следует отметить, что эта мера временная и легко устранима, путем добавления списка всех слов из которых состоит название улицы. 3.3. Демонстрация работы программы В результате проделанной работы был создан следующий Интернет ресурс (Рис. 3) Рис. 3 Внешний вид разработанного вэб приложения После входа на сайт программы происходит автоматическое нанесение на карту всех новостей с адресом, имеющихся в соответствующей таблице на сервере. Загрузка новостей производится в фоновом режиме и незаметно для пользователя. Страница не перегружается, а по истечении определенного периода времени появляются новости на карте. Это достигается применением асинхронных запросов к серверу с помощью технологии AJAX/ Пользователь имеет возможность просматривать любую новость путем простого наведения мыши на маркер с новостью. В появившемся окне ему показываются следующая информация о новости: - заголовок новости, он же является ссылкой на полную статью новости на сайте источнике; - краткое содержание новости, по этому содержанию и проводился анализ новости; - источник новости(название сайта в виде ссылки), с которого она была загружена; - дата публикации указанная автором. Рис. 4 Приближение новости на карте 4. Заключение В процессе выполнения работы были получены следующие результаты:
|
Реферат лат referre «докладывать, сообщать» Доклад на заданную тему, сделанный на основе критического обзора соответствующих источников информации | Доклад Стендовый доклад Доклад – это устный рассказ (сочинение) на заданную или самостоятельно сформулированную тему | ||
Дипломная работа на тему: Проектирование системы электроснабжения... Внутреннее электроснабжение, низковольтное электроснабжение, магистральный шинопровод, распределительный шинопровод, силовой пункт,... | Урок на тему: Кодирование звуковой информации Учитель: Здравствуйте, мы с вами уже изучили представление текстовой, числовой и графической информации в компьютере. А какие еще... | ||
Реферат по теоретическим основам информатики На тему: Проблема информации в современной науке Хотя автор в ряде других работ исследовал понятие информации, причем предполагалось, что может быть создана единая концепция информации.... | Доклад по предмету: «история и философия науки» на тему Приуральский район и Регламента предоставления информации на официальный сайт Администрации муниципального образования Приуральский... | ||
Реферат по дисциплине на тему: «Защищенные информационные технологии в экономике» Соответственно, под защитой информации подразумевается комплекс мероприятий, проводимых с целью предотвращения от действий угроз... | Доклад на тему: деятельность библиотеки образовательного учреждения... Перед современной общеобразовательной школой стоит много важнейших задач, но главной из них является обучить современного школьника... | ||
Реферат на тему: «Защита информации в глобальной сети Internet» В целом средства обеспечения защиты информации в части предотвращения преднамеренных действий в зависимости от способа реализации... | Реферат по дисциплине: информатика и икт на тему: «Многообразие кодов» В данной исследовательской работе рассматриваются особенности кодирования информации на компьютере. Остановимся на особенностях кодирования... | ||
Доклад на тему «Формирование универсальных учебных действий на уроке» Поэтому на современном этапе для ученика очень важно уметь самостоятельно и творчески мыслить, пополнять и обновлять знания, отбирать... | Доклад Первого заместителя Генерального директора ао"Востокмашзавод"... «Философия». Преподавание философии ведется по специальностям 030501. 65 «Юриспруденция», 030502. 65 «Судебная экспертиза», 080109.... | ||
Доклад на тему «Владение, пользование и распоряжение имуществом,... Настоящий доклад посвящен методам управления и распоряжения муниципальным имуществом и земельными участками | Новости ibm academic Initiative Представляем Вашему вниманию семнадцатый выпуск ежемесячной новостной рассылки ibm для вузов | ||
«защита информации от несанкционированного доступа» Фз о защите информации, который рассматривает проблемы защиты информации и задачи защиты информации, а также решает некоторые уникальные... | Тема: Кодирование информации. 3 класс. Цели Работа по колонкам – кто больше даст информации об информации? Выигрывает колонка, которая даёт последнее сведение об информации |