Скачать 201.09 Kb.
|
ОТЧЕТ О ПРОВЕДЕННЫХ РАБОТАХ ПО ОЧИСТКЕ ДАННЫХ автоматизированной информационно-аналитической системы мониторинга качества государственных услуг (ИАС МКГУ) Москва – 2015 РефератОтчет 24 страницы без учета приложений, 2 таблицы, 4 рисунка, 1 приложение (в электронном виде в отдельных файлах). Ключевые слова: автоматизированная информационно-аналитическая система мониторинга качества государственных услуг, ИАС МКГУ, очистка данных. В рамках выполнения работ первого этапа ГК-176-ОФ/Д21 от 22 декабря 2014 года выполнялись работы по очистке данных в БД ИАС МКГУ. Целью данной работы являлось выявление и исправление ошибок, несоответствий данных в БД ИАС МКГУ с целью улучшения их качества. Необходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых внешними информационными системами, являющимися поставщиками данных в ИАС МКГУ. Были решены следующие задачи:
Результатами работы является отчет о проведенных работах по очистке данных. Содержание Реферат 2 1. Введение 4 2. Термины, определения и сокращения 5 3. Цель и задачи работы по очистке данных 6 4. Общие сведения о системе и ее взаимодействии со сторонними информационными системами 7 1.4.1. Вид деятельности, для автоматизации которой предназначена система 7 2.4.2. Сведения о программных и технических средствах обеспечивающих работу системы 8 3.4.3. Перечень систем, с которыми связана ИАС МКГУ 9 4.4.4. Описание связей между системами 11 5. Основная часть 13 5.5.1. Результаты проведенного анализа данных 14 6. 5.2. Описание алгоритмов обнаружения ошибок и их исправления 18 22 Рисунок 4. Интерфейс панели управления маппингами модуля «Клиниг» в ИАС МКГУ. 22 6. Результаты работы разработанных алгоритмов 23 1. ВведениеНастоящий документ содержит отчет о проведенных работах по очистке данных информационно-аналитической системы мониторинга качества государственных услуг (ИАС МКГУ). Данный отчет составлен по результатам анализа данных БД ИАС МКГУ и очистки данных, проведенных ЗАО «Интерфакс» на первом этапе работ по Государственному контракту ГК-176-ОФ/Д21 от 22 декабря 2014 года. Отчет о проведенных работах по очистке данных включает в себя следующую информацию: 1. Результаты проведенного анализа данных: описание выявленных типов ошибок, описание конечного набора проверок. 2. Описание алгоритмов обнаружения ошибок, включающее не только описание обнаружения ошибок, но и их исправление (для обеспечения возможной повторности их применения и проверок корректности их работы). 3. Результаты работы всех разработанных алгоритмов, содержащие сведения о результатах исправления ошибок. 2. Термины, определения и сокращенияТаблица 1 – термины, определения и сокращения.
Прочая техническая терминология понимается в соответствии с действующими стандартами и рекомендациями международных органов, ответственных за вопросы стандартизации в сети Интернет. 3. Цель и задачи работы по очистке данныхЦелью работы по очистке данных в БД ИАС МКГУ являлось выявление и исправление ошибок, несоответствий данных с целью улучшения их качества. Необходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых внешними информационными системами, являющимися поставщиками данных в ИАС МКГУ. Задачи, решаемые для достижения поставленной цели:
4. Общие сведения о системе и ее взаимодействии со сторонними информационными системами1.4.1. Вид деятельности, для автоматизации которой предназначена системаИАС МКГУ разработана в начале 2012 года по заказу Министерства экономического развития Российской Федерации в рамках реализации мероприятий государственной программы Российской Федерации «Информационное общество (2011-2020 годы)». В период с конца 2012 года по настоящее время проводились работы по внедрению и развитию Системы. 12 декабря 2012 г. Правительство РФ утвердило постановление №1284 «Об оценке гражданами эффективности деятельности руководителей территориальных органов федеральных органов исполнительной власти (их структурных подразделений) с учетом качества предоставления ими государственных услуг, а также о применении результатов указанной оценки как основания для принятия решений о досрочном прекращении исполнения соответствующими руководителями своих должностных обязанностей». Постановление дает гражданам возможность напрямую влиять на качество государственных услуг, оценивая работу чиновников в конкретном месте, по конкретной услуге. Под это постановление ИАС МКГУ была доработана и появилась возможность собирать мнения граждан по разным каналам: через отправку смс-сообщений, телефонные звонки с просьбой оценить качество услуги, опросы через электронные терминалы в многофункциональных центрах предоставления государственных услуг. Также остался ранее доступный способ - сбор мнений через Интернет. На основании мнений получателей государственных услуг, собранных в БД ИАС МКГУ, ежеквартально формируется сводная оценка по каждому ведомству, его региональному или структурному подразделению. Сводные оценки направляются в федеральные органы исполнительной власти, которые в соответствии с постановлением Правительства № 1284 принимают соответствующие меры. Исходя из выставленных гражданами оценок, могут приниматься решения "о досрочном прекращении исполнения соответствующими руководителями своих должностных обязанностей". 2.4.2. Сведения о программных и технических средствах обеспечивающих работу системыИАС МКГУ представляет собой программный продукт, состоящий из нескольких подсистем, часть из которых имеют ограниченный доступ. Открытая подсистема доступна всем пользователям Интернет по адресу https://vashkontrol.ru (далее, сайт «Ваш контроль»). На сайте «Ваш контроль» собираются оценки и комментарии о качестве государственных услуг. Пользователи могут написать о работе государственных органов и оценить их работу, а также посмотреть оценки и отзывы, оставленные другими пользователями. ИАС МКГУ базируется на следующих свободно распространяемых компонентах: 1. Серверное ПО: Системное программное обеспечение: Операционная система Ubuntu; Программные компоненты серверов приложений Системы: Язык программирования: интерпретируемый высокоуровневый язык программирования Ruby v 1.9.3, фреймворк Ruby on Rails v 3.2.2. Система управления базами данных (СУБД): MySQL v 5.5. Сервер приложений: Nginx и Unicorn. Развертывание системы: Capistrano. Полнотекстовый поиск: Apache Solr v 3.6.1. Взаимодействие с внешними источниками данных: Resque. Объектно-ориентированное сетевое хранилище для реализации очереди и хранения состояний: Redis. 2. Клиентское ПО: Наименование клиентской операционной системы: MS Windows 2000/XP/Vista/7, Linux, MacOSX Браузеры: Google Chrome, Firefox, Opera, Safari, Microsoft Internet Explorer последней, либо предпоследней версии; Наименование прикладного (офисного, специализированного) программного обеспечения, используемого в ИАС МКГУ: Microsoft Office v 2003 и выше. ИАС МКГУ размещена на мощностях национальной платформы распределенной обработки данных (НПРОД). Сетевая инфраструктура ИАС МКГУ представлена на Рисунке 1. ВМ1 – Сервер БД (основной кластер) ВМ2 – Сервер БД (резервный кластер ВМ3 – Web-сервер (основной кластер) ВМ4 – Web-сервер (резервный кластер) ВМ5 – сервер для Solr (поисковая машина) ВМ6 – worker-сервер (проведение расчетов) ВМ7 – сервер резервного копирования Рисунок 1. Сетевая инфраструктура ИАС МКГУ 3.4.3. Перечень систем, с которыми связана ИАС МКГУУчастниками информационного взаимодействия являются: 1. Ведомственные системы предоставления государственных услуг (при наличии). 2. Автоматизированная информационная система «Федеральный телефонный центр сбора мнений граждан о качестве государственных услуг» (далее – федеральный телефонный центр, АИС ФТЦ). Оператором данной системы является Министерство связи и массовых коммуникаций Российской Федерации. Данная система состоит из двух подсистем:
3. Информационные системы многофункциональных центров (далее – МФЦ) предоставления государственных и муниципальных услуг (включая, типовую АИС «МФЦ» и не типовые автоматизированные информационные системы, используемые в МФЦ). 4. Единый портал государственных услуг (ЕПГУ), доступный по адресу http://www.gosuslugi.ru . 5. Информационная система «Федеральный реестр государственных услуг» (ФРГУ) (для стандартизации и актуализации справочника по услугам и справочника по ведомствам). В ИАС МКГУ разработан набор сервисов для автоматизированного взаимодействия ИАС МКГУ со сторонними информационными системами, а именно:
4.4.4. Описание связей между системамиДля лучшего понимания контекста ниже приведено краткое описание работы ИАС МКГУ в части взаимодействия с внешними системами. Схема взаимодействия сторонних информационных систем с ИАС МКГУ через веб-сервисы представлена на Рисунке 2. Рисунок 2. Схема взаимодействия информационных систем через веб-сервисы Описание схемы для ведомственных систем: 1 – человек обращается в территориальный орган (далее ТО) федерального органа исполнительной власти Российской Федерации (их структурное подразделение) для получения услуги. 2 – информационная система ТО передает в ИАС МКГУ сообщение о факте получения услуги, в том числе дату оказания услуги и мобильный телефон пользователя. 2.1 – событие получает идентификатор в ИАС МКГУ. 2.2 – из событий формируется список мобильных телефонов для SMS-рассылки. 3 – подсистема «SMS-шлюз» запрашивает у ИАС МКГУ список мобильных телефонов для рассылки. 4 – подсистема «SMS-шлюз» отправляет в ИАС МКГУ сведения о статусах SMS. 4.1 – статусы фиксируются в событиях. 5 – подсистема «SMS-шлюз» отправляет оценки из ответных SMS в ИАС МКГУ. 5.1 – оценки записываются в ИАС МКГУ. 5.2 – на основании низких оценок формируется список обзвона. 6 – подсистема «Телефонный центр» запрашивает в ИАС МКГУ список обзваниваемых. 7 – подсистема «Телефонный центр» отправляет оценки в ИАС МКГУ полученные после обзвона. Описание схемы для МФЦ: М1 – человек обращается в МФЦ и оценивает полученную услугу через инфомат. М2 – информационная система МФЦ отправляет собранные оценки в ИАС МКГУ. 5. Основная частьНеобходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых сторонними информационными системами, являющимися поставщиками данных в ИАС МКГУ. Для очистки данных Исполнитель провел: 1. Анализ данных с целью выявления всех типов ошибок в данных и определения конечного набора проверок; 2. Разработку алгоритмов обнаружения всех выявленных в ходе анализа типов ошибок, с целью их применения на имеющихся и вновь поступающих данных; 3. Исправление ошибок, используя разработанные алгоритмы. Результаты проведенных работ представлены в данном отчете. 5.5.1. Результаты проведенного анализа данных5.1.1. Методика проведения анализа данных с целью выявления типовых ошибокВ качестве основной методики выявления типовых ошибок данных был выбран критерий экстремумов для различных атрибутов записей услуг (оцененных и нет) и оценок из всех источников данных. Экстремумы наблюдались для следующих атрибутов данных типа «услуга»:
и следующих атрибутов данных типа «оценка»:
Для каждого атрибута было составлено количественное распределение всех существующих вариантов значений, среди которых проверялось наличие экстремумов. Множества считались внутри областей видимости объектов, то есть значения группировались в подмножествах атрибутов vendor_id (поставщиков данных). Дополнительной методикой выявления ошибок было определено сопоставление атрибутов с текущими требованиями ФЛК и фактическим нахождением в используемых внутренних и внешних справочниках:
Все типы ошибок, описанные в ГК, были переведены в разряд гипотез. В соответствии с данными методиками были проверены эти гипотезы, а так же ряд других гипотез, выдвинутых по результатам совокупного анализа данных. Для работ с данными был разработан модуль «Клиниг» в ИАС МКГУ, доступный только пользователям с ролью администратора (Рисунок 3 и Рисунок 4). «Клиниг» включает в себя подмодули:
Рисунок 3. Интерфейс модуля «Клиниг» в ИАС МКГУ. Использование модуля допускается в продуктивной среде. Модуль позволяет мониторить вновь поступающие данные и работать с сопоставлением данных из ФРГУ и внешних систем. 5.1.2. Описание выявленных типов ошибокВ результате анализа были выявлены следующие типы ошибок. В скобках указано пояснение о возможных причинах возникновения ошибки:
5.1.3. Описание конечного набора проверокАлгоритмы обнаружения ошибок должны включать в себя следующие проверки:
6. 5.2. Описание алгоритмов обнаружения ошибок и их исправленияДалее представлены описания алгоритмов обнаружения ошибок для каждой проверки. 5.2.1. Алгоритм прямой проверки дублей услуг или оценок в системе по внешним ключам (внутренним идентификаторам внешних информационных систем)Внешние ключи внутри пространства имен идентификатора вендора записываются в сетевое хранилище. В качестве ключа используется циклический избыточный код (CRC) от значения идентификатора вендора и внешнего ключа. В качестве значения — идентификатор объекта в ИАС МКГУ. В случае наличия повторения CRC создается задача на удаление объекта. Проверка включена для всех новых поступающих объектов. 5.2.2. Алгоритм составной проверки дублей по косвенным признакамВнешние ключи внутри пространства имен идентификатора вендора записываются в сетевое хранилище. В качестве ключа используется циклический избыточный код (CRC) от значений следующих атрибутов:
В качестве значения — идентификатор объекта в ИАС МКГУ. В случае наличия повторения CRC создается задача на удаление объекта. Проверка включена для всех новых поступающих объектов. 5.2.3. Алгоритм приведения старых (устаревших) и невалидных показателей к существующим, либо исключение их из статистической базы, в случае невозможности приведенияИзменение показателей из старых анкет осуществляется по карте сопоставления старых и текущих показателей. Изменение идентификаторов значений показателей осуществляется по карте сопоставления значения оценки в наборе актуальных идентификаторов значений показателей и их фактических значений. В случае невозможности сопоставления создается задача на удаление оценки. Проверка включена для всех новых поступающих объектов. 5.2.4. Алгоритм создания уникальных внешних ключей для записей, созданных до введения признака обязательности этого поляВсе отсутствующие внешние ключи генерируются на основании правила: [vendor.id]-g-[event.id] Проверка разовая, теперь поле является обязательным. 5.2.5. Алгоритм заполнения отсутствующих, либо невалидных кодов ОКАТОКоды ОКАТО проходят последовательный поиск по следующим валидаторам и источникам:
Пояснение к последнему пункту — в процессе анализа данных была выявлена тенденция к исправлению некорректных ОКАТО у объектов в более поздних выгрузках. 5.2.6. Алгоритм исключения из статистической базы записей, содержащих невалидные (по ФЛК) номера телефоновАлгоритм применяется только к объектам, подразумевающим наличие телефонного номера. Из номера телефона исключаются все нечисловые символы. Задача на удаление ставится для всех объектов, у которых числовой номер не равен 10 или 11 символам. К десятисмивольным номерам добавляется цифра «7». Одиннадцатизначные остаются неизменными, если первая цифра — «7». Если первая «8», то она заменяется на «7». Если первый знак отличен от «7» и «8» — номер помечается на удаление. 5.2.7. Алгоритм очистки значений оценок, вызванных в результате сбоев работы SMS-шлюзаПричина необходимости данного алгоритма — в мае 2014 года произошел крупный сбой работы SMS-шлюза и недоставленные смс стали возвращаться в МКГУ со статусом отвеченных, а в качестве значения оценки передавался текст исходного сообщения. МКГУ помечал такие объекты статусом «4» — некорректное значение оценки в пакете. Суть алгоритма заключается в обработке всех объектов, в статусе «4» и с текстом атрибута «commentary» подходящем по маске шаблону исходного sms сообщения. Удовлетворяющие этому требованию объекты помечаются на преобразование атрибутов:
5.2.8. Алгоритм приведения внешних идентификаторов ведомств к идентификаторам ФРГУ путем анализа и сопоставление названий однозначно не идентифицируемых данных, мапинга по внешним ключам содержащимся в ФРГУАлгоритмом проверяются все объекты типа «event» и связанные с ним объекты типа «rate». Объектами проверки являются атрибуты:
Первичная задача алгоритма — установить наличие атрибута authority_reg_id в справочнике ФРГУ. Если атрибут найден, то объект пропускается. Вторая ступень — проведение маппинга по данным из ФРГУ. В модели маппинга производится поиск внутри пространства имен вендора, владеющего объектом, совпадений полей authority_reg_id, либо authority_foreign_id. В случае нахождения совпадения создается задача на обновление всех объектов с анализируемым атрибутами в указанном пространстве имен на соответствующее значение атрибута reg_id модели маппинга. Третья ступень — поиск по морфологическому отпечатку. Из значения атрибута authority_name исключаются все небуквенные и нецифровые символы, оставшееся приводится к нижнему регистру, траслетирируется и осуществляется поиск точного совпадения по полю «ikey» в справочнике ФРГУ. Задача на исправление ставится только в случае единичного результата, совпадения ОКАТО и ведомства в справочнике и у объекта анализа. Четвертая ступень — полнотекстовой поиск значения. Полнотекстовой поиск осуществляется по значению атрибута authority_name в справочнике ФРГУ. Так как алгоритм не может быть автоматизирован полностью из-за неполноты информации, для его реализации была разработана подсистема маппинга, которая позволяет контролировать наличие непереведённых значений кодов, осуществлять поиск, привязку, активацию и деактивацию условий маппинга. Вместе с этим данный инструмент дает возможность слияния устаревших и обновленных кодов ФРГУ, что не является целью очистки данных, но крайне полезно для дальнейшего сохранения истории оцениваемых объектов в случае структурных изменений в ФРГУ. Скриншот основного интерфейса панели управления маппингами представлен на Рисунке 4. Рисунок 4. Интерфейс панели управления маппингами модуля «Клиниг» в ИАС МКГУ.6. Результаты работы разработанных алгоритмовКорректность и эффективность разработанных алгоритмов проверки данных была протестирована и оценена на копии БД. Это было необходимо для выявления необходимости корректировки алгоритмов с целью их улучшения или исправления ошибок, а также для оценки количества записей на удаление и количества записей на изменение. Количественные результаты отработки алгоритмов представлены в Таблице 2. Журналы результатов работы всех разработанных алгоритмов, содержащие сведения о результатах исправления ошибок представлены в Приложении (в электронном виде в отдельных файлах). Алгоритмы были отработаны на данных ИАС МКГУ, хранящихся в БД с начала 2012 года по 12 января 2015 года. После отработки всех алгоритмов количество оценок изменилось с 9 439 798 до 8 692 510; количество фактов оказания услуг с 9 542 369 до 8 219 455 (из них оцененных с 1 630 240 до 1 532 876). Таблица 2 – результаты отработки алгоритмов.
Реализация алгоритмов для новых данных введена с 12 января 2015 года. |
Система хранения данных о студенческих научных достижениях База данных о студенческих научных достижениях предназначена для хранения и обработки данных о научно-исследовательских работах студентов... | Отчет о выполненных работах по договору №144-13 от 24. 06 г. (Первый этап) «Разработка методов восстановления во характеристик широких атмосферных линей шал для модернизированной установки Тунка-133 и Тунка-Hiscore... | ||
Инструкция по очистке кеша В окне Очистить историю включите только опцию Изображения и другие файлы, сохраненные в кеше и выберите период, которым браузер должен... | Отчет о проведенных мероприятиях за 2012 2013 год Дата | ||
Отчет о проведенных мероприятиях, приуроченных к Всемирному дню борьбы со спидом | Отчет о мероприятиях антикоррупционной направленности, проведенных... Отчет о мероприятиях антикоррупционной направленности, проведенных за период с 1 января по 01 июня 2013 года в мбоу сош №64 | ||
Отчет о мероприятиях антикоррупционной направленности, проведенных... Отчет о мероприятиях антикоррупционной направленности, проведенных за период с 1 января по 01 июня 2013 года в мбоу сош №9 | Еженедельный информационный отчет о мероприятиях, проведенных в рамках... | ||
Отчет о мероприятиях, проведенных Методическая разработка интегрированного урока географии и информатики в 8 классе | Отчет о проведенных тематических уроках, посвященных 70-летию Курской битвы в мбоу сош №20 | ||
Отчет о проведенных мероприятиях мбоу игринская сош №1 Реализация республиканских проектов по информатизации. Протокол №24 от 14. 05. 2013 | Базы данных, экспертные системы реферат «Реляционная модель данных... ... | ||
Отчет о проведенных мероприятиях в рамках года Математики Интернет-карусель — международное on-line соревнование, цдо "Дистантное Обучение" (г. Москва) | Урок по информатике по теме "Системы управления базами данных. Создание... Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд” | ||
Отчет о проведенных исследованиях в Государственном природном заповеднике «Ростовский» О засолении степных каштаново-солонцовых комплексов долины маныча (Л. П. Ильина, Д. Г. Невидомская) 28 | Отчет о работе по теме: «Проведение подготовительных работ по созданию... Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент |