Отчет о проведенных работах по очистке данных





Скачать 201.09 Kb.
НазваниеОтчет о проведенных работах по очистке данных
Дата публикации24.11.2017
Размер201.09 Kb.
ТипОтчет
100-bal.ru > Информатика > Отчет






УТВЕРЖДАЮ




Директор Департамента

государственного

регулирования в экономике

Минэкономразвития России




_____________А.И. Херсонцев




«____» __________ г.




М.П.







УТВЕРЖДАЮ

Первый заместитель генерального директора ЗАО «Интерфакс»

______________В.В. Герасимов

«____» __________ г.

М.П.








ОТЧЕТ О ПРОВЕДЕННЫХ РАБОТАХ

ПО ОЧИСТКЕ ДАННЫХ

автоматизированной информационно-аналитической

системы мониторинга качества государственных услуг (ИАС МКГУ)


Москва 2015

Реферат


Отчет 24 страницы без учета приложений, 2 таблицы, 4 рисунка, 1 приложение (в электронном виде в отдельных файлах).

Ключевые слова: автоматизированная информационно-аналитическая система мониторинга качества государственных услуг, ИАС МКГУ, очистка данных.

В рамках выполнения работ первого этапа ГК-176-ОФ/Д21 от 22 декабря 2014 года выполнялись работы по очистке данных в БД ИАС МКГУ.

Целью данной работы являлось выявление и исправление ошибок, несоответствий данных в БД ИАС МКГУ с целью улучшения их качества.

Необходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых внешними информационными системами, являющимися поставщиками данных в ИАС МКГУ.

Были решены следующие задачи:

  • проведен анализ данных с целью выявления всех типов ошибок в данных и определения конечного набора проверок;

  • разработаны алгоритмы обнаружения всех выявленных в ходе анализа типов ошибок, с целью их применения на имеющихся и вновь поступающих данных;

  • проведено исправление ошибок, используя разработанные алгоритмы.

Результатами работы является отчет о проведенных работах по очистке данных.



Содержание


Реферат 2

1. Введение 4

2. Термины, определения и сокращения 5

3. Цель и задачи работы по очистке данных 6

4. Общие сведения о системе и ее взаимодействии со сторонними информационными системами 7

1.4.1. Вид деятельности, для автоматизации которой предназначена система 7

2.4.2. Сведения о программных и технических средствах обеспечивающих работу системы 8

3.4.3. Перечень систем, с которыми связана ИАС МКГУ 9

4.4.4. Описание связей между системами 11

5. Основная часть 13

5.5.1. Результаты проведенного анализа данных 14

6. 5.2. Описание алгоритмов обнаружения ошибок и их исправления 18

22

Рисунок 4. Интерфейс панели управления маппингами модуля «Клиниг» в ИАС МКГУ. 22

6. Результаты работы разработанных алгоритмов 23




1. Введение


Настоящий документ содержит отчет о проведенных работах по очистке данных информационно-аналитической системы мониторинга качества государственных услуг (ИАС МКГУ).

Данный отчет составлен по результатам анализа данных БД ИАС МКГУ и очистки данных, проведенных ЗАО «Интерфакс» на первом этапе работ по Государственному контракту ГК-176-ОФ/Д21 от 22 декабря 2014 года.

Отчет о проведенных работах по очистке данных включает в себя следующую информацию:

1. Результаты проведенного анализа данных: описание выявленных типов ошибок, описание конечного набора проверок.

2. Описание алгоритмов обнаружения ошибок, включающее не только описание обнаружения ошибок, но и их исправление (для обеспечения возможной повторности их применения и проверок корректности их работы).

3. Результаты работы всех разработанных алгоритмов, содержащие сведения о результатах исправления ошибок.


2. Термины, определения и сокращения


Таблица 1 – термины, определения и сокращения.

Термин

Определение

БД

База данных

ГК

Государственный контракт - договор, заключенный заказчиком от имени Российской Федерации, субъекта Российской Федерации или муниципального образования в целях обеспечения государственных или муниципальных нужд

ИАС МКГУ, Система, vashkontrol.ru

Автоматизированная информационно-аналитическая система мониторинга качества государственных услуг, доступная через сеть Интернет (https://vashkontrol.ru/)

Заказчик

Министерство экономического развития Российской Федерации

Исполнитель

ЗАО «Интерфакс»

НПРОД

Национальная платформа для распределенной обработки данных. Распоряжением Правительства Российской Федерации от 15 октября 2009 г. №1475-р «Об определении ОАО «Ростелеком» единственным исполнителем работ по эксплуатации инфраструктуры электронного правительства» открытое акционерное общество междугородной и международной электрической связи «Ростелеком» определено единственным исполнителем работ по эксплуатации инфраструктуры электронного правительства - единым национальным оператором инфраструктуры электронного правительства.

Очистка данных (англ. Data cleansing)

Процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества

Пользователь системы

Физическое или юридическое лицо, имеющее доступ в Систему


Прочая техническая терминология понимается в соответствии с действующими стандартами и рекомендациями международных органов, ответственных за вопросы стандартизации в сети Интернет.


3. Цель и задачи работы по очистке данных


Целью работы по очистке данных в БД ИАС МКГУ являлось выявление и исправление ошибок, несоответствий данных с целью улучшения их качества.

Необходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых внешними информационными системами, являющимися поставщиками данных в ИАС МКГУ.

Задачи, решаемые для достижения поставленной цели:

  • проведение анализа данных с целью выявления всех типов ошибок в данных и определения конечного набора проверок;

  • разработка алгоритма обнаружения всех выявленных в ходе анализа типов ошибок, с целью их применения на имеющихся и вновь поступающих данных;

  • проведение исправления ошибок, используя разработанные алгоритмы.


4. Общие сведения о системе и ее взаимодействии со сторонними информационными системами

1.4.1. Вид деятельности, для автоматизации которой предназначена система


ИАС МКГУ разработана в начале 2012 года по заказу Министерства экономического развития Российской Федерации в рамках реализации мероприятий государственной программы Российской Федерации «Информационное общество (2011-2020 годы)». В период с конца 2012 года по настоящее время проводились работы по внедрению и развитию Системы.

12 декабря 2012 г. Правительство РФ утвердило постановление №1284 «Об оценке гражданами эффективности деятельности руководителей территориальных органов федеральных органов исполнительной власти (их структурных подразделений) с учетом качества предоставления ими государственных услуг, а также о применении результатов указанной оценки как основания для принятия решений о досрочном прекращении исполнения соответствующими руководителями своих должностных обязанностей».

Постановление дает гражданам возможность напрямую влиять на качество государственных услуг, оценивая работу чиновников в конкретном месте, по конкретной услуге.

Под это постановление ИАС МКГУ была доработана и появилась возможность собирать мнения граждан по разным каналам: через отправку смс-сообщений, телефонные звонки с просьбой оценить качество услуги, опросы через электронные терминалы в многофункциональных центрах предоставления государственных услуг. Также остался ранее доступный способ - сбор мнений через Интернет.

На основании мнений получателей государственных услуг, собранных в БД ИАС МКГУ, ежеквартально формируется сводная оценка по каждому ведомству, его региональному или структурному подразделению. Сводные оценки направляются в федеральные органы исполнительной власти, которые в соответствии с постановлением Правительства № 1284 принимают соответствующие меры. Исходя из выставленных гражданами оценок, могут приниматься решения "о досрочном прекращении исполнения соответствующими руководителями своих должностных обязанностей".

2.4.2. Сведения о программных и технических средствах обеспечивающих работу системы


ИАС МКГУ представляет собой программный продукт, состоящий из нескольких подсистем, часть из которых имеют ограниченный доступ. Открытая подсистема доступна всем пользователям Интернет по адресу https://vashkontrol.ru (далее, сайт «Ваш контроль»).

На сайте «Ваш контроль» собираются оценки и комментарии о качестве государственных услуг. Пользователи могут написать о работе государственных органов и оценить их работу, а также посмотреть оценки и отзывы, оставленные другими пользователями.

ИАС МКГУ базируется на следующих свободно распространяемых компонентах:

1. Серверное ПО:

Системное программное обеспечение: Операционная система Ubuntu;

Программные компоненты серверов приложений Системы:

Язык программирования: интерпретируемый высокоуровневый язык программирования Ruby v 1.9.3, фреймворк Ruby on Rails v 3.2.2.

Система управления базами данных (СУБД): MySQL v 5.5.

Сервер приложений: Nginx и Unicorn.

Развертывание системы: Capistrano.

Полнотекстовый поиск: Apache Solr v 3.6.1.

Взаимодействие с внешними источниками данных: Resque.

Объектно-ориентированное сетевое хранилище для реализации очереди и хранения состояний: Redis.

2. Клиентское ПО:

Наименование клиентской операционной системы: MS Windows 2000/XP/Vista/7, Linux, MacOSX

Браузеры: Google Chrome, Firefox, Opera, Safari, Microsoft Internet Explorer последней, либо предпоследней версии;

Наименование прикладного (офисного, специализированного) программного обеспечения, используемого в ИАС МКГУ: Microsoft Office v 2003 и выше.

ИАС МКГУ размещена на мощностях национальной платформы распределенной обработки данных (НПРОД). Сетевая инфраструктура ИАС МКГУ представлена на Рисунке 1.


ВМ1 – Сервер БД (основной кластер)

ВМ2 – Сервер БД (резервный кластер

ВМ3 – Web-сервер (основной кластер)

ВМ4 – Web-сервер (резервный кластер)

ВМ5 – сервер для Solr (поисковая машина)

ВМ6 – worker-сервер (проведение расчетов)

ВМ7 – сервер резервного копирования


Рисунок 1. Сетевая инфраструктура ИАС МКГУ

3.4.3. Перечень систем, с которыми связана ИАС МКГУ


Участниками информационного взаимодействия являются:

1. Ведомственные системы предоставления государственных услуг (при наличии).

2. Автоматизированная информационная система «Федеральный телефонный центр сбора мнений граждан о качестве государственных услуг» (далее – федеральный телефонный центр, АИС ФТЦ). Оператором данной системы является Министерство связи и массовых коммуникаций Российской Федерации. Данная система состоит из двух подсистем:

  • «SMS-шлюз», осуществляющий отправку коротких текстовых сообщений гражданам с предложением оценить качество предоставления государственных услуг, и осуществляющий прием ответных сообщений от граждан;

  • «Телефонный центр», обеспечивающий опрос граждан о качестве предоставления государственных услуг.

3. Информационные системы многофункциональных центров (далее – МФЦ) предоставления государственных и муниципальных услуг (включая, типовую АИС «МФЦ» и не типовые автоматизированные информационные системы, используемые в МФЦ).

4. Единый портал государственных услуг (ЕПГУ), доступный по адресу http://www.gosuslugi.ru .

5. Информационная система «Федеральный реестр государственных услуг» (ФРГУ) (для стандартизации и актуализации справочника по услугам и справочника по ведомствам).

В ИАС МКГУ разработан набор сервисов для автоматизированного взаимодействия ИАС МКГУ со сторонними информационными системами, а именно:

      1. Сервис выдачи коротких («народных») названий услуг внешним информационным системам;

      2. Сервис приема стандартизированных данных с информацией о случаях предоставления государственных услуг из ведомственной информационной системы предоставления государственных услуг;

      3. Сервис взаимодействия и обмена данными с подсистемой «SMS-шлюз» АИС ФТЦ;

      4. Сервис взаимодействия и обмена данными с подсистемой «Телефонный центр» АИС ФТЦ или любым другим программным продуктом c аналогичной функциональностью;

      5. Сервиса взаимодействия ИАС МКГУ с ИС «Федеральный реестр государственных услуг» для актуализации справочников по услугам и по ведомствам в ИАС МКГУ;

      6. Сервис актуализации опросной формы о качестве предоставления государственных услуг;

      7. Сервис передачи оценок из ИАС МКГУ во внешние информационные системы, который позволит получать сводные данные по оценкам для конкретного территориального органа;

      8. Модуль взаимодействия с легковесным сервисом актуализации ФРГУ.

4.4.4. Описание связей между системами


Для лучшего понимания контекста ниже приведено краткое описание работы ИАС МКГУ в части взаимодействия с внешними системами.

Схема взаимодействия сторонних информационных систем с ИАС МКГУ через веб-сервисы представлена на Рисунке 2.

описание: macintosh hd:users:apple:downloads:mkgu_schema.png

Рисунок 2. Схема взаимодействия информационных систем через веб-сервисы
Описание схемы для ведомственных систем:

1 – человек обращается в территориальный орган (далее ТО) федерального органа исполнительной власти Российской Федерации (их структурное подразделение) для получения услуги.

2 – информационная система ТО передает в ИАС МКГУ сообщение о факте получения услуги, в том числе дату оказания услуги и мобильный телефон пользователя.

2.1 – событие получает идентификатор в ИАС МКГУ.

2.2 – из событий формируется список мобильных телефонов для SMS-рассылки.

3 – подсистема «SMS-шлюз» запрашивает у ИАС МКГУ список мобильных телефонов для рассылки.

4 – подсистема «SMS-шлюз» отправляет в ИАС МКГУ сведения о статусах SMS.

4.1 – статусы фиксируются в событиях.

5 – подсистема «SMS-шлюз» отправляет оценки из ответных SMS в ИАС МКГУ.

5.1 – оценки записываются в ИАС МКГУ.

5.2 – на основании низких оценок формируется список обзвона.

6 – подсистема «Телефонный центр» запрашивает в ИАС МКГУ список обзваниваемых.

7 – подсистема «Телефонный центр» отправляет оценки в ИАС МКГУ полученные после обзвона.
Описание схемы для МФЦ:

М1 – человек обращается в МФЦ и оценивает полученную услугу через инфомат.

М2 – информационная система МФЦ отправляет собранные оценки в ИАС МКГУ.


5. Основная часть


Необходимость в проведении очистки данных в БД ИАС МКГУ определена большим количеством некорректных данных, предоставляемых сторонними информационными системами, являющимися поставщиками данных в ИАС МКГУ.

Для очистки данных Исполнитель провел:

1. Анализ данных с целью выявления всех типов ошибок в данных и определения конечного набора проверок;

2. Разработку алгоритмов обнаружения всех выявленных в ходе анализа типов ошибок, с целью их применения на имеющихся и вновь поступающих данных;

3. Исправление ошибок, используя разработанные алгоритмы.

Результаты проведенных работ представлены в данном отчете.

5.5.1. Результаты проведенного анализа данных

5.1.1. Методика проведения анализа данных с целью выявления типовых ошибок


В качестве основной методики выявления типовых ошибок данных был выбран критерий экстремумов для различных атрибутов записей услуг (оцененных и нет) и оценок из всех источников данных. Экстремумы наблюдались для следующих атрибутов данных типа «услуга»:

  1. vendor_id

  2. authority_reg_id

  3. authority_name

  4. service_reg_id

  5. service_name

  6. user_id

  7. user_foreign_id

  8. mobile

  9. email

  10. date

  11. okato

  12. procedure_reg_id

  13. procedure_name

  14. authority_foreign_id

  15. foreign_id

и следующих атрибутов данных типа «оценка»:

  1. vendor_id

  2. authority_reg_id

  3. service_reg_id

  4. date

  5. okato

  6. indicator_id

  7. value

  8. indicator_value_id

Для каждого атрибута было составлено количественное распределение всех существующих вариантов значений, среди которых проверялось наличие экстремумов. Множества считались внутри областей видимости объектов, то есть значения группировались в подмножествах атрибутов vendor_id (поставщиков данных).

Дополнительной методикой выявления ошибок было определено сопоставление атрибутов с текущими требованиями ФЛК и фактическим нахождением в используемых внутренних и внешних справочниках:

  1. ФРГУ (внешний)

  2. Показатели

  3. Значения показателей

  4. Вендоры

  5. Регионы

  6. ОКАТО (внешний)

  7. ОКТМО (внешний)

Все типы ошибок, описанные в ГК, были переведены в разряд гипотез. В соответствии с данными методиками были проверены эти гипотезы, а так же ряд других гипотез, выдвинутых по результатам совокупного анализа данных.

Для работ с данными был разработан модуль «Клиниг» в ИАС МКГУ, доступный только пользователям с ролью администратора (Рисунок 3 и Рисунок 4).

«Клиниг» включает в себя подмодули:

  1. Анализа данных (по-блоково, по 100 000 записей)

  2. Преобразования данных (по-блоково, по 100 000 записей)

  3. Маппинга

macintosh hd:users:pan:downloads:снимок экрана 2015-01-23 в 16.25.11.png

Рисунок 3. Интерфейс модуля «Клиниг» в ИАС МКГУ.

Использование модуля допускается в продуктивной среде. Модуль позволяет мониторить вновь поступающие данные и работать с сопоставлением данных из ФРГУ и внешних систем.

5.1.2. Описание выявленных типов ошибок


В результате анализа были выявлены следующие типы ошибок. В скобках указано пояснение о возможных причинах возникновения ошибки:

  1. Дублирование данных по внешним ключам (внешние ключи не всегда были обязательным атрибутом для МКГУ и уникальность их не проверялась).

  2. Дублирование данных по составным ключам (сбои или умышленные накрутки во внешних системах).

  3. Наличие неактуальных показателей (изменение вопросов анкеты, сбои внешних систем).

  4. Отсутствие внешних ключей (внешние ключи не всегда были обязательным атрибутом для МКГУ).

  5. Невалидные коды ОКАТО (сбои внешних ИС).

  6. Невалидные номера телефонов (сбои внешних ИС).

  7. Некорректные статусы у событий в результате сбоя работы SMS-шлюза (сбой SMS-шлюза).

  8. Некорректные коды объектов оценивания (сбои и некорректная работа внешних ИС).

5.1.3. Описание конечного набора проверок


Алгоритмы обнаружения ошибок должны включать в себя следующие проверки:

  1. Прямая проверка дублей услуг или оценок в системе по внешним ключам (внутренним идентификаторам внешних информационных систем);

  2. Составная проверка дублей по косвенным признакам:

  • дата,

  • услуга,

  • ведомство,

  • признаки пользователя.

  1. Приведение старых (устаревших) и невалидных показателей к существующим, либо исключение их из статистической базы, в случае невозможности приведения;

  2. Создание уникальных внешних ключей для записей, созданных до введения признака обязательности этого поля;

  3. Заполнение отсутствующих, либо невалидных кодов ОКАТО;

  4. Исключение из статистической базы записей, содержащих невалидные (по ФЛК) номера телефонов.

  5. Очистка значений оценок, вызванных в результате сбоев работы SMS-шлюза;

  6. Приведение внешних идентификаторов ведомств к идентификаторам ФРГУ путем анализа и сопоставление названий однозначно не идентифицируемых данных, мапинга по внешним ключам содержащимся в ФРГУ.

6. 5.2. Описание алгоритмов обнаружения ошибок и их исправления


Далее представлены описания алгоритмов обнаружения ошибок для каждой проверки.

5.2.1. Алгоритм прямой проверки дублей услуг или оценок в системе по внешним ключам (внутренним идентификаторам внешних информационных систем)


Внешние ключи внутри пространства имен идентификатора вендора записываются в сетевое хранилище. В качестве ключа используется циклический избыточный код (CRC) от значения идентификатора вендора и внешнего ключа. В качестве значения — идентификатор объекта в ИАС МКГУ. В случае наличия повторения CRC создается задача на удаление объекта.

Проверка включена для всех новых поступающих объектов.

5.2.2. Алгоритм составной проверки дублей по косвенным признакам


Внешние ключи внутри пространства имен идентификатора вендора записываются в сетевое хранилище. В качестве ключа используется циклический избыточный код (CRC) от значений следующих атрибутов:

  1. vendor_id

  2. authority_reg_id

  3. authority_name

  4. service_reg_id

  5. service_name

  6. user_id

  7. user_foreign_id

  8. mobile

  9. email

  10. date

  11. okato

  12. procedure_reg_id

  13. procedure_name

  14. foreign_id


В качестве значения — идентификатор объекта в ИАС МКГУ. В случае наличия повторения CRC создается задача на удаление объекта.

Проверка включена для всех новых поступающих объектов.

5.2.3. Алгоритм приведения старых (устаревших) и невалидных показателей к существующим, либо исключение их из статистической базы, в случае невозможности приведения


Изменение показателей из старых анкет осуществляется по карте сопоставления старых и текущих показателей.

Изменение идентификаторов значений показателей осуществляется по карте сопоставления значения оценки в наборе актуальных идентификаторов значений показателей и их фактических значений.

В случае невозможности сопоставления создается задача на удаление оценки.

Проверка включена для всех новых поступающих объектов.

5.2.4. Алгоритм создания уникальных внешних ключей для записей, созданных до введения признака обязательности этого поля


Все отсутствующие внешние ключи генерируются на основании правила:

[vendor.id]-g-[event.id]

Проверка разовая, теперь поле является обязательным.

5.2.5. Алгоритм заполнения отсутствующих, либо невалидных кодов ОКАТО


Коды ОКАТО проходят последовательный поиск по следующим валидаторам и источникам:

        1. ФЛК по правилам ОКАТО

        2. ФЛК по правилам ОКТМО

        3. Наличие ОКАТО у связанного с объектом территориального отделения

        4. Наличие ОКАТО, проходящего ФЛК у любого из объектов с таким же атрибутом authrotiy_reg_id.

Пояснение к последнему пункту — в процессе анализа данных была выявлена тенденция к исправлению некорректных ОКАТО у объектов в более поздних выгрузках.

5.2.6. Алгоритм исключения из статистической базы записей, содержащих невалидные (по ФЛК) номера телефонов


Алгоритм применяется только к объектам, подразумевающим наличие телефонного номера. Из номера телефона исключаются все нечисловые символы.

Задача на удаление ставится для всех объектов, у которых числовой номер не равен 10 или 11 символам. К десятисмивольным номерам добавляется цифра «7». Одиннадцатизначные остаются неизменными, если первая цифра — «7». Если первая «8», то она заменяется на «7». Если первый знак отличен от «7» и «8» — номер помечается на удаление.

5.2.7. Алгоритм очистки значений оценок, вызванных в результате сбоев работы SMS-шлюза


Причина необходимости данного алгоритма — в мае 2014 года произошел крупный сбой работы SMS-шлюза и недоставленные смс стали возвращаться в МКГУ со статусом отвеченных, а в качестве значения оценки передавался текст исходного сообщения. МКГУ помечал такие объекты статусом «4» — некорректное значение оценки в пакете.

Суть алгоритма заключается в обработке всех объектов, в статусе «4» и с текстом атрибута «commentary» подходящем по маске шаблону исходного sms сообщения. Удовлетворяющие этому требованию объекты помечаются на преобразование атрибутов:

  1. Status = 2

  2. Commentary = NULL

5.2.8. Алгоритм приведения внешних идентификаторов ведомств к идентификаторам ФРГУ путем анализа и сопоставление названий однозначно не идентифицируемых данных, мапинга по внешним ключам содержащимся в ФРГУ


Алгоритмом проверяются все объекты типа «event» и связанные с ним объекты типа «rate». Объектами проверки являются атрибуты:

  1. Authority_reg_id

  2. Authority_name

  3. Authority_foreign_id

Первичная задача алгоритма — установить наличие атрибута authority_reg_id в справочнике ФРГУ. Если атрибут найден, то объект пропускается.

Вторая ступень — проведение маппинга по данным из ФРГУ. В модели маппинга производится поиск внутри пространства имен вендора, владеющего объектом, совпадений полей authority_reg_id, либо authority_foreign_id. В случае нахождения совпадения создается задача на обновление всех объектов с анализируемым атрибутами в указанном пространстве имен на соответствующее значение атрибута reg_id модели маппинга.

Третья ступень — поиск по морфологическому отпечатку. Из значения атрибута authority_name исключаются все небуквенные и нецифровые символы, оставшееся приводится к нижнему регистру, траслетирируется и осуществляется поиск точного совпадения по полю «ikey» в справочнике ФРГУ. Задача на исправление ставится только в случае единичного результата, совпадения ОКАТО и ведомства в справочнике и у объекта анализа.

Четвертая ступень — полнотекстовой поиск значения. Полнотекстовой поиск осуществляется по значению атрибута authority_name в справочнике ФРГУ.

Так как алгоритм не может быть автоматизирован полностью из-за неполноты информации, для его реализации была разработана подсистема маппинга, которая позволяет контролировать наличие непереведённых значений кодов, осуществлять поиск, привязку, активацию и деактивацию условий маппинга.

Вместе с этим данный инструмент дает возможность слияния устаревших и обновленных кодов ФРГУ, что не является целью очистки данных, но крайне полезно для дальнейшего сохранения истории оцениваемых объектов в случае структурных изменений в ФРГУ. Скриншот основного интерфейса панели управления маппингами представлен на Рисунке 4.

macintosh hd:users:pan:downloads:снимок экрана 2015-01-23 в 16.19.37.png

Рисунок 4. Интерфейс панели управления маппингами модуля «Клиниг» в ИАС МКГУ.

6. Результаты работы разработанных алгоритмов


Корректность и эффективность разработанных алгоритмов проверки данных была протестирована и оценена на копии БД. Это было необходимо для выявления необходимости корректировки алгоритмов с целью их улучшения или исправления ошибок, а также для оценки количества записей на удаление и количества записей на изменение.

Количественные результаты отработки алгоритмов представлены в Таблице 2. Журналы результатов работы всех разработанных алгоритмов, содержащие сведения о результатах исправления ошибок представлены в Приложении (в электронном виде в отдельных файлах).

Алгоритмы были отработаны на данных ИАС МКГУ, хранящихся в БД с начала 2012 года по 12 января 2015 года. После отработки всех алгоритмов количество оценок изменилось с 9 439 798 до 8 692 510; количество фактов оказания услуг с 9 542 369 до 8 219 455 (из них оцененных с 1 630 240 до 1 532 876).
Таблица 2 – результаты отработки алгоритмов.

Название алгоритма

Количество задач на удаление

Количество задач на изменение

Прямая проверка дублей услуг или оценок в системе по внешним ключам (внутренним идентификаторам внешних информационных систем)

417 243

0

Составная проверка дублей по косвенным признакам

1 173 737

0

Приведение старых (устаревших) и невалидных показателей к существующим, либо исключение их из статистической базы, в случае невозможности приведения

273

34 278

Создание уникальных внешних ключей для записей, созданных до введения признака обязательности этого поля

0

639 414

Заполнение отсутствующих, либо невалидных кодов ОКАТО

0

629 321

Исключение из статистической базы записей, содержащих невалидные (по ФЛК) номера телефонов

174 310

0

Очистка значений оценок, вызванных в результате сбоев работы SMS-шлюза

0

55 551

Приведение внешних идентификаторов ведомств к идентификаторам ФРГУ путем анализа и сопоставление названий однозначно не идентифицируемых данных, мапинга по внешним ключам содержащимся в ФРГУ

0

8 716


Реализация алгоритмов для новых данных введена с 12 января 2015 года.

Добавить документ в свой блог или на сайт

Похожие:

Отчет о проведенных работах по очистке данных iconСистема хранения данных о студенческих научных достижениях
База данных о студенческих научных достижениях предназначена для хранения и обработки данных о научно-исследовательских работах студентов...
Отчет о проведенных работах по очистке данных iconОтчет о выполненных работах по договору №144-13 от 24. 06 г. (Первый этап)
«Разработка методов восстановления во характеристик широких атмосферных линей шал для модернизированной установки Тунка-133 и Тунка-Hiscore...
Отчет о проведенных работах по очистке данных iconИнструкция по очистке кеша
В окне Очистить историю включите только опцию Изображения и другие файлы, сохраненные в кеше и выберите период, которым браузер должен...
Отчет о проведенных работах по очистке данных iconОтчет о проведенных мероприятиях за 2012 2013 год Дата

Отчет о проведенных работах по очистке данных iconОтчет о проведенных мероприятиях, приуроченных к Всемирному дню борьбы со спидом

Отчет о проведенных работах по очистке данных iconОтчет о мероприятиях антикоррупционной направленности, проведенных...
Отчет о мероприятиях антикоррупционной направленности, проведенных за период с 1 января по 01 июня 2013 года в мбоу сош №64
Отчет о проведенных работах по очистке данных iconОтчет о мероприятиях антикоррупционной направленности, проведенных...
Отчет о мероприятиях антикоррупционной направленности, проведенных за период с 1 января по 01 июня 2013 года в мбоу сош №9
Отчет о проведенных работах по очистке данных iconЕженедельный информационный отчет о мероприятиях, проведенных в рамках...

Отчет о проведенных работах по очистке данных iconОтчет о мероприятиях, проведенных
Методическая разработка интегрированного урока географии и информатики в 8 классе
Отчет о проведенных работах по очистке данных iconОтчет о проведенных тематических уроках, посвященных 70-летию Курской битвы в мбоу сош №20

Отчет о проведенных работах по очистке данных iconОтчет о проведенных мероприятиях мбоу игринская сош №1
Реализация республиканских проектов по информатизации. Протокол №24 от 14. 05. 2013
Отчет о проведенных работах по очистке данных iconБазы данных, экспертные системы реферат «Реляционная модель данных...
...
Отчет о проведенных работах по очистке данных iconОтчет о проведенных мероприятиях в рамках года Математики
Интернет-карусель — международное on-line соревнование, цдо "Дистантное Обучение" (г. Москва)
Отчет о проведенных работах по очистке данных iconУрок по информатике по теме "Системы управления базами данных. Создание...
Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд”
Отчет о проведенных работах по очистке данных iconОтчет о проведенных исследованиях в Государственном природном заповеднике «Ростовский»
О засолении степных каштаново-солонцовых комплексов долины маныча (Л. П. Ильина, Д. Г. Невидомская) 28
Отчет о проведенных работах по очистке данных iconОтчет о работе по теме: «Проведение подготовительных работ по созданию...
Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск