Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований»





НазваниеОтчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований»
страница6/17
Дата публикации10.01.2015
Размер1.22 Mb.
ТипОтчет
100-bal.ru > Информатика > Отчет
1   2   3   4   5   6   7   8   9   ...   17

2.3Технологии и принципы построения распределенных систем сбора, обработки и хранения информации

2.3.1Определения и классификация систем распределенного сбора, обработки и хранения информации


Информационная система с точки зрения законодательства РФ – это совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств.

Информационные системы содержат модули получения, преобразования, хранения, аналитической обработки данных, формирования отчетов или генерации решений. Состав модулей определяется областью применения и назначением информационной системы.

В соответствии с характером обработки информации выделяют следующие типы информационных систем:

  • информационные системы управления;

  • системы поддержки принятия решений;

  • хранилища данных;

  • системы аналитической обработки данных;

  • системы интеллектуального анализа данных (data mining);

  • инструменты конечного пользователя для выполнения запросов и построения отчетов (query and reporting tools).

2.3.1.1Информационные системы управления


Данный вид систем ориентирован на тактический уровень управления, среднесрочное планирование, анализ и организацию работ в течение нескольких недель (месяцев), например, анализ и планирование поставок, сбыта, составление производственных программ. Для данного класса задач характерны регламентированность (периодическая повторяемость) формирования результатных документов и четко определенный алгоритм решения задач, например, свод заказов для формирования производственной программы и определение потребности в комплектующих деталях и материалах на основе спецификации изделий. Решение подобных задач предназначено для руководителей различных служб предприятий (отделов материально-технического снабжения и сбыта, цехов и т.д). Задачи решаются на основе накопленной базы оперативных данных.

2.3.1.2Системы поддержки принятия решений (СППР)


Используются в основном на верхнем уровне управления (руководства фирм, предприятий, организаций), имеющего стратегическое долгосрочное значение в течение года или нескольких лет. К таким задачам относятся формирование стратегических целей, планирование привлечения ресурсов, источников финансирования, выбор места размещения предприятий и т.д. Реже задачи класса СППР решаются на тактическом уровне, например, при выборе поставщиков или заключении контрактов с клиентами. Задачи СППР имеют, как правило, нерегулярный характер. Для задач СППР свойственна недостаточность имеющейся информации, её противоречивость и нечеткость, преобладание качественных оценок целей и ограничений, слабая формализованность алгоритмов решения. В качестве инструментов обобщения чаще всего используются средства составления аналитических отчетов произвольной формы, методы статистического анализа, экспертных оценок и систем, математического, имитационного моделирования. При этом используются базы обобщенной информации, информационные хранилища, базы знаний о правилах и моделях принятия решений.

2.3.1.3Хранилища данных


Хранилище данных – большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации [27]. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений.

Типичные представители программных продуктов этой категории: SAP Business Warehouse (SAP), Informatica.

Принципы организации хранилища:

1 Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют;

2 Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса;

3 Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются;

4 Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Существуют два архитектурных направления – нормализованные хранилища данных и размерностные хранилища.

В нормализованных хранилищах данные находятся в предметно ориентированных таблицах третьей нормальной формы – витрины данных. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ – большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы.

Размерностные хранилища используют схему «звезда» или «снежинка». При этом в центре звезды находятся данные (таблица фактов), а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов. Таблицы данных и соответствующие размерности образуют архитектуру «Шина». Основным достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение размерностей данных.

Хранилища и витрины данных создаются с применением специализированных средств. К этим средствам относятся:

  • средства проектирования хранилищ данных;

  • средства извлечения, преобразования и загрузки данных;

  • готовые предметно-ориентированные хранилища данных.

Средства проектирования хранилищ данных входят в состав реляционных и многомерных СУБД таких производителей как Microsoft, Oracle, IBM, Sybase и других. После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию хранилища данных позволяет построить индивидуальное хранилище или витрину данных. В тоже время такой подход препятствует переносу наработок от одного проекта к другому.

ETL-средства (extraction, transformation, loading) – средства извлечения, преобразования и загрузки данных обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие. ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав реляционных и многомерных СУБД. Однако существуют и специализированные системы, реализующие только ETL-функции. Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software.

Готовые предметно-ориентированные хранилища данных – самый надежный способ построить хранилище данных в ограниченные сроки. Готовые к эксплуатации хранилища данных характеризуются наличием в них средств построения хранилищ/витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся – процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Ограничением в применении готовых хранилищ данных является их предметная ориентация.

2.3.1.4Системы аналитической обработки данных и прочие средства многомерного анализа


OLAP (on-line analytical processing) – набор технологий для оперативной обработки информации, включающих динамическое построение отчётов в различных разрезах, анализ данных, мониторинг и прогнозирование ключевых показателей [28, 29].

OLAP-системы обеспечивают решение многих аналитических задач: анализ ключевых показателей деятельности, моделирование, прогнозирование и т.д. Такие системы могут работать со всеми необходимыми данными, независимо от особенностей информационной инфраструктуры предприятия. С точки зрения пользователя, отличие OLAP-системы от хранилища данных заключается в предметной (а не технической) структурированности информации, при этом пользователю предоставляется возможность оперировать привычными категориями и понятиями. К типичным представителям программных продуктов этого класса относятся: Oracle OLAP (Oracle), MS Analysis Services (Microsoft), Business Objects (Business Objects).

OLAP-системы могут быть классифицированы по нескольким критериям:

  • по способу хранения данных,

  • по месту нахождения OLAP-машины,

  • по степени готовности к применению.

Рассмотрим наиболее интересную с точки зрения тематики исследования классификацию OLAP-систем по способу хранения данных. Основная идея OLAP заключается в построении многомерных таблиц, которые будут доступны для запросов пользователей. Многомерные таблицы (многомерные кубы) строятся на основе исходных и агрегированных данных. И исходные и агрегированные данные для многомерных таблиц могут храниться как в реляционных, так и многомерных базах данных. Поэтому в настоящее время применяются три способа хранения данных [30]: MOLAP (Multidimensional OLAP), ROLAP (Relational OLAP) и HOLAP (Hybrid OLAP).

Соответственно, OLAP-продукты по способу хранения данных делятся на три категории.

1 В случае MOLAP исходные и многомерные данные хранятся в многомерной БД или в многомерном локальном кубе. Такой способ хранения обеспечивает высокую скорость выполнения OLAP-операций. Но многомерная база в этом случае чаще всего будет избыточной. Куб, построенный на ее основе, будет сильно зависеть от числа измерений. При увеличении количества измерений объем куба будет экспоненциально расти. Иногда это может привести к «взрывному росту» объема данных, парализующему в результате запросы пользователей.

2 В ROLAP-продуктах исходные данные хранятся в реляционных БД или в плоских локальных таблицах на файл-сервере. Агрегатные данные могут помещаться в служебные таблицы в той же БД. Преобразование данных из реляционной БД в многомерные кубы происходит по запросу OLAP-средства. При этом скорость построения куба будет сильно зависеть от типа источника данных и порой приводит к неприемлемому времени отклика системы.

3 В случае использования гибридной архитектуры исходные данные остаются в реляционной базе, а агрегированные размещаются в многомерной. Построение OLAP-куба выполняется по запросу OLAP-средства на основе реляционных и многомерных данных. Такой подход позволяет избежать взрывного роста данных. При этом можно достичь оптимального времени исполнения клиентских запросов.

2.3.1.5Системы интеллектуального анализа данных (data mining).


Программные продукты, относящиеся к этой категории, обеспечивают интеллектуальный поиск необходимых данных в огромных массивах информации [31]. Иными словами, такие программные продукты позволяют аналитику получить качественно новую информацию, не содержащуюся в источнике данных явным образом. Для этого используются популярные методы анализа данных: фильтрация, дерево решений, ассоциативные правила, генетические алгоритмы, нейронные сети, статистический анализ.

Такие системы помогают аналитику сформировать качественные выводы, которые обычный человек не в состоянии получить стандартными методами исследования данных (во всяком случае, не так быстро, как программа). Как правило, функции интеллектуального извлечения данных встраиваются в OLAP-системы [32, 33]. Типичные представители фирм-разработчиков: Hyperion Essbase (Hyperion Solutions Corporation), Oracle Data Mining (Oracle), SAS (SAS Institute).

Knowledge Discovery in Databases (KDD) – это процесс поиска полезных знаний в «сырых» данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов «раскапывания данных» (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил.

1 Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего её шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа;

2 Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если... то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения;

3 Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C;

4 Генетические алгоритмы. Генетический алгоритм - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, напоминающих биологическую эволюцию. Является разновидностью эволюционных вычислений. Отличительной особенностью генетического алгоритма является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе;

5 Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей - Oracle, Hyperion, SAS и т.д.

2.3.1.6Инструменты конечного пользователя для выполнения запросов и построения отчетов (query and reporting tools).


Системы данного класса предназначены для формирования запросов к информационным системам в пользовательских терминах, а также их исполнение, интеграцию данных из разных источников, просмотр данных с возможностями детализации и обобщения и построение полноценных отчетов, как экранных, так и печатных. Предполагается, что уровень подготовки специалиста, создающего отчеты, может быть приравнен к опыту среднего пользователя Excel. Поэтому пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов (семантический слой). Визуализация результатов запроса может быть представлена пользователю в различном виде – плоские или многомерные таблицы, графики, диаграммы, различные специализированные интерфейсы.

Инструменты конечного пользователя для выполнения запросов и построения отчетов поставляются двумя способами:

  • в составе OLAP-систем,

  • в виде специализированных систем Query & Reporting.

Практически каждая система класса OLAP снабжена средствами Query & Reporting. Эти средства могут быть как встроенными в основной продукт (примеры - Business Objects, «Контур Стандарт», Oracle Discoverer), так и выделенными в отдельный продукт (например, система Impromptu в составе продуктов Cognos).

Также существуют и специализированные системы генерации и дистрибуции отчетов. Наиболее распространенные из них – это продукты компаний Crystal Decisions и Actuate. В то же время эти системы имеют в своем составе собственные OLAP-средства. Поэтому провести четкую грань между OLAP-системами и системами класса Query & Reporting практически невозможно. Пример – продукты компании MicroStrategy, которые различные аналитики и издания с равной регулярностью относят к продуктам обоих классов.

2.3.1.7Результаты классификации и выводы


Относительно приведенного обзора систем распределенного сбора, обработки и хранения информации можно сделать следующие выводы.

1 Очевидно, что отнести тот или иной программный продукт к какому-то одному классу не всегда возможно, поскольку многие системы позволяют решать аналитические задачи нескольких категорий. К числу «многофункциональных» можно отнести системы таких мировых производителей, как Hyperion Solutions Corp., Cognos, Business Objects, Microsoft.

2 В настоящее время наибольшим спросом на рынке пользуются хранилища данных, OLAP-средства и системы data mining. Они обладают богатыми аналитическими возможностями, в том числе в части финансовых и статистических функций, которые постоянно развиваются и улучшаются. При этом они позволяют хранить и обрабатывать большие объемы данных.

3 Одним из наиболее важных (учитывая сложность программного обеспечения) критериев оценки аналитической системы является степень простоты освоения и эксплуатации программы пользователями, не владеющими техническими знаниями в профессиональном объеме.

4 Другим важным критерием оценки аналитической системы является ее приспособленность к решению конкретных, интересующих конечного пользователя задач. В лучшем случае это реализуется в виде готовых отраслевых решений в конкретной предметной области. Данный факт еще раз подтверждает тезис об актуальности исследований в области создания адаптивных систем.

Выводы относительно технологий реализации адаптивных систем административного мониторинга по результатам данного обзора будут приведены в третьем разделе.

2.3.2Типовые структурные решения, используемые при построении систем распределенного сбора, обработки и хранения информации


В системах распределённого сбора, обработки и хранения информации источники данных структурно делят на две группы: транзакционные источники данных и аналитические базы данных. Вторую группу в свою очередь можно разделить на хранилища данных, витрины данных.

Транзакционные источники данных.

Данные в систему могут заноситься как вручную, так и автоматически. На этапе первоначальной фиксации данные поступают через системы сбора и обработки информации в так называемые транзакционные базы данных. Транзакционных баз данных в организации может быть несколько. Поскольку транзакционные источники данных, как правило, не согласованы друг с другом, то для анализа таких данных требуется их объединение и преобразование. Поэтому на следующем этапе решается задача консолидации данных, их преобразования и очистки, в результате чего данные поступают в так называемые аналитические базы данных.

Аналитические базы данных.

Аналитические базы данных, будь то хранилища данных или витрины данных, и есть те основные источники, из которых аналитик черпает информацию, используя соответствующие инструменты анализа. При этом информационно-аналитическая система среднего и крупного предприятия должна обеспечивать пользователям доступ к аналитической информации, защищенной от несанкционированного использования и открытой как через внутреннюю сеть предприятия, так и пользователям сети интранет и Интернет. Таким образом, архитектура современной информационно-аналитической системы содержит следующие уровни.

1 Сбор и первичная обработка данных. К этому уровню архитектуры информационно-аналитических систем относятся источники данных, как правило, именуемые транзакционными или операционными источниками (базами) данных, являющиеся частью так называемых OLTP-систем (online transactional processing). Транзакционные базы данных включают в себя источники данных, ориентированные на фиксацию результатов повседневной деятельности предприятия. Требования, предъявляемые к транзакционным базам данных, обусловили их следующие отличительные особенности: способность быстро обрабатывать данные и поддерживать высокую частоту их изменения, ориентированность, как правило, на обслуживание одного процесса, а не всей деятельности предприятия в целом. Транзакционные базы данных отлично справляются с большим объемом повседневной информации, которая должна рутинно обрабатываться каждый день, но не позволяют получить общую картину положения дел в организации в целом и редко могут служить источниками для проведения комплексного анализа. Итак, совокупность транзакционных источников данных образует нижнее звено архитектуры информационно-аналитической системы любой организации.

2 Извлечение, преобразование и загрузка данных. Процесс извлечения, преобразования и загрузки данных поддерживается так называемыми ETL-инструментами (extraction, transformation, loading), предназначенными для извлечения данных из различных транзакционных источников нижнего уровня, их преобразования и консолидации, а также загрузки в целевые аналитические базы данных – хранилища данных и витрины данных. На этапе преобразования устраняется избыточность данных, проводятся необходимые вычисления и агрегация. Трехступенчатый процесс извлечения, преобразования и загрузки должен осуществляться на основе установленного регламента.

3 Складирование данных. К третьему уровню архитектуры информационно-аналитических систем относятся источники данных, которые называют хранилищами данных (от англ. Data Warehouse). Хранилища данных включают в себя источники данных, ориентированные на хранение и анализ информации. Такие источники могут объединять информацию из нескольких транзакционных систем и позволяют анализировать ее в комплексе с применением современных программных инструментов делового анализа данных. Согласно определению родоначальника идеи складирования данных Б. Инмона [34], хранилище данных является предметно-ориентированной, интегрированной, некорректируемой, зависимой от времени коллекцией данных, предназначенной для поддержки принятия управленческих решений. Характерными особенностями хранилищ данных являются: относительно редкая корректируемость большинства данных, обновляемость данных на периодической основе, единый подход к поименованию и хранению данных вне зависимости от их организации в исходных источниках. Хранилище данных, являясь одним из главных звеньев архитектуры информационно-аналитической системы любой средней или крупной организации, выступает в качестве основного источника данных для всестороннего анализа всей имеющейся в организации информации.

4 Представление данных в витринах данных. К четвертому уровню архитектуры информационно-аналитических систем относятся источники данных, называемые витринами данных (data marts), предназначенные для проведения целевого делового анализа. Витрины данных строятся, как правило, на основе информации из хранилища данных, но могут также формироваться из данных, взятых непосредственно из транзакционных систем, когда хранилище данных в организации по каким-либо причинам не реализовано. По типу хранения информации витрины подразделяются на реляционные и многомерные. Витрины первого типа организуются в виде реляционной базы данных со схемой «звезда», где центральная таблица, таблица фактов, предназначенная в основном для хранения количественной информации, связана с таблицами-справочниками. Многомерные витрины организуются в виде многомерных баз данных OLAP (Online Analytical Processing), где справочная информация представляется в виде измерений, а количественная - в виде показателей. Информация в многомерной витрине данных представляется в терминах бизнеса в виде, максимально доступном конечным пользователям, что позволяет существенно снизить время на получение требуемой для принятия решений информации. С точки зрения пользователя, отличие витрин данных от хранилища данных заключается в том, что хранилище данных соответствует уровню всей организации, а каждая витрина обычно обслуживает уровень не выше отдельного подразделения и иногда может создаваться для индивидуального использования, отличаясь достаточно узкой целевой специализацией. Отличие витрин данных от транзакционных баз данных заключается в том, что первые служат для удовлетворения потребностей конечных пользователей, не являющихся профессиональными программистами: аналитиков, менеджеров разных уровней, решающих различные задачи. Транзакционные же базы данных используются в основном операторами, отвечающими за ввод и обработку первичной информации, а не за ее анализ, нацеленный на поддержку принятия решений. Применение витрин данных, многомерных и реляционных, в сочетании с современными инструментами делового анализа данных позволяет превратить просто данные в полезную информацию, на основе которой можно принимать эффективные решения.

5 Анализ данных. К этому уровню архитектуры информационно-аналитической системы организации относятся современные программные средства, именуемые инструментами интеллектуального или делового анализа данных (Business Intelligence Tools), или BI-инструменты. BI-инструменты позволяют управленческому звену организации проводить всесторонний анализ информации, помогают успешно ориентироваться в больших объемах данных, анализировать информацию, делать на основе анализа объективные выводы и принимать обоснованные решения. Инструменты интеллектуального анализа данных используются конечными пользователями для доступа к информации, ее визуализации, многомерного анализа и формирования как предопределенных по форме и составу, так и произвольных отчетов. В качестве входной информации для анализа выступают не столько «сырые» данные из транзакционных систем, сколько заранее обработанные данные из хранилища или представленные в витринах данных.

6 Web-портал. В настоящее время российские предприятия и организации все активнее начинают внедрять у себя различные Интернет-технологии. Проведение интеллектуального анализа данных с применением программных решений не только в локальной среде, но и в среде интранет и интернет, открывает аналитикам новые возможности работы с данными. Современные тенденции развития архитектуры информационно-аналитической системы базируются на применении Интернет-технологий. Традиционный вид архитектуры информационно-аналитической системы дополнился Web-порталом. Возможность доступа к информации через Web-браузер позволяет экономить на затратах, связанных с закупкой и поддержкой настольных аналитических приложений для большого числа клиентских мест. Реализация Web-портала позволяет снабжать аналитической информацией как пользователей внутри организации, так и удаленных пользователей-аналитиков.

2.3.3Технологии сбора информации


Информация, поступающая в систему мониторинга, может иметь различные источники. Она может поступать с исполнительных машин и датчиков (при автоматическом вводе данных), путем ввода оператором (посредством диалогового интерфейса), в качестве результатов поиска в первичных или транзакционных базах данных или из других систем. Это в первую очередь зависит от назначения автоматизированной обработки данных, в составе которой реализована система мониторинга.

Данные со входа поступают на модуль контроля полученных данных, который проводит логический и форматный анализ и корректировку, а также осуществляет другую первичную обработку данных.

В связи с данным выше определением и спецификой административного мониторинга можно говорить, что двумя основными технологиями сбора информации будут являться ввод данных оператором посредством диалогового интерфейса и импорт данных из других электронных источников данных, используемых в целях автоматизации организационной деятельности в организационной, организационно-технической или социальной системе.

2.3.4Технологии хранения и обработки информации


Технологии обработки данных напрямую зависят от технологии хранения, характеристик самих данных и круга задач, стоящих при обработке. Данные, обрабатываемые автоматизированной информационной системой, как правило, принадлежат одной из следующих сфер [35].

1 Сфера детализированных данных. Большинство систем, нацеленных на поиск информации в хранилище, работают с детализированными данными. В большинстве случаев реляционные СУБД справляются с поставленными задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно-поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных. Системы поиска информации в хранилище используют технологию «Хранилища данных, или Склады данных (Data Warehouse)»;

2 Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация, гиперкубическое представление и многомерный анализ являются задачами систем оперативной аналитической обработки данных (OLAP). В качестве технологии хранения здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться непосредственно в процессе сканирования детализированных таблиц реляционной БД без предварительного хранения.

3 Сфера поиска закономерностей в данных. Системы, задачей которых является интеллектуальная обработка данных, ориентированы не на поиск и представление самих данных, а на выработку определённых закономерностей между фрагментами данных. Интеллектуальная обработка производится с помощью технологии интеллектуального анализа данных (ИАД, Data Mining), главными задачами которой являются поиск функциональных и логических зависимостей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов.

Некоторые авторы [35] выделяют в отдельную область анализ отклонений. В качестве примера можно привести статистический анализ рядов динамики. Однако, чаще этот тип анализа относят к области закономерностей.

2.3.5Технологии представления информации


Рассмотрим возможности многомерного представления данных мониторинга (реляционное и сетевое представление более очевидны и их анализ и сравнение будет производиться при разработке модели представления данных). По Кодду [29], многомерное концептуальное представление (multi-dimensional conceptual view) представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. Так, измерение Исполнитель может определяться направлением консолидации, состоящим из уровней обобщения «предприятие - подразделение - отдел – служащий». В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений. Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим. Операция подъема (rolling up) означает движение от низших уровней к высшим.

В СУБД, основанных на многомерном представлении данных, данные организованы не в форме реляционных таблиц, а в виде упорядоченных многомерных массивов:

– гиперкубов (все хранимые в БД ячейки должны иметь одинаковую мерность, то есть находиться в максимально полном базисе измерений);

– поликубов (каждая переменная хранится с собственным набором измерений, и все связанные с этим сложности обработки перекладываются на внутренние механизмы системы).

Использование многомерных БД в системах оперативной аналитической обработки имеет следующие достоинства.

1 В случае использования многомерных СУБД поиск и выборка данных осуществляется значительно быстрее, чем при многомерном концептуальном взгляде на реляционную базу данных, так как многомерная база данных денормализована, содержит заранее агрегированные показатели и обеспечивает оптимизированный доступ к запрашиваемым ячейкам;

2 Многомерные СУБД легко справляются с задачами включения в информационную модель разнообразных встроенных функций, тогда как объективно существующие ограничения языка SQL делают выполнение этих задач на основе реляционных СУБД достаточно сложным, а иногда и невозможным.

С другой стороны, имеются существенные ограничения.

1 Многомерные СУБД не позволяют работать с большими базами данных. К тому же за счет денормализации и предварительно выполненной агрегации объем данных в многомерной базе, как правило, соответствует меньшему объему исходных детализированных данных;

2 Многомерные СУБД по сравнению с реляционными очень неэффективно используют внешнюю память. В подавляющем большинстве случаев информационный гиперкуб является сильно разреженным, а поскольку данные хранятся в упорядоченном виде, неопределенные значения удаётся удалить только за счет выбора оптимального порядка сортировки, позволяющего организовать данные в максимально большие непрерывные группы. Но даже в этом случае проблема решается только частично. Кроме того, оптимальный с точки зрения хранения разреженных данных порядок сортировки скорее всего не будет совпадать с порядком, который чаще всего используется в запросах. Поэтому в реальных системах приходится искать компромисс между быстродействием и избыточностью дискового пространства, занятого базой данных.

Следовательно, использование многомерных СУБД оправдано только при следующих условиях.

1 Объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), то есть уровень агрегации данных достаточно высок.

2 Набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба).

3 Время ответа системы на нерегламентированные запросы является наиболее критичным параметром.

4 Требуется широкое использование сложных встроенных функций для выполнения кроссмерных вычислений над ячейками гиперкуба, в том числе возможность написания пользовательских функций.


1   2   3   4   5   6   7   8   9   ...   17

Похожие:

Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе по Государственному контракту...
Этап второй: «Выбор направлений исследований и этап предварительных исследований по мембранным коллоидным системам»
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе исследования в области построения...
Этап 1 «Анализ и исследование систем управления информационным обменом в сетях обработки данных»
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе исследования в области построения...
Этап 2 «Разработка концепции построения системы управления информационным обменом в защищенной сети порталов через открытые каналы...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе контракт №21/10 от «09» октября...
Целью работы является исследование теоретических и практических особенностей существующих систем ротации в правоохранительных органах,...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Развитие, исследование и внедрение средств высокопроизводительных вычислений на основе технологий Грид с поддержкой гетерогенных,...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе по теме «Разработка принципов...
«Российский научно-исследовательский институт культурного и природного наследия имени Д. С. Лихачева»
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе по теме: «Исследование отрасли...
Директор Областного государственного бюджетного учреждения «Электронный Ульяновск»
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Гост 32-2001. Межгосударственный стандарт. Система стандартов по информации, библиотечному и издательскому делу. Отчет о научно-исследовательской...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Межгосударственный стандарт (гост 32-2001). Отчет о научно-исследовательской работе. Структура и правила оформления (редакция 2005...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОбщие положения отчет
Отчет о научно-исследовательской работе (нир) документ, который содержит систематизированные данные о научно-исследовательской работе,...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconВыбор направления исследований
...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе по программе фундаментальных...
Институт химии твердого тела и механохимии Сибирского Отделения Российской академии наук
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconПрограмма по формированию навыков безопасного поведения на дорогах...
Целью изучения дисциплины является формирование у студентов знаний об основах построения и функционирования адаптивных информационных...
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Проведение научных исследований коллективами научно-образовательных центров в области коллоидной химии и поверхностных явлений
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Проведение научных исследований коллективами научно-образовательных центров в области коллоидной химии и поверхностных явлений
Отчет о научно-исследовательской работе исследование и разработка теоретических основ построения и функционирования распределенных адаптивных систем административного мониторинга этап 1 «выбор направления исследований» iconОтчет о научно-исследовательской работе
Разработка критериев оценки качества очистки внутренних поверхностей трубопроводов систем теплоснабжения жилого фонда г. Красноярска...


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск