Скачать 0.6 Mb.
|
Альтернативный поток:
Постусловия:
Альтернативный поток: Возврат для доработки ID: 7.2 Краткое описание: Система сообщает пользователю об отказе в публикации новости и возвращает текст на доработку Основное действующее лицо: Пользователь «Аналитик» Второстепенные действующие лица: Администратор Предусловия:
Альтернативный поток:
Постусловия:
2.2.3 Сценарии поведения пользователя «Гость» Пользователь «Гость» получает доступ к новостям портала, внешним ссылкам, ведущим на сайты подразделений, имеет возможность авторизоваться в системе либо отправить запрос на регистрацию или сообщение администратору. ВИ 08: Зарегистрироваться в системе ID: 8 Краткое описание: Пользователь «Гость» отправляет запрос о регистрации новой учётной записи Основное действующее лицо: Администратор Второстепенные действующие лица: Пользователь «Гость» Предусловия:
Основной поток:
Постусловия:
Альтернативные потоки:
ID: 8.1 Краткое описание: Администратор отказал пользователю «Гость» в предоставлении доступа Основное действующее лицо: Администратор Второстепенные действующие лица: Нет Предусловия:
Альтернативный поток:
Постусловия:
Схема отправки сообщения пользователем «Гость» сходна с аналогичной для пользователя «Аналитик», с той разницей, что «Гостю» предлагается также заполнить поле «e-mail адрес», т.к. его контактных данных в системе нет. Вывод по разделу 2. Определены роли пользователей подсистемы «Аналитик» и распределены их права доступа и обязанности в системе. Разработаны варианты использования компонентов системы различными пользователями. 3 МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Статистические данные – это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Так, в нашем случае, объект исследования – множество тестируемых, а их признаки – множество показателей их характеризующие: их личные данные, результаты и время прохождения тестирования. Переменные – это величины, которые в результате измерения могут принимать различные значения. Независимые переменные – это переменные, значения которых в процессе экперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять. Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самя «богатая» – абсолютная. Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту. Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы. При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований (y = ax + b). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида y = ax. Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия. Абсолютная шкала имеет и абсолютный нуль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. 3.1 Выбор методов обработки данных Большинство статистических методов относятся к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики[5]. При решении данной задачи применение многих традиционных статистических методов нерационально и не позволяет добиться желаемого результата. Более эффективным представляется использование методов глубинного анализа данных, Data Mining. Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.[6] Особенностью Data Mining является, как уже было отмечено, нетривиальность разыскиваемых шаблонов. Искомые шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые (глубинные) знания. Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование[7]. Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Как правило, на основе кластеризации формируются новые продукты [8]. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. В рассматриваемом приложении на первый план выходят задачи кластеризации или иначе говоря кластерного анализа данных. 3.2 Методы Data Mining Все методы Data Mining могут быть разделены на две группы по принципу работы с исходными данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования. В случае непосредственного использования исходных данных они хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования или анализа исключений. Недостаток данной группы методов в сложности анализа сверхбольших баз данных. В данную группу включают методы кластерного анализа, метод ближайшего соседа, рассуждение по аналогии. Методы с использованием формализованных закономерностей (дистилляция шаблонов). При данной технологии один образец (шаблон) информации извлекается из исходных данных и преобразуется в формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска (у первой группы методов данная стадия отсутствует). На дальнейших стадиях используются результаты стадии свободного поиска, которые значительно компактнее исходных баз данных. Кроме того конструкции этих моделей могут быть как трактуемыми аналитиком, так и нетрактуемыми ("черными ящиками"). Методы этой группы: логические методы, методы визуализации, методы кросс-табуляции, методы, основанные на уравнениях. Логические методы (методы логической индукции) включают в себя нечеткие запросы и анализы, деревья решений и генетические алгоритмы. Методы этой группы являются наиболее интерпретируемыми - они оформляют найденные закономерности в достаточно прозрачном виде с точки зрения пользователя. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины. Методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация. Методы на основе уравнений выражают выявленные закономерности в виде математических уравнений. Данные методы могут работать лишь с численными переменными, что несколько ограничивает применение методов данной группы. Тем не менее они широко используются при решении задач прогнозирования. Основные методы данной группы используют нейронные сети. Другая классификация основана на различных подходах к обучению математических моделей. Согласно ей все многообразие методов Data Mining можно разделить на две группы: статистические и кибернетические методы. Статистические методы основаны на усреднении накопленного опыта, отраженного в ретроспективных данных, тогда как кибернетические методы, включающие множество разнородных математических подходов. Недостаток такой классификации состоит, однако, в том, что и статистические, и кибернетические алгоритмы опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации. Преимуществом такой классификации является ее удобство для интерпретации. Статистические методы Data mining представляют собой четыре взаимосвязанных раздела:
Арсенал статистических методов Data Mining также классифицирован на четыре группы методов: 1. Дескриптивный анализ и описание исходных данных 2. Анализ связей 3. Многомерный статистический анализ 4. Анализ временных рядов. Второе направление Data Mining включает в себя множество подходов, объединенных использованием элементов теории искусственного интеллекта. К этой группе относятся такие методы:
Методы Data Mining также можно классифицировать по задачам Data Mining. В соответствии с такой классификацией можно выделить две группы, решающие задачи сегментации (классификации и кластеризации) и задачи прогнозирования. В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов. Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика. К методам, направленным на получение описательных результатов, относятся итеративные методы кластерного анализа, в том числе: алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс-табличной визуализации, различные методы визуализации и другие. Прогнозирующие методы используют значения одних переменных для прогнозирования неизвестных или будущих значений целевых переменных. К методам, направленным на получение прогнозирующих результатов, относятся нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др. 3.2.1 Методы кластерного анализа Кластерный анализ - это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры). Главное назначение кластерного анализа разбиение множества исследуемых объектов и признаков на однородные группы (кластеры). Это позволяет решать задачу классификации данных и структурировать их. Методы кластерного анализа применимы даже случаях, когда речь идет о простой группировке, с образованием групп по количественному сходству. Значимое достоинство кластерного анализа состоит в том, что он позволяет осуществлять разбиение и группировку объектов по целому набору признаков. В критерий качества классификации так или иначе входит ряд неформальных требований [9]: 1) взаимосвязь объектов внутри группы 2) объекты разных групп должны быть далеки друг от друга; 3) распределения объектов по группам при прочих равных условиях должны быть равномерными. Основная цель кластерного анализа – выделить в исходных n-мерных данных такие однородные подмножества, чтобы объекты внутри групп были близки друг другу и отдалялись от объектов из других групп. Попытки охарактеризовать близость объектов в многомерном пространстве признаков, сводят задачу к выделению в этом пространстве естественных скоплений объектов (однородных групп объектов). Для решения данной задачи было бы достаточно, если бы объекты i и j попадали в один кластер всякий раз, когда расстояние между соответствующими точками xi и xj было бы достаточно мало, в противном же случае они попадали в разные кластеры. В таблице 1 приведены примеры наиболее часто используемых функций расстояния. Таблица 1. Некоторые функции расстояния, используемые в методах кластерного анализа Название Формула Обозначения
расстояние i, j — номера объектов; p — количество переменных, характеризующих объект; k — номер признака; xki — значение k-го признака у i-го объекта; S – ковариационная матрица 2. L1-норма 3. Супремум норма 4. Lp-норма 5. Расстояние Махаланобиса 6. Расстояние Хэмминга Евклидово расстояние, геометрическое расстояние в многомерном пространстве, можно охарактеризовать как наиболее общий тип расстояния. Многие процедуры при кластеризации совершаются ступенчато. Это означает, что два, наиболее близко расположенных объекта xi и xj, объединяются и рассматриваются как один кластер. Это приводит к тому, что число объектов уменьшается на один (один кластер будет содержать два объекта, а оставшиеся по одному). Наиболее подходящее разбиение выбирает чаще всего сам исследователь на основе дендрограммы, которая отображает результаты группирования объектов на каждом шаге алгоритма. Дендрограмма - n-уровневая древовидная диаграмма, каждый из уровней которой соответствует одному из шагов процесса последовательного укрупнения кластеров. Дендрограмму также называют деревом объединения кластеров, деревом иерархической структуры. Традиционно различают классификации: иерархические и неиерархические (называемые иногда структурными). Соответственно можно разделить алгоритмы получения этих классификаций. Основа иерархических алгоритмов состоит в объединении в кластер наиболее близких, а затем последовательно и всё более отдалённых друг от друга элементов. Большинство из этих алгоритмов исходит из матрицы сходства (расстояний), и каждый отдельный элемент рассматривается вначале как отдельный кластер. Общая схема такой иерархической группировки может быть представлена как повторяющееся приложение трех операций к мерам расстояния между объектами (кластерами):
Существует ряд методов кластерного анализа, базирующихся на евклидовой мере расстояния, в том числе метод Уорда, метод ближайшего соседа, метод дальнего соседа и медианный метод. Метод Уорда (Ward's method). В качестве целевой функции применяется сумма квадратов расстояний между каждой точкой, соответствующей объекту, и средней по кластеру, содержащему этот объект (внутригрупповая сумма квадратов отклонений). Данный метод реализуется последовательной процедурой: на каждой итерации объединяются два кластера, которые приводят к минимальному увеличению целевой функции (суммы квадратов отклонений). В результате происходит объединение близко расположенных кластеров. Метод ближайшего соседа. На первом шаге метода каждый объект считается отдельным кластером. Расстояние между кластерами равно расстоянию между двумя ближайшими соседями классов. На каждом последующем шаге независимо от общей формы кластера к нему присоединяются ближайшие к границе объекты. Метод дальнего соседа. Аналогично всем вышеназванным методам на первом шаге каждый объект считается отдельным кластером, и межкластерное расстояние равно расстоянию между самыми дальними объектами. В остальном процесс повторяет метод ближайшего соседа. Медианный метод. В данном методе расстояние между кластерами равно расстоянию между точками с медианными значениями признаков в классах. Помимо иерархических кластерных процедур, существуют неиерархические, также называемые структурными. В них реализуется образование кластеров по принципу выделения т.н. «сгущений» - мест наибольшей концентрации точек в пространстве. К данной категории относится метод k-средних. Алгоритмы кластерного анализа отличаются большим разнообразием. На практике в результате испытаний различных алгоритмов исследователями был сформирован ряд рекомендаций по их применению:
С учетом чувствительности к зашумлению и способности восстановлению структуры данных наилучшим является алгоритм Уорда, наихудшим – метод ближайшего соседа[10]. Вывод по разделу 3. Рассмотрены способы решения поставленной задачи и выбраны методы, наиболее адекватные её специфике. Перечислены методы анализа данных, желательные для программной реализации. 4 ПРОГРАММНЫЕ СРЕДСТВА Развитие программного обеспечения и вычислительной техники снижает значимость самостоятельной, «ручной» реализации указанных методик обработки данных. В настоящее время в социальных исследованиях широко используются различные математико-статистические методы обработки данных, реализованные в программных приложениях с применением современных информационных технологий. Компьютерная обработка данных предполагает некоторое математическое преобразование данных с помощью определенных программных средств. Для этого необходимо иметь представление как о математических методах обработки данных, так и о соответствующих программных средствах[11]. Наиболее популярными являются пакеты статистического анализа данных, такие как SPSS, Statistica, STATGRPHICS. Однако специфика задачи накладывает свои ограничения, делающие использование данных программных продуктов нежелательным: 1)Предпочтение программных продуктов, созданных на веб-ориентированных языках (Java, Python и т.д.) 2)Предпочтение программных продуктов с открытым исходным кодом и широкими возможностями доработки. 3)Предпочтение свободного программного обеспечения. Всё вышесказанное обращает нас к наиболее распространённым open source продуктам в области статистического анализа и Data Mining (интеллектуальный анализ данных). 4.1 Оценка программных средств Data Mining К числу наиболее популярных и детально разработанных приложений в данной категории можно отнести Weka, RapidMiner и KNIME (написаны на Java), Rattle (основан на R) и Orange (интегрирован с Python). В этот перечень намеренно не были включены узкоспециализированные продукты (например, реализующие исключительно анализ текстовых данных, исключительно анализ изображений или реализующие крайне ограниченное число методов статистической обработки данных и data mining). Общие данные о выбранных приложениях представлены в таблице 2, результаты тестирования и оценки, представленные в отчёте[12], сведены в таблицы 3-4. Таблица 2. Общая информация о рассматриваемых программных продуктах
Таблица 3. Характеристика рассматриваемых продуктов
Таблица 4. Функциональность рассматриваемых продуктов
По сумме показанных характеристик представляется целесообразным использование в рамках разрабатываемого кабинета аналитика программ WEKA и Orange, разработанных на языке Java и предоставляющих достаточные возможности для проведения анализа статистических данных и визуализации его результатов. На рисунке 2 показан интерфейс иерархического кластерного анализа в десктоп-версии аналитического приложения Orange. Рис. 2. Интерфейс иерархического кластерного анализа в Orange 4.2 Вспомогательные программные средства Помимо аналитических функций разработка подсистемы предполагает включение компонента для обеспечения связи пользователей подсистемы друг с другом и с администратором. Реализация почтового компонента подсистемы требует помимо выделения дополнительных ресурсов базы данных для хранения и передачи сообщений также включения в подсистему текстового редактора. Для внутреннего почтового модуля предполагается встраивание текстового редактора ckeditor – свободно распространяемого текстового редактора для веб-сайтов, распространяющегося бесплатно, характеризуемого простотой настройки и модификации, открытым программным кодом и большим количеством доступных надстроек[13]. Интерфейс данного редактора представлен на рисунке 3. Рис. 3. Текстовый редактор ckeditor Вывод по разделу 4. Очерчен круг применимого для решения задачи программного обеспечения, оценены его характеристики. По завершении данного этапа разработка приложения перешла в стадию итоговой программной реализации, настройки и внедрения, продолжающуюся до настоящего момента. ЗАКЛЮЧЕНИЕ В результате выполнения данной работы изучены методы анализа многомерных данных, методы data mining, в том числе методы кластерного анализа. Изучены методы, которые могут быть использованы для решения поставленной задачи. Разработаны модели поведения потенциальных пользователей, составлен комплекс требований к аналитическому модулю многофункционального веб-портала. На основании этого были подобраны подходящие методы компьютерной реализации и набор программного обеспечения для данного модуля. Рассмотрены открытые программные продукты для data mining. Процесс итоговой программной реализации модуля на данный момент продолжается и далёк от завершения, однако уже предоставил некоторые достаточно значимые результаты. Так, был обнаружен один из сбоев в базе данных с результатами экспериментов, кроме того отмечены несоответствия данных, предоставляемых отдельными тестовыми приложениями, внутренним стандартам, общим для портала. СПИСОК ПУБЛИКАЦИЙ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
|
Системное программное обеспечение реферат студента 1 курса экономического факультета ПО. Программное обеспечение современных компьютеров включает миллионы программ — от игровых до научных. Все программное обеспечение,... | T. A. Druzhinina программное и алгоритмическое обеспечение визуализации... ... | ||
Прикладное программное обеспечение реферат студентки 1 курса экономического факультета «телом», то программное обеспечение (software) – это его «мозг». Именно правильно подобранное и грамотно установленное программное... | “Алгоритмическое и программное обеспечение для решения задач профотбора... Исходные данные к работе Результаты тестирования студентов, подавших заявление для обучения на военной кафедре | ||
Программа по формированию навыков безопасного поведения на дорогах... Цель: рассмотреть программное обеспечение компьютера и прикладное программное обеспечение компьютера | Тема: Программное обеспечение компьютера Цель: будут уметь различать программное обеспечение компьютера, знать о назначении прикладного по, системного по, Систем программирования,... | ||
Рабочая программа дисциплины “Физическая культура” для специальности... Составлена в соответствии с Государственными требованиями к минимуму содержания и уровню подготовки выпускников по специальности... | Проектирование базы данных реферат студента 1 курса экономического факультета «телом», то программное обеспечение (software) – это его «мозг». Именно правильно подобранное и грамотно установленное программное... | ||
Российской федерации Целью курса является формирование устойчивых навыков применения основных прикладных программных средств (гис, сапр, офисное программное... | Темы рефератов Офисное программное обеспечение турагентства примеры... Офисное программное обеспечение гостиничного комплекса – примеры для конкретных фирм | ||
Методические указания по выполнению внеаудиторной самостоятельной... Составлены в соответствии с учебным планом и рабочей программой мдк 04. 01 Документальное и программное обеспечение страховых выплат... | Методические указания к выполнению дипломного проекта для студентов... Методические указания разработаны в соответствии со стандартом бнту по дипломному проектированию и отражают специфику специальностей... | ||
О доступе к информационным ресурсам и информационно – телекоммуникационным... Программное обеспечение: «Первая помощь. 0 + пакет свободного программного обеспечения» | Учебно-методический комплекс по дисциплине для студентов специальностям... Умк составлен в соответствии с Государственным образовательным стандартом высшего профессионального образования для специальностей... | ||
Презентация «Разработка веб-приложений» В ходе работы, в течении данного семестра мы изучали технологии веб-программирования и верстки позволяющие делать стабильные, удобные... | Программа для подготовки к вступительным экзаменам в аспирантуру... Ифвэ по направленности (профилю) 05. 13. 11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных... |