Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»

Скачать 78.93 Kb.

Название	Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
Дата публикации	26.12.2014
Размер	78.93 Kb.
Тип	Отчет

100-bal.ru > Математика > Отчет

Министерство образования Российской Федерации
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

ОТЧЕТ О ЛАБОТАРОРНОЙ РАБОТЕ

Методы и средства анализа данных

по теме:

«Система анализа данных WEKA»
Руководитель темы ______________ И. Игнатьев

подпись, дата
Исполнитель ______________ А. Булатов

подпись, дата Группа С-75

СОДЕРЖАНИЕ

СОДЕРЖАНИЕ 2

РЕФЕРАТ 3

ВВЕДЕНИЕ 4

Задание 1: Подготовить исходный файл в формате *.arff. 5

Задание 2: Классификация исходных данных различными методами. 6

Классификация методом Naïve Bayes. 7

Классификация методом J4.8 (модификация С4.5). 9

Классификация методом ID3. 10

Классификация методом 1R (в системе Weka называется OneRule). 12

Классификация методом SVM (Support Vector Machines). 13

Задание 3: Построение ассоциативных правил. 14

Метод Априори. 14

НАБОР ДАННЫХ 16

РЕФЕРАТ

Отчет 17 страниц

WEKA, МЕТОДЫ КЛАССИФИКАЦИИ, Data Mining, МЕТОД БАЙЕСА, J4.8, ID3, 1R, SVM, АССОЦИАТИВНЫЕ ПРАВИЛА, МЕТОД АПРИОРИ

Объектом изучения являются система анализа данных WEKA.

Цель работы – практическое освоение методов классификации и методов составления ассоциативных правил.

В процессе работы проводились экспериментальные исследования работы алгоритмов.

В результате были изучены методы классификации и составления ассоциативных правил.

ВВЕДЕНИЕ

Лабораторная работа посвящена анализу данных в системе анализа данных Weka. Эта система написана на Java и представляет собой систему библиотек функции обработки данных, плюс несколько графических интерфейсов к этим библиотекам. Основной интерфейс системы - Explorer. Он позволяет выполнять практически все действия, которые предусмотрены в системе. Именно в нем мы будем работать. Также в системе Weka предусмотрены другие интерфейсы - Knowledge Flow для работы с большими массивами данных (Explorer загружает все дынные в память сразу, и потому работа с большими массивами затруднена) и Experimenter для экспериментального подбора наилучшего метода анализа данных.

В данной лабораторной работе изучаются методы классификации и поиска ассоциативных правил. Для лучшего понимания различий между данными методами используется система анализа данных Weka, в которой все исследуемые методы применяются к одному и тому же набору исходных данных, а полученные результаты анализируются и сравниваются между собой.

ОСНОВНАЯ ЧАСТЬ

Задание 1: Подготовить исходный файл в формате *.arff.

Поэтому первая задача - перевести таблицу, содержащую данные, в формат csv и модифицировать ее.

Модификация состоит в добавлении полей метаданных: в начало файла на отдельных строчках названия зависимости @relation имя, описания атрибутов @attribute имя тип и @data перед началом самих данных. Типы данных следующие: численные (numeric, real, integer), перечислимые(nominal) (задаются перечислением вида {i1, ..., in}), строковые (string), дата (date [date format]).

Рисунок 1

На Рисунке 1 показан измененный исходный файл, сохраненный в формате *.arff. Отношение было названо income. Далее перечислены все атрибуты, их типы и возможные значения.

Например: атрибут age имеет тип numeric – это числовые данные, показывающие возраст. Атрибут workclass имеет тип nominal, в фигурных скобках перечисляются возмодные значения этого атрибута: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

Пере началом данных вставлено @data.

Задание 2: Классификация исходных данных различными методами.

Классифицировать исходные данные наивным байесовским методом, методом J4.8 (модификация С4.5), методом ID3, методом 1R, методом SVM (в среде Weka он называется SMO). В случае невозможности применить метод к данным воспользоваться фильтрами. Описать полученные результаты.

Файл *.arff необходимо загрузить в систему. Это делается при помощи кнопки Open File вкладки Preprocess. На данной вкладке можно загрузить файл в систему, а затем редактировать загруженные данные. Редактирование может осуществляться как вручную, так и наложением на данные фильтра для их очищения и/или трансформации. Фильтры необходимы для модификации данных таким образом чтобы стало возможно применение различных методов. Так, например, некоторые методы могут работать только с перечислимым типом данных. Для этого при помощи фильтра RemoveType можно убрать из набора данные неподходящих типов.

Рисунок 2

На рисунке 2 показано глевное окно Weka Explorer с открытым набором данных. На графине в нижнем правом углу показано отношение между age и income.

Во складке Classify при помощи кнопки Choose выбирается метод классификации. После выбора метода классификации (классификатора, classifier) необходимо выбрать метод проверки. Основным методом является кросс-проверка (cross-validation), однако можно также проводить проверку результатов анализа на обучающем множестве(training set), на специальном тестовом множестве (supplied test set) и на тестовой части обучающего множества (Percentage Split).

После этого требуется выбрать зависимую переменную классификации.

После этого нажимается кнопка Start. По завершении анализа заполнится окно Output и добавится новая запись в окно Result.

С нашем случае методом проверки является кросс-проверка. Суть ее в том что исходный набор данных в какой-либо пропорции разбивается на обучающее и проверочное множества. Далее по обучающему множеству данные классифицируются, а по проверочному проверяются. Таким образом и вычисляется ошибка.

Классификация методом Naïve Bayes.

Этот алгоритм применяется сразу к исходным данным без какого либо их изменения. Т.е. не приходилось использовать фильтры. Пример вывода алгоритма в окне Weka представлен на рисунке 3.

Рисунок 3

Этот метод основывается на анализе данных по всем исходным переменным.

Классификация методом J4.8 (модификация С4.5).

Этот алгоритм также применяется к исходным данным без их изменения. Результатом его работы является дерево решений, которое можно увидеть в виде дерева и текста на рисунке 4.

Рисунок 4

В этом случае дерево имеет лучший вид, чем при использовании метода ID3. Это вызвано более ранней остановкой алгоритма. Также достигается более высокая точность.

Классификация методом ID3.

Этот алгоритм требует чтобы во входном наборе содержались только данные номинального типа. Для этого применяем фильтр RemoveType и удаляем все типы данных кроме nominal. Применение фильтра изображено на рисунке 5.

Рисунок 5

После применения фильтра в наборе остаются только данные номинального типа. С ними и продолжает работу алгоритм. Далее для работы алгоритма необходимо отсутствие пустых значений. Чтобы осуществить это применяется фильтр ReplaceMissingValues, заменяющий пустые значения средними. Пример вывода программы изображен на рисунке 5.

В нашем случае разбиение производится по перменной Income и дерево получается очень сильно разветвленным и не очень точным.

Рисунок 6

Классификация методом 1R (в системе Weka называется OneRule).

Метод классификации 1R – один из самых простых и понятных методов классификации. Применяется как к числовым данным, которые разбиваются на промежутки, так и к данным типа nominal.

Рисунок 7

Пример вывода алгоритма представлен на рисунке 7.

Применительно к нашим данным этот метод показал себя не очень хорошо. Как известно, он обладает так называемой сверхчувствительностью (overfitting). Метод выбирает переменные принимающие наибольшее возможное количество значений, для таких переменных ошибка и будет наименьшей. Так, например, для переменной по которой у каждого ключа свое уникальное значение ошибка будет равно нулю, но для таких переменных правила бесполезны. В нашем случае такой переменной является Capital Gain. Соответственно после кросс-проверки точность результата также достаточно высока – 81,5 процент.

Классификация методом SVM (Support Vector Machines).

Для этого метода не требуется каких-либо преобразований исходной выборки.

Данный метод является алгоритмом классификации с использованием математических функций. Метод использует нелинейные математические функции. Номинальные данные преобразуются в числовые. Основная идея метода опорных векторов – перевод исходных векторов в пространство более высокой размерности и поиск максимальной разделяющей гиперплоскости в этом пространстве.

Пример вывода на рисунке 7.

Рисунок 7

Данный метод достаточно ресурсоемок, при получении результата заметна задержка его вывода из-за проведения расчетов. На выводе алгоритма показываются веса для значений всех возможные значений всех переменных.

Задание 3: Построение ассоциативных правил.

Метод Априори.

Нахождение ассоциативных правил происходит почти так же, как и классификация. На вкладке Associate выбирается метод нахождения, для него выставляются параметры кликом на его названии, после чего нажимается кнопка Start и анализируется вывод. В нашем случае ассоциативные правила строятся по методу Априори.

Рисунок 8

При изменении метрики правила меняются полностью.

В настройках метода устанавливалось создание 10 ассоциативных правил. Данный алгоритм определяет часто встречающиеся наборы, соответственно самыми точными являются самые часто встречающиеся наборы, но не все они, как видно, не все они имеют смысл.

ЗАКЛЮЧЕНИЕ

В результате работы были исследованы методы классификации и построения ассоциативных правил. Исходным набором данных в нашем случае являлась перепись населения в США, в которой классификация производилась по доходам населения.

НАБОР ДАННЫХ

datamining400-01

Москва 2008

Добавить документ в свой блог или на сайт

Похожие:

	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
	Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»		Опыт применения методов интеллектуального анализа данных в компаративистских... В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
	К методическим указаниям о порядке формирования и использования информационного... Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)...		Анализа данных-4: анализ издержки-выгод Методы анализа данных-4: анализ издержки-выгоды, анализ издержки-эффективность (17 ноября 2005)1
	Программа дисциплины Qualitative and Quantitative Methods of Data... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...		Отделение статистики, анализа данных и демографии статистические... Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г
	Программа по формированию навыков безопасного поведения на дорогах... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/специальности...		Методические рекомендации по изучению дисциплины «Анализ данных в... «Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
	Урок по информатике по теме "Системы управления базами данных. Создание... Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд”		Отчет о работе по теме: «Проведение подготовительных работ по созданию... Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент

Школьные материалы