Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»

Скачать 353.47 Kb.

Название	Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
страница	1/2
Дата публикации	09.01.2015
Размер	353.47 Kb.
Тип	Отчет

100-bal.ru > Бухгалтерия > Отчет

1 2

Министерство образования Российской Федерации
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

ОТЧЕТ О ЛАБОТАРОРНОЙ РАБОТЕ

Методы и средства анализа данных

по теме:

«Система анализа данных WEKA»
Руководитель темы ______________ И. Игнатьев

подпись, дата
Исполнитель ______________ А.Тереховский

подпись, дата Группа С-74

СОДЕРЖАНИЕ

СОДЕРЖАНИЕ 2

РЕФЕРАТ 3

ВВЕДЕНИЕ 4

Задание 1: Подготовить исходный файл в формате *.arff. 5

Классификация методом Naïve Bayes. 8

Классификация методом ID3. 11

Классификация методом J4.8 (модификация С4.5). 24

Классификация методом 1R (в системе Weka называется OneRule). 28

Классификация методом SVM (в Weka называется SMO). 30

Задание 3: Построение ассоциативных правил. 34

Метод Априори. 34

НАБОР ДАННЫХ 37

РЕФЕРАТ

Отчет 17 страниц

WEKA, МЕТОДЫ КЛАССИФИКАЦИИ, DATA MINING, МЕТОД БАЙЕСА, J4.8, ID3, 1R, SVM, АССОЦИАТИВНЫЕ ПРАВИЛА, МЕТОД АПРИОРИ

Объектом изучения являются система анализа данных WEKA.

Цель работы – практическое освоение методов классификации и методов составления ассоциативных правил.

В процессе работы проводились экспериментальные исследования работы алгоритмов.

В результате были изучены методы классификации и составления ассоциативных правил.

ВВЕДЕНИЕ

Лабораторная работа посвящена анализу данных в системе анализа данных Weka. Эта система написана на Java и представляет собой систему библиотек функции обработки данных, плюс несколько графических интерфейсов к этим библиотекам. Основной интерфейс системы - Explorer. Он позволяет выполнять практически все действия, которые предусмотрены в системе. Именно в нем мы будем работать. Также в системе Weka предусмотрены другие интерфейсы - Knowledge Flow для работы с большими массивами данных (Explorer загружает все дынные в память сразу, и потому работа с большими массивами затруднена) и Experimenter для экспериментального подбора наилучшего метода анализа данных.

В данной лабораторной работе изучаются методы классификации и поиска ассоциативных правил. Для лучшего понимания различий между данными методами используется система анализа данных Weka, в которой все исследуемые методы применяются к одному и тому же набору исходных данных, а полученные результаты анализируются и сравниваются между собой.

ОСНОВНАЯ ЧАСТЬ

Задание 1: Подготовить исходный файл в формате *.arff.

Поэтому первая задача - перевести таблицу, содержащую данные, в формат csv и модифицировать ее.

Модификация состоит в добавлении полей метаданных: в начало файла на отдельных строчках названия зависимости @relation имя, описания атрибутов @attribute имя тип и @data перед началом самих данных. Типы данных следующие: численные (INTEGER, real, integer), перечислимые(nominal) (задаются перечислением вида {i1, ..., in}), строковые (string), дата (date [date format]).

Листинг 1

@RELATION laba43
@ATTRIBUTE 'age' INTEGER

@ATTRIBUTE 'workclass' {Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked}

@ATTRIBUTE 'fnlwgt' INTEGER

@ATTRIBUTE 'education' {Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool}

@ATTRIBUTE 'education-num' INTEGER

@ATTRIBUTE 'marital-status' {Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse}

@ATTRIBUTE 'occupation' {Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces}

@ATTRIBUTE 'relationship' {Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried}

@ATTRIBUTE 'race' {White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black}

@ATTRIBUTE 'sex' {Female, Male}

@ATTRIBUTE 'capital-gain' INTEGER

@ATTRIBUTE 'capital-loss' INTEGER

@ATTRIBUTE 'hours-per-week' INTEGER

@ATTRIBUTE 'native-country' {United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands}

@ATTRIBUTE 'income' {>50K,<=50K}
@DATA

статистические данные для анализа

В листинге 1 показан измененный исходный файл, сохраненный в формате *.arff. Отношение было названо laba43. Далее перечислены все атрибуты, их типы и возможные значения.

Например: атрибут age имеет тип INTEGER – это целочисленные данные, показывающие возраст. Атрибут workclass имеет перечисляемый тип (nominal), в фигурных скобках перечисляются возможные значения этого атрибута: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

Перед началом данных вставлено @data.
Задание 2: Классификация исходных данных различными методами.
Классифицировать исходные данные наивным байесовским методом, методом J4.8 (модификация С4.5), методом ID3, методом 1R, методом SVM (в среде Weka он называется SMO). В случае невозможности применить метод к данным воспользоваться фильтрами. Описать полученные результаты.

Файл *.arff необходимо загрузить в систему. Это делается при помощи кнопки Open File вкладки Preprocess. На данной вкладке можно загрузить файл в систему, а затем редактировать загруженные данные. Редактирование может осуществляться как вручную, так и наложением на данные фильтра для их очищения и/или трансформации. Фильтры необходимы для модификации данных таким образом чтобы стало возможно применение различных методов. Так, например, некоторые методы могут работать только с перечислимым типом данных. Для этого при помощи фильтра RemoveType можно убрать из набора данные неподходящих типов.

Рисунок 1

На рисунке 1 показано главное окно Weka Explorer с открытым набором данных. На графике в нижнем правом углу показано отношение между age и income.

Во вкладке Classify при помощи кнопки Choose выбирается метод классификации. После выбора метода классификации (классификатора, classifier) необходимо выбрать метод проверки. Основным методом является кросс-проверка (cross-validation), однако можно также проводить проверку результатов анализа на обучающем множестве (training set), на специальном тестовом множестве (supplied test set) и на тестовой части обучающего множества (Percentage Split).

После этого требуется выбрать зависимую переменную классификации.

После этого нажимается кнопка Start. По завершении анализа заполнится окно Output и добавится новая запись в окно Result.

С нашем случае методом проверки является кросс-проверка. Суть ее в том, что исходный набор данных в какой-либо пропорции разбивается на обучающее и проверочное множества. Далее по обучающему множеству данные классифицируются, а по проверочному проверяются. Таким образом и вычисляется ошибка.

Классификация методом Naïve Bayes.

Этот алгоритм применяется сразу к исходным данным без какого либо их изменения. Т.е. не приходилось использовать фильтры. Пример вывода результата работы алгоритма в окне Weka представлен в листинге 2.

Листинг 2

Naive Bayes Classifier
Class >50K: Prior probability = 0.22
age: Normal Distribution. Mean = 44.5168 StandardDev = 10.1778 WeightSum = 87 Precision = 1.0701754385964912

workclass: Discrete Estimator. Counts = 54 11 7 8 8 3 1 1 (Total = 93)

fnlwgt: Normal Distribution. Mean = 181233.8294 StandardDev = 91901.5756 WeightSum = 87 Precision = 1592.3392405063291

education: Discrete Estimator. Counts = 28 12 3 20 6 4 2 1 1 2 16 1 2 3 1 1 (Total = 103)

education-num: Normal Distribution. Mean = 11.7701 StandardDev = 2.3425 WeightSum = 87 Precision = 1.0

marital-status: Discrete Estimator. Counts = 77 5 7 2 1 1 1 (Total = 94)

occupation: Discrete Estimator. Counts = 2 11 3 11 23 20 1 3 8 5 6 1 4 1 (Total = 99)

relationship: Discrete Estimator. Counts = 11 4 66 9 1 2 (Total = 93)

race: Discrete Estimator. Counts = 80 5 1 1 5 (Total = 92)

sex: Discrete Estimator. Counts = 14 75 (Total = 89)

capital-gain: Normal Distribution. Mean = 3959.092 StandardDev = 15322.5902 WeightSum = 87 Precision = 5555.5

capital-loss: Normal Distribution. Mean = 242.6638 StandardDev = 679.5541 WeightSum = 87 Precision = 127.95

hours-per-week: Normal Distribution. Mean = 42.7874 StandardDev = 12.3899 WeightSum = 87 Precision = 2.5

native-country: Discrete Estimator. Counts = 82 1 1 1 2 1 1 2 1 1 1 2 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (Total = 127)

Class <=50K: Prior probability = 0.78
age: Normal Distribution. Mean = 37.4698 StandardDev = 13.7417 WeightSum = 313 Precision = 1.0701754385964912

workclass: Discrete Estimator. Counts = 231 17 10 8 25 12 1 1 (Total = 305)

fnlwgt: Normal Distribution. Mean = 194997.9651 StandardDev = 110927.7691 WeightSum = 313 Precision = 1592.3392405063291

education: Discrete Estimator. Counts = 40 82 12 122 1 6 11 4 12 2 7 3 15 5 6 1 (Total = 329)

education-num: Normal Distribution. Mean = 9.492 StandardDev = 2.4195 WeightSum = 313 Precision = 1.0

marital-status: Discrete Estimator. Counts = 121 57 114 14 11 2 1 (Total = 320)

occupation: Discrete Estimator. Counts = 17 48 37 41 19 30 15 25 40 9 18 3 8 1 (Total = 311)

relationship: Discrete Estimator. Counts = 14 60 103 86 14 42 (Total = 319)

race: Discrete Estimator. Counts = 270 10 6 7 25 (Total = 318)

sex: Discrete Estimator. Counts = 124 191 (Total = 315)

capital-gain: Normal Distribution. Mean = 88.746 StandardDev = 925.9167 WeightSum = 313 Precision = 5555.5

capital-loss: Normal Distribution. Mean = 70.72 StandardDev = 354.404 WeightSum = 313 Precision = 127.95

hours-per-week: Normal Distribution. Mean = 39.0815 StandardDev = 11.7335 WeightSum = 313 Precision = 2.5

native-country: Discrete Estimator. Counts = 282 2 2 3 1 3 1 1 1 1 1 3 1 1 2 2 1 2 1 2 12 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 3 1 1 1 1 (Total = 349)
Time taken to build model: 0.06 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 341 85.25 %

Incorrectly Classified Instances 59 14.75 %

Kappa statistic 0.5027

Mean absolute error 0.1607

Root mean squared error 0.3548

Relative absolute error 47.0789 %

Root relative squared error 85.9928 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.483 0.045 0.75 0.483 0.587 >50K

0.955 0.517 0.869 0.955 0.91 <=50K
=== Confusion Matrix ===
a b <-- classified as

42 45 | a = >50K

14 299 | b = <=50K

Этот метод основывается на анализе данных по всем исходным переменным. Формулируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями. Оценив ошибки, выбирается переменная, для которой ошибка набора минимальна. Для каждого значения атрибута обучающего множества приводится его вероятность, а также выкладки по всем атрибутам тестового множества, включающие в себя средние значения и точность (количество совпадений тестового набора и обучающего множества) для численных (перечислимых) типов данных. В результате кросс-проверки получаем достаточно высокий процент верной классификации (85.25%), а также относительно небольшую среднюю абсолютную ошибку.

В результате после анализа данных на основе Classifier model можно сделать выводы о людях имеющих зароботок больше или меньше 50К. К примеру в нашем случае можно сделать вывод что средний возраст тех кто зарабатывает >50K – 44.1189 (age: Normal Distribution. Mean = 44.5168), а тех кто зарабатывает <50K – 37.4698. Т.е. для числовых значений показывается среднее значение для данного класса, а также отклонение и точность. Для значений номинального типа показывается сколько раз встречается какое-то номинальное значение в конкретном классе. Например при заработке >50K 64 человека имеют workclass private (workclass: Discrete Estimator. Counts = 54 11 7 8 8 3 1 1 (Total = 93)) тут перечислены количества значений, перечисленных в тех данных что мы добавляли для получения arff «@ATTRIBUTE 'workclass' {Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked}»})

1 2

Добавить документ в свой блог или на сайт

Похожие:

	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, Data Mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
	Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»		Опыт применения методов интеллектуального анализа данных в компаративистских... В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
	К методическим указаниям о порядке формирования и использования информационного... Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)...		Анализа данных-4: анализ издержки-выгод Методы анализа данных-4: анализ издержки-выгоды, анализ издержки-эффективность (17 ноября 2005)1
	Программа дисциплины Qualitative and Quantitative Methods of Data... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...		Отделение статистики, анализа данных и демографии статистические... Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г
	Программа по формированию навыков безопасного поведения на дорогах... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/специальности...		Методические рекомендации по изучению дисциплины «Анализ данных в... «Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
	Урок по информатике по теме "Системы управления базами данных. Создание... Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд”		Отчет о работе по теме: «Проведение подготовительных работ по созданию... Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент

Школьные материалы