Реферат Error: Reference source not found введение

Скачать 292.89 Kb.

Название	Реферат Error: Reference source not found введение
страница	2/3
Дата публикации	21.05.2015
Размер	292.89 Kb.
Тип	Реферат

100-bal.ru > Право > Реферат

1 2 3

Задание 2: Классификация исходных данных различными методами.

Классифицировать исходные данные наивным байесовским методом, методом J4.8 (модификация С4.5), методом ID3, методом 1R, методом SVM (в среде Weka он называется SMO). В случае невозможности применить метод к данным воспользоваться фильтрами. Описать полученные результаты.

Файл *.arff необходимо загрузить в систему. Это делается при помощи кнопки Open File вкладки Preprocess. На данной вкладке можно загрузить файл в систему, а затем редактировать загруженные данные. Редактирование может осуществляться как вручную, так и наложением на данные фильтра для их очищения и/или трансформации. Фильтры необходимы для модификации данных таким образом чтобы стало возможно применение различных методов. Так, например, некоторые методы могут работать только с перечислимым типом данных. Для этого при помощи фильтра RemoveType можно убрать из набора данные неподходящих типов.

Рисунок 2

На рисунке 2 показано главное окно Weka Explorer с открытым набором данных. На графике в нижнем правом углу показано отношение между age и income.

Во вкладке Classify при помощи кнопки Choose выбирается метод классификации. После выбора метода классификации (классификатора, classifier) необходимо выбрать метод проверки. Основным методом является кросс-проверка (cross-validation), однако можно также проводить проверку результатов анализа на обучающем множестве (training set), на специальном тестовом множестве (supplied test set) и на тестовой части обучающего множества (Percentage Split).

После этого требуется выбрать зависимую переменную классификации.

После этого нажимается кнопка Start. По завершении анализа заполнится окно Output и добавится новая запись в окно Result.

В нашем случае методом проверки является кросс-проверка. Суть ее в том, что исходный набор данных в какой-либо пропорции разбивается на обучающее и проверочное множества. Далее по обучающему множеству данные классифицируются, а по проверочному проверяются. Таким образом и вычисляется ошибка.

Для автоматической обработки данных используют фильтры. Фильтры делятся на два типа - те, применение которых к данным может вызвать отклонение (supervised) (то есть фактически эти фильтры требуют уже наличия каких-то знаний, полученных от примененного какого-то алгоритма обучения), и те, который можно применять к ещё необработанным данным (unsupervised). Для простоты будем применять фильтры unsupervised.

Наиболее интересными фильтрами являются для нас фильтры:

RemoveType, Remove - для удаления определенных атрибутов, в том числе и по типу - для нас это полезно, так как не все типы могут быть использованы в различных алгоритмах;
Disctretize - для превращения числового атрибута в перечислимый;
RemoveUseless - для удаления атрибутов, значения которых стремятся к ключу, то есть варьируются слишком сильно;
ReplaceMissingValues - для замещения отсутствующих значений средними по атрибуту;
Различный *toBinary - для перевода перечислимых и числовых значений атрибута в группу бинарных атрибутов вида атрибут=значение TRUE|FALSE.

Классификация методом Naïve Bayes.

"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков. Идея алгоритма заключается в том, что формируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями.

Свойства наивной классификации:

1. Использование всех переменных и определение всех зависимостей между ними.

2. Наличие двух предположений относительно переменных:

все переменные являются одинаково важными;
все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.

Пример вывода алгоритма в окне Weka представлен на рисунке 3.

Рисунок 3

Test mode: 10-fold cross-validation

=== Classifier model (full training set) ===

Naive Bayes Classifier
Class >50K: Prior probability = 0.21

age: Normal Distribution. Mean = 42.8907 StandardDev = 10.6681 WeightSum = 82 Precision = 1.2678571428571428

workclass: Discrete Estimator. Counts = 54 7 5 9 8 4 1 1 (Total = 89)

fnlwgt: Normal Distribution. Mean = 193225.9952 StandardDev = 108460.8575 WeightSum = 82 Precision = 1710.7030456852792

education: Discrete Estimator. Counts = 23 18 2 12 10 5 6 1 1 3 9 1 1 4 1 1 (Total = 98)

education-num: Normal Distribution. Mean = 11.9024 StandardDev = 2.2394 WeightSum = 82 Precision = 1.0

marital-status: Discrete Estimator. Counts = 71 8 5 2 1 1 1 (Total = 89)

occupation: Discrete Estimator. Counts = 4 13 4 8 16 26 2 4 7 1 6 1 2 1 (Total = 95)

relationship: Discrete Estimator. Counts = 3 3 68 8 2 4 (Total = 88)

race: Discrete Estimator. Counts = 75 2 1 2 7 (Total = 87)

sex: Discrete Estimator. Counts = 8 76 (Total = 84)

capital-gain: Normal Distribution. Mean = 3658.5 StandardDev = 15615.732 WeightSum = 82 Precision = 6249.9375

capital-loss: Normal Distribution. Mean = 150.7848 StandardDev = 546.6455 WeightSum = 82 Precision = 263.07142857142856

hours-per-week: Normal Distribution. Mean = 45.2397 StandardDev = 10.6554 WeightSum = 82 Precision = 2.3902439024390243

native-country: Discrete Estimator. Counts = 77 1 2 2 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (Total = 122)
Class <=50K: Prior probability = 0.79

age: Normal Distribution. Mean = 36.4728 StandardDev = 13.9564 WeightSum = 318 Precision = 1.2678571428571428

workclass: Discrete Estimator. Counts = 223 25 9 10 22 15 1 1 (Total = 306)

fnlwgt: Normal Distribution. Mean = 192819.9034 StandardDev = 114187.981 WeightSum = 318 Precision = 1710.7030456852792

education: Discrete Estimator. Counts = 37 81 17 106 2 13 16 9 8 8 9 3 11 2 10 2 (Total = 334)

education-num: Normal Distribution. Mean = 9.4119 StandardDev = 2.511 WeightSum = 318 Precision = 1.0

marital-status: Discrete Estimator. Counts = 103 53 139 14 13 2 1 (Total = 325)

occupation: Discrete Estimator. Counts = 12 37 34 32 28 32 15 23 51 16 23 2 6 1 (Total = 312)

relationship: Discrete Estimator. Counts = 7 70 97 96 11 43 (Total = 324)

race: Discrete Estimator. Counts = 268 7 4 3 41 (Total = 323)

sex: Discrete Estimator. Counts = 117 203 (Total = 320)

capital-gain: Normal Distribution. Mean = 98.2695 StandardDev = 1041.6563 WeightSum = 318 Precision = 6249.9375

capital-loss: Normal Distribution. Mean = 58.7361 StandardDev = 360.4965 WeightSum = 318 Precision = 263.07142857142856

hours-per-week: Normal Distribution. Mean = 38.4017 StandardDev = 12.9537 WeightSum = 318 Precision = 2.3902439024390243

native-country: Discrete Estimator. Counts = 284 1 1 2 1 3 1 3 1 1 3 2 2 1 1 2 2 1 1 2 15 1 1 1 1 1 1 2 1 1 2 1 2 1 1 1 2 1 1 1 1 (Total = 354)
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 339 84.75 %

Incorrectly Classified Instances 61 15.25 %

Kappa statistic 0.4931

Mean absolute error 0.1653

Root mean squared error 0.3542

Relative absolute error 50.5722 %

Root relative squared error 87.7341 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.524 0.069 0.662 0.524 0.585 >50K

0.931 0.476 0.884 0.931 0.907 <=50K
=== Confusion Matrix ===
a b <-- classified as

43 39 | a = >50K

22 296 | b = <=50K

В результате кросс-проверки получаем достаточно высокий процент верной классификации (84,75%), а также относительно небольшую среднюю абсолютную ошибку.

В результате после анализа данных на основе Classifier model можно сделать выводы о людях имеющих заработок больше или меньше 50К.

В нашем случае можно сделать вывод что:

средний возраст тех, кто зарабатывает более 50K – 42.8907;
54 человек – частные предприниматели, 7 не работают на корпорации, 5 работают на какие-то корпорации и т.д.;
23 имеют степень бакалавра, 18 закончили колледж и т.д.

А для тех кто зарабатывает <50K:

средний возраст - 36.4728;
223 человека – частные предприниматели, 25 – работают вне корпораций, 9 работают на корпорации и т.д.
37 имеют степень бакалавра, 81 закончили колледж и т.д.

Классификация методом J4.8 (модификация С4.5).

Этот алгоритм также применяется к исходным данным без их изменения. Результатом его работы является дерево решений, которое можно увидеть в виде дерева и текста на рисунке 4.

Метод J4.8 является модификацией метода C4.5, а он в свою очередь – усовершенствованный вариант алгоритма ID3.

Рисунок 4

=== Run information ===
=== Classifier model (full training set) ===
J48 pruned tree

------------------
education-num <= 12

| capital-gain <= 2907: <=50K (302.0/33.0)

| capital-gain > 2907: >50K (10.0/3.0)

education-num > 12

| relationship = Wife: >50K (1.0)

| relationship = Own-child: <=50K (4.0)

| relationship = Husband

| | race = White: >50K (41.0/8.0)

| | race = Asian-Pac-Islander: <=50K (5.0/1.0)

| | race = Amer-Indian-Eskimo: >50K (0.0)

| | race = Other: >50K (0.0)

| | race = Black: <=50K (3.0/1.0)

| relationship = Not-in-family: <=50K (29.0/5.0)

| relationship = Other-relative: <=50K (1.0)

| relationship = Unmarried: <=50K (4.0/1.0)
Number of Leaves : 12
Size of the tree : 16

Time taken to build model: 0.08 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 331 82.75 %

Incorrectly Classified Instances 69 17.25 %

Kappa statistic 0.4033

Mean absolute error 0.2471

Root mean squared error 0.3772

Relative absolute error 75.5878 %

Root relative squared error 93.4163 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.427 0.069 0.614 0.427 0.504 >50K

0.931 0.573 0.863 0.931 0.896 <=50K
=== Confusion Matrix ===
a b <-- classified as

35 47 | a = >50K

22 296 | b = <=50K

Метод работает как с номинальными, так и с числовыми переменными. Пропущенные данные также не мешают работе алгоритма, так как предполагается, что пропущенные значения по переменной вероятностно распределены пропорционально частоте появления существующих значений.

Дерево имеет лучший вид, чем при использовании метода ID3. Это вызвано более ранней остановкой алгоритма. Также достигается более высокая точность.

Алгоритм J4.8 имеет несколько усовершенствований, по сравнению с ID3:

Возможность работать не только с категориальными атрибутами, но также с числовыми.
После построения дерева происходит усечение его ветвей. Если получившееся дерево слишком велико, выполняется либо группировка нескольких узлов в один лист, либо замещение узла дерева нижележащим поддеревом. Перед операцией над деревом вычисляется ошибка правила классификации, содержащегося в рассматриваемом узле. Если после замещения (или группировки) ошибка не возрастает (и не сильно увеличивается энтропия), значит замену можно произвести без ущерба для построенной модели.

По результатам вывода, а точнее дереву можно увидеть достаточно логичную классификацию объектов. В данном случае видно, что при образовании хуже или эквивалентном профессиональной школе, при значении Capital Gain > 2907 заработок точно получается более 50К. При Capital Gain меньше 2907 заработок будет меньше. А при более высоком образовании, нежели профессиональная школа, дерево начинает ветвиться, т.е. заработок начинает зависеть от других показателей, на пример у неженатых, но образованных заработок более 50К.

Точность алгоритма 82,75%, ошибка – 17,25%.

Классификация методом ID3.

В этом алгоритме используется метод построения деревьев решений. Для построения дерева необходимо правильно выбрать независимую переменную, по которой будет происходить разбиение внутренних узлов дерева. Для алгоритма ID3 необходимо выбрать такую переменную, чтобы при разбиении по ней один из классов имел наибольшую вероятность появления.

Во входном наборе алгоритм требует только номинальные значения переменных, а также, чтобы не было пропущенных значений. Для этого применяем фильтр RemoveType и удаляем все типы данных кроме nominal. Применение фильтра изображено на рисунке 5.

Рисунок 5
После применения фильтра в наборе остаются только данные номинального типа. С ними и продолжает работу алгоритм. Далее для работы алгоритма необходимо отсутствие пустых значений. Чтобы осуществить это применяется фильтр ReplaceMissingValues, заменяющий пустые значения средними. Пример вывода программы изображен на рисунке 5.

В нашем случае разбиение производится по переменной Income и дерево получается очень сильно разветвленным и не точным, при этом 11.5% из исходных выкладок не классифицируются.

Классификация методом 1R (в системе Weka называется OneRule).

Метод классификации 1R – один из самых простых и понятных методов классификации. Применяется как к числовым данным, которые разбиваются на промежутки, так и к данным типа nominal.

Рисунок 7

Пример вывода алгоритма представлен на рисунке 7.

=== Run information ===
Scheme: weka.classifiers.rules.OneR -B 6

Relation: income

Instances: 400

Attributes: 15

age

workclass

fnlwgt

education

education-num

marital-status

occupation

relationship

race

sex

capital-gain

capital-loss

hours-per-week

native-country

income

Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
education:

Bachelors -> <=50K

Some-college -> <=50K

11th -> <=50K

HS-grad -> <=50K

Prof-school -> >50K

Assoc-acdm -> <=50K

Assoc-voc -> <=50K

9th -> <=50K

7th-8th -> <=50K

12th -> <=50K

Masters -> >50K

1st-4th -> <=50K

10th -> <=50K

Doctorate -> >50K

5th-6th -> <=50K

Preschool -> <=50K

(328/400 instances correct)

Time taken to build model: 0.02 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 326 81.5 %

Incorrectly Classified Instances 74 18.5 %

Kappa statistic 0.2489

Mean absolute error 0.185

Root mean squared error 0.4301

Relative absolute error 56.5864 %

Root relative squared error 106.5346 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.22 0.031 0.643 0.22 0.327 >50K

0.969 0.78 0.828 0.969 0.893 <=50K
=== Confusion Matrix ===
a b <-- classified as

18 64 | a = >50K

10 308 | b = <=50K

Как известно, этот метод обладает так называемой сверхчувствительностью (overfitting). Метод выбирает переменные принимающие наибольшее возможное количество значений, для таких переменных ошибка и будет наименьшей. Так, например, для переменной по которой у каждого ключа свое уникальное значение ошибка будет равно нулю, но для таких переменных правила бесполезны. В нашем случае такой переменной является Education. Соответственно после кросс-проверки точность результата также достаточно высока – 81,5%.

Так как Education – переменная, из-за которой алгоритм подвергается сверхчувствительности. Уберем эту переменную и повторим обучение.

=== Run information ===
Scheme: weka.classifiers.rules.OneR -B 6

Relation: income-weka.filters.unsupervised.attribute.Remove-R4

Instances: 400

Attributes: 14

age

workclass

fnlwgt

education-num

marital-status

occupation

relationship

race

sex

capital-gain

capital-loss

hours-per-week

native-country

income

Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
education-num:

< 14.5 -> <=50K

>= 14.5 -> >50K

(328/400 instances correct)

Time taken to build model: 0 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 327 81.75 %

Incorrectly Classified Instances 73 18.25 %

Kappa statistic 0.1965

Mean absolute error 0.1825

Root mean squared error 0.4272

Relative absolute error 55.8217 %

Root relative squared error 105.8123 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.146 0.009 0.8 0.146 0.247 >50K

0.991 0.854 0.818 0.991 0.896 <=50K
=== Confusion Matrix ===
a b <-- classified as

12 70 | a = >50K

3 315 | b = <=50K

После удаления значений Education сверхчувствительность проявляется к параметру Education-Num. Точность метода при этом изменилась – 81,75%.

Если же и параметр Education-Num убрать, то:

=== Run information ===
Scheme: weka.classifiers.rules.OneR -B 6

Relation: income-weka.filters.unsupervised.attribute.Remove-R4-weka.filters.unsupervised.attribute.Remove-R4

Instances: 400

Attributes: 13

age

workclass

fnlwgt

marital-status

occupation

relationship

race

sex

capital-gain

capital-loss

hours-per-week

native-country

income

Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
capital-gain:

< 3005.0 -> <=50K

>= 3005.0 -> >50K

(326/400 instances correct)

Time taken to build model: 0 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 325 81.25 %

Incorrectly Classified Instances 75 18.75 %

Kappa statistic 0.185

Mean absolute error 0.1875

Root mean squared error 0.433

Relative absolute error 57.3511 %

Root relative squared error 107.252 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.146 0.016 0.706 0.146 0.242 >50K

0.984 0.854 0.817 0.984 0.893 <=50K
=== Confusion Matrix ===
a b <-- classified as

12 70 | a = >50K

5 313 | b = <=50K

Классификация произойдет по Capital-Gain, с точностью 81, 25.

Т.е. можно заметить, что сверхчувствительность проявляется к элементу с максимальным количеством значений, но если его убрать, то сверхчувствительность появится к следующему за ним по количеству значений.

Классификация методом SVM (Support Vector Machines).

Для этого метода не требуется каких-либо преобразований исходной выборки.

Данный метод является алгоритмом классификации с использованием математических функций. Метод использует нелинейные математические функции. Номинальные данные преобразуются в числовые. Основная идея метода опорных векторов – перевод исходных векторов в пространство более высокой размерности и поиск максимальной разделяющей гиперплоскости в этом пространстве.

Пример вывода на рисунке 7.

Рисунок 7

=== Run information ===
Scheme: weka.classifiers.functions.SMO -C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1

Relation: income

Instances: 400

Attributes: 15

age

workclass

fnlwgt

education

education-num

marital-status

occupation

relationship

race

sex

capital-gain

capital-loss

hours-per-week

native-country

income

Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
SMO
Classifier for classes: >50K, <=50K
BinarySMO
Machine linear: showing attribute weights, not support vectors.
-0.2924 * (normalized) age

+ -0.3304 * (normalized) workclass=Private

+ 0.6538 * (normalized) workclass=Self-emp-not-inc

+ -0.0975 * (normalized) workclass=Self-emp-inc

+ -0.5478 * (normalized) workclass=Federal-gov

+ -0.263 * (normalized) workclass=Local-gov

+ 0.585 * (normalized) workclass=State-gov

+ -0.3458 * (normalized) fnlwgt

+ -0.4531 * (normalized) education=Bachelors

+ 0.0494 * (normalized) education=Some-college

+ 0.4125 * (normalized) education=11th

+ 0.6954 * (normalized) education=HS-grad

+ -1.4746 * (normalized) education=Prof-school

+ -0.3656 * (normalized) education=Assoc-acdm

+ 0.3172 * (normalized) education=Assoc-voc

+ 0.1588 * (normalized) education=9th

+ 0.3667 * (normalized) education=7th-8th

+ -0.24 * (normalized) education=12th

+ -0.6487 * (normalized) education=Masters

+ 0.7775 * (normalized) education=10th

+ 0.0137 * (normalized) education=Doctorate

+ 0.3908 * (normalized) education=5th-6th

+ -1.4635 * (normalized) education-num

+ -0.8782 * (normalized) marital-status=Married-civ-spouse

+ -0.3292 * (normalized) marital-status=Divorced

+ 0.5952 * (normalized) marital-status=Never-married

+ 0.47 * (normalized) marital-status=Separated

+ 0.1422 * (normalized) marital-status=Widowed

+ -0.464 * (normalized) occupation=Tech-support

+ -0.1065 * (normalized) occupation=Craft-repair

+ 0.0996 * (normalized) occupation=Other-service

+ -0.1311 * (normalized) occupation=Sales

+ -0.4076 * (normalized) occupation=Exec-managerial

+ -0.3287 * (normalized) occupation=Prof-specialty

+ 0.1608 * (normalized) occupation=Handlers-cleaners

+ 0.0281 * (normalized) occupation=Machine-op-inspct

+ 0.2566 * (normalized) occupation=Adm-clerical

+ 0.7499 * (normalized) occupation=Farming-fishing

+ 0.0639 * (normalized) occupation=Transport-moving

+ 0.1654 * (normalized) occupation=Priv-house-serv

+ -0.0865 * (normalized) occupation=Protective-serv

+ 0.256 * (normalized) relationship=Wife

+ -0.0304 * (normalized) relationship=Own-child

+ -0.1342 * (normalized) relationship=Husband

+ 0.354 * (normalized) relationship=Not-in-family

+ -0.4009 * (normalized) relationship=Other-relative

+ -0.0446 * (normalized) relationship=Unmarried

+ -0.0509 * (normalized) race=White

+ 1.1509 * (normalized) race=Asian-Pac-Islander

+ 0.3221 * (normalized) race=Amer-Indian-Eskimo

+ -0.857 * (normalized) race=Other

+ -0.5651 * (normalized) race=Black

+ -0.4622 * (normalized) sex

+ -1.7019 * (normalized) capital-gain

+ -0.7783 * (normalized) capital-loss

+ -1.5288 * (normalized) hours-per-week

+ 0.2623 * (normalized) native-country=United-States

+ -1 * (normalized) native-country=England

+ -0.8162 * (normalized) native-country=Puerto-Rico

+ -1 * (normalized) native-country=Canada

+ 0.1654 * (normalized) native-country=Germany

+ 0.9484 * (normalized) native-country=China

+ 0.3016 * (normalized) native-country=Philippines

+ 0.728 * (normalized) native-country=Mexico

+ -0.4746 * (normalized) native-country=Laos

+ 0.8851 * (normalized) native-country=Nicaragua

+ 3.5666
Number of kernel evaluations: 41724 (83.321% cached)

Time taken to build model: 0.46 seconds
=== Stratified cross-validation ===

=== Summary ===
Correctly Classified Instances 338 84.5 %

Incorrectly Classified Instances 62 15.5 %

Kappa statistic 0.4665

Mean absolute error 0.155

Root mean squared error 0.3937

Relative absolute error 47.4102 %

Root relative squared error 97.5148 %

Total Number of Instances 400
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure Class

0.476 0.06 0.672 0.476 0.557 >50K

0.94 0.524 0.874 0.94 0.906 <=50K
=== Confusion Matrix ===
a b <-- classified as

39 43 | a = >50K

19 299 | b = <=50K
На выводе алгоритма показываются веса для всех возможных атрибутов, при этом заметна задержка его вывода из-за проведения расчетов. Процент верной классификации оказывается достаточно высоким – 84,5%, а средняя ошибка классификатора наоборот, оказывается минимальной среди всех рассмотренных методов.

В итоге вывод данного алгоритма представлен в виде вектора n-мерного пространства. Цифры, указанные в выводе – коэффициенты задающие плоскость, разделяющую исходные данные на типы.

Данный метод является одним из самых точных, благодаря совершенству алгоритма. Также этот алгоритм сложен для понимания, так как данными оперируется в n-мерном пространстве, сложном для представления человеком.