Скачать 263.21 Kb.
|
Задание 2: Классификация исходных данных различными методами.Классифицировать исходные данные наивным байесовским методом, методом J4.8 (модификация С4.5), методом ID3, методом 1R, методом SVM (в среде Weka он называется SMO). В случае невозможности применить метод к данным воспользоваться фильтрами. Описать полученные результаты. Файл *.arff необходимо загрузить в систему. Это делается при помощи кнопки Open File вкладки Preprocess. На данной вкладке можно загрузить файл в систему, а затем редактировать загруженные данные. Редактирование может осуществляться как вручную, так и наложением на данные фильтра для их очищения и/или трансформации. Фильтры необходимы для модификации данных таким образом чтобы стало возможно применение различных методов. Так, например, некоторые методы могут работать только с перечислимым типом данных. Для этого при помощи фильтра RemoveType можно убрать из набора данные неподходящих типов. Рисунок 2 На рисунке 2 показано главное окно Weka Explorer с открытым набором данных. На графике в нижнем правом углу показано отношение между age и income. Во вкладке Classify при помощи кнопки Choose выбирается метод классификации. После выбора метода классификации (классификатора, classifier) необходимо выбрать метод проверки. Основным методом является кросс-проверка (cross-validation), однако можно также проводить проверку результатов анализа на обучающем множестве (training set), на специальном тестовом множестве (supplied test set) и на тестовой части обучающего множества (Percentage Split). После этого требуется выбрать зависимую переменную классификации. После этого нажимается кнопка Start. По завершении анализа заполнится окно Output и добавится новая запись в окно Result. В нашем случае методом проверки является кросс-проверка. Суть ее в том, что исходный набор данных в какой-либо пропорции разбивается на обучающее и проверочное множества. Далее по обучающему множеству данные классифицируются, а по проверочному проверяются. Таким образом и вычисляется ошибка. Для автоматической обработки данных используют фильтры. Фильтры делятся на два типа - те, применение которых к данным может вызвать отклонение (supervised) (то есть фактически эти фильтры требуют уже наличия каких-то знаний, полученных от примененного какого-то алгоритма обучения), и те, который можно применять к ещё необработанным данным (unsupervised). Для простоты будем применять фильтры unsupervised. Наиболее интересными фильтрами являются для нас фильтры:
Классификация методом Naive Bayes."Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков. Идея алгоритма заключается в том, что формируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями. Свойства наивной классификации: 1. Использование всех переменных и определение всех зависимостей между ними. 2. Наличие двух предположений относительно переменных:
Пример вывода алгоритма в окне Weka представлен на рисунке 3. Рисунок 3 Test mode: 10-fold cross-validation === Classifier model (full training set) === Naive Bayes Classifier Class >50K: Prior probability = 0.21 age: Normal Distribution. Mean = 42.8907 StandardDev = 10.6681 WeightSum = 82 Precision = 1.2678571428571428 workclass: Discrete Estimator. Counts = 54 7 5 9 8 4 1 1 (Total = 89) fnlwgt: Normal Distribution. Mean = 193225.9952 StandardDev = 108460.8575 WeightSum = 82 Precision = 1710.7030456852792 education: Discrete Estimator. Counts = 23 18 2 12 10 5 6 1 1 3 9 1 1 4 1 1 (Total = 98) education-num: Normal Distribution. Mean = 11.9024 StandardDev = 2.2394 WeightSum = 82 Precision = 1.0 marital-status: Discrete Estimator. Counts = 71 8 5 2 1 1 1 (Total = 89) occupation: Discrete Estimator. Counts = 4 13 4 8 16 26 2 4 7 1 6 1 2 1 (Total = 95) relationship: Discrete Estimator. Counts = 3 3 68 8 2 4 (Total = 88) race: Discrete Estimator. Counts = 75 2 1 2 7 (Total = 87) sex: Discrete Estimator. Counts = 8 76 (Total = 84) capital-gain: Normal Distribution. Mean = 3658.5 StandardDev = 15615.732 WeightSum = 82 Precision = 6249.9375 capital-loss: Normal Distribution. Mean = 150.7848 StandardDev = 546.6455 WeightSum = 82 Precision = 263.07142857142856 hours-per-week: Normal Distribution. Mean = 45.2397 StandardDev = 10.6554 WeightSum = 82 Precision = 2.3902439024390243 native-country: Discrete Estimator. Counts = 77 1 2 2 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (Total = 122) Class <=50K: Prior probability = 0.79 age: Normal Distribution. Mean = 36.4728 StandardDev = 13.9564 WeightSum = 318 Precision = 1.2678571428571428 workclass: Discrete Estimator. Counts = 223 25 9 10 22 15 1 1 (Total = 306) fnlwgt: Normal Distribution. Mean = 192819.9034 StandardDev = 114187.981 WeightSum = 318 Precision = 1710.7030456852792 education: Discrete Estimator. Counts = 37 81 17 106 2 13 16 9 8 8 9 3 11 2 10 2 (Total = 334) education-num: Normal Distribution. Mean = 9.4119 StandardDev = 2.511 WeightSum = 318 Precision = 1.0 marital-status: Discrete Estimator. Counts = 103 53 139 14 13 2 1 (Total = 325) occupation: Discrete Estimator. Counts = 12 37 34 32 28 32 15 23 51 16 23 2 6 1 (Total = 312) relationship: Discrete Estimator. Counts = 7 70 97 96 11 43 (Total = 324) race: Discrete Estimator. Counts = 268 7 4 3 41 (Total = 323) sex: Discrete Estimator. Counts = 117 203 (Total = 320) capital-gain: Normal Distribution. Mean = 98.2695 StandardDev = 1041.6563 WeightSum = 318 Precision = 6249.9375 capital-loss: Normal Distribution. Mean = 58.7361 StandardDev = 360.4965 WeightSum = 318 Precision = 263.07142857142856 hours-per-week: Normal Distribution. Mean = 38.4017 StandardDev = 12.9537 WeightSum = 318 Precision = 2.3902439024390243 native-country: Discrete Estimator. Counts = 284 1 1 2 1 3 1 3 1 1 3 2 2 1 1 2 2 1 1 2 15 1 1 1 1 1 1 2 1 1 2 1 2 1 1 1 2 1 1 1 1 (Total = 354) === Stratified cross-validation === === Summary === Correctly Classified Instances 339 84.75 % Incorrectly Classified Instances 61 15.25 % Kappa statistic 0.4931 Mean absolute error 0.1653 Root mean squared error 0.3542 Relative absolute error 50.5722 % Root relative squared error 87.7341 % Total Number of Instances 400 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.524 0.069 0.662 0.524 0.585 >50K 0.931 0.476 0.884 0.931 0.907 <=50K === Confusion Matrix === a b <-- classified as 43 39 | a = >50K 22 296 | b = <=50K В результате кросс-проверки получаем достаточно высокий процент верной классификации (84,75%), а также относительно небольшую среднюю абсолютную ошибку. В результате после анализа данных на основе Classifier model можно сделать выводы о людях имеющих заработок больше или меньше 50К. В нашем случае можно сделать вывод что:
А для тех кто зарабатывает <50K:
Классификация методом J4.8 (модификация С4.5).Этот алгоритм также применяется к исходным данным без их изменения. Результатом его работы является дерево решений, которое можно увидеть в виде дерева и текста на рисунке 4. Метод J4.8 является модификацией метода C4.5, а он в свою очередь – усовершенствованный вариант алгоритма ID3. Рисунок 4 === Run information === === Classifier model (full training set) === J48 pruned tree ------------------ education-num <= 12 | capital-gain <= 2907: <=50K (302.0/33.0) | capital-gain > 2907: >50K (10.0/3.0) education-num > 12 | relationship = Wife: >50K (1.0) | relationship = Own-child: <=50K (4.0) | relationship = Husband | | race = White: >50K (41.0/8.0) | | race = Asian-Pac-Islander: <=50K (5.0/1.0) | | race = Amer-Indian-Eskimo: >50K (0.0) | | race = Other: >50K (0.0) | | race = Black: <=50K (3.0/1.0) | relationship = Not-in-family: <=50K (29.0/5.0) | relationship = Other-relative: <=50K (1.0) | relationship = Unmarried: <=50K (4.0/1.0) Number of Leaves : 12 Size of the tree : 16 Time taken to build model: 0.08 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 331 82.75 % Incorrectly Classified Instances 69 17.25 % Kappa statistic 0.4033 Mean absolute error 0.2471 Root mean squared error 0.3772 Relative absolute error 75.5878 % Root relative squared error 93.4163 % Total Number of Instances 400 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.427 0.069 0.614 0.427 0.504 >50K 0.931 0.573 0.863 0.931 0.896 <=50K === Confusion Matrix === a b <-- classified as 35 47 | a = >50K 22 296 | b = <=50K Метод работает как с номинальными, так и с числовыми переменными. Пропущенные данные также не мешают работе алгоритма, так как предполагается, что пропущенные значения по переменной вероятностно распределены пропорционально частоте появления существующих значений. Дерево имеет лучший вид, чем при использовании метода ID3. Это вызвано более ранней остановкой алгоритма. Также достигается более высокая точность. Алгоритм J4.8 имеет несколько усовершенствований, по сравнению с ID3:
По результатам вывода, а точнее дереву можно увидеть достаточно логичную классификацию объектов. В данном случае видно, что при образовании хуже или эквивалентном профессиональной школе, при значении Capital Gain > 2907 заработок точно получается более 50К. При Capital Gain меньше 2907 заработок будет меньше. А при более высоком образовании, нежели профессиональная школа, дерево начинает ветвиться, т.е. заработок начинает зависеть от других показателей, на пример у неженатых, но образованных заработок более 50К. Точность алгоритма 82,75%, ошибка – 17,25%. Классификация методом ID3. В этом алгоритме используется метод построения деревьев решений. Для построения дерева необходимо правильно выбрать независимую переменную, по которой будет происходить разбиение внутренних узлов дерева. Для алгоритма ID3 необходимо выбрать такую переменную, чтобы при разбиении по ней один из классов имел наибольшую вероятность появления. Во входном наборе алгоритм требует только номинальные значения переменных, а также, чтобы не было пропущенных значений. Для этого применяем фильтр RemoveType и удаляем все типы данных кроме nominal. Применение фильтра изображено на рисунке 5. Рисунок 5 После применения фильтра в наборе остаются только данные номинального типа. С ними и продолжает работу алгоритм. Далее для работы алгоритма необходимо отсутствие пустых значений. Чтобы осуществить это применяется фильтр ReplaceMissingValues, заменяющий пустые значения средними. Пример вывода программы изображен на рисунке 5. В нашем случае разбиение производится по переменной Income и дерево получается очень сильно разветвленным и не точным, при этом 11.5% из исходных выкладок не классифицируются. Рисунок 6 Дерево имеет очень сильно разветвленную структуру. Но видно, что многие значения – пустые (null), то есть такая комбинация параметров в исходных данных не встречается. А в тех местах, где значение не пустое – там можно увидеть цепочку для которой в итоге будет >50K или <50K. Если удалить все строки со значением null то можно получить небольшой набор правил, по которым можно классифицировать объекты. marital-status = Married-civ-spouse | education = Bachelors | | race = White | | | workclass = Private | | | | occupation = Tech-support: >50K | | | | occupation = Craft-repair: >50K | | | | occupation = Sales: >50K | | | | occupation = Exec-managerial: >50K | | | | occupation = Prof-specialty: >50K | | | workclass = Self-emp-not-inc | | | | native-country = United-States: <=50K | | | | native-country = Canada: >50K | | | | native-country = Outlying-US(Guam-USVI-etc): null | | | workclass = Federal-gov: >50K | | | workclass = Local-gov: <=50K | | | workclass = State-gov: <=50K | | race = Asian-Pac-Islander: <=50K | | race = Black | | | workclass = Private: <=50K | | | workclass = State-gov: >50K | education = Some-college | | occupation = Tech-support: >50K | | occupation = Craft-repair | | | race = White | | | | workclass = Private: <=50K | | | | workclass = Self-emp-not-inc: <=50K | | | | workclass = Local-gov: <=50K | | | race = Asian-Pac-Islander: <=50K | | | race = Other: >50K | | occupation = Other-service: <=50K | | occupation = Sales | | | workclass = Private: >50K | | | workclass = Self-emp-not-inc: <=50K | | occupation = Exec-managerial: <=50K | | occupation = Machine-op-inspct | | | workclass = Private | | | | race = White: <=50K | | | | race = Black: >50K | | | workclass = Self-emp-not-inc: >50K | | occupation = Adm-clerical | | | workclass = Private: >50K | | | workclass = Federal-gov: <=50K | | | workclass = State-gov: <=50K | | occupation = Farming-fishing: <=50K | | occupation = Transport-moving: <=50K | education = 11th | | occupation = Craft-repair: <=50K | | occupation = Handlers-cleaners: >50K | | occupation = Farming-fishing: <=50K | | occupation = Transport-moving: <=50K | education = HS-grad | | occupation = Craft-repair | | | workclass = Private: <=50K | | | workclass = Self-emp-inc: <=50K | | | workclass = Local-gov: >50K | | occupation = Other-service | | | workclass = Private: <=50K | | | workclass = Self-emp-not-inc: <=50K | | | workclass = Local-gov: >50K | | occupation = Sales: <=50K | | occupation = Exec-managerial | | | workclass = Self-emp-inc: >50K | | | workclass = Local-gov: <=50K | | occupation = Prof-specialty | | | workclass = Private: <=50K | | | workclass = Self-emp-not-inc: >50K | | occupation = Handlers-cleaners: <=50K | | occupation = Machine-op-inspct: >50K | | occupation = Adm-clerical | | | relationship = Wife: <=50K | | | relationship = Husband: >50K | | occupation = Farming-fishing: <=50K | | occupation = Transport-moving | | | workclass = Private: <=50K | | | workclass = Self-emp-not-inc: <=50K | | | workclass = Federal-gov: >50K | | occupation = Protective-serv: <=50K | education = Prof-school: >50K | education = Assoc-acdm | | occupation = Craft-repair: >50K | | occupation = Exec-managerial: >50K | | occupation = Prof-specialty: <=50K | | occupation = Transport-moving: <=50K | education = Assoc-voc | | occupation = Craft-repair: >50K | | occupation = Exec-managerial | | | relationship = Wife | | | | native-country = United-States: <=50K | | | | native-country = Puerto-Rico: >50K | | | relationship = Husband: >50K | | occupation = Prof-specialty: <=50K | | occupation = Handlers-cleaners: <=50K | | occupation = Adm-clerical: <=50K | | occupation = Transport-moving: >50K | education = 9th: <=50K | education = 7th-8th: <=50K | education = 12th | | occupation = Craft-repair: >50K | | occupation = Prof-specialty: >50K | | occupation = Adm-clerical: <=50K | education = Masters | | race = White | | | workclass = Private: >50K | | | workclass = Self-emp-not-inc: >50K | | | workclass = Federal-gov: >50K | | | workclass = Local-gov: >50K | | race = Asian-Pac-Islander: <=50K | | race = Black: <=50K | education = 1st-4th: <=50K | education = 10th: <=50K | education = Doctorate | | workclass = Private: >50K | | workclass = Federal-gov: >50K | | workclass = State-gov: <=50K | education = 5th-6th: <=50K marital-status = Divorced | education = Bachelors | | occupation = Other-service: >50K | | occupation = Sales: <=50K | | occupation = Exec-managerial: <=50K | | occupation = Prof-specialty: <=50K | | occupation = Machine-op-inspct: <=50K | | occupation = Priv-house-serv: <=50K | education = Some-college | | occupation = Tech-support: <=50K | | occupation = Craft-repair: <=50K | | occupation = Other-service: <=50K | | occupation = Sales: <=50K | | occupation = Exec-managerial: <=50K | | occupation = Prof-specialty: >50K | | occupation = Adm-clerical: <=50K | | occupation = Transport-moving: >50K | education = HS-grad: <=50K | education = Prof-school: <=50K | education = Assoc-acdm | | occupation = Exec-managerial: >50K | | occupation = Prof-specialty: <=50K | | occupation = Adm-clerical: <=50K | education = Assoc-voc: <=50K | education = 9th: <=50K | education = 7th-8th: <=50K | education = 12th: <=50K | education = Masters: >50K | education = 10th: <=50K marital-status = Never-married | education = Bachelors | | occupation = Sales | | | sex = Female: <=50K | | | sex = Male: >50K | | occupation = Exec-managerial: <=50K | | occupation = Prof-specialty: <=50K | | occupation = Handlers-cleaners: <=50K | | occupation = Adm-clerical: <=50K | education = Some-college | | occupation = Tech-support: <=50K | | occupation = Craft-repair: <=50K | | occupation = Other-service: <=50K | | occupation = Sales: <=50K | | occupation = Exec-managerial: <=50K | | occupation = Prof-specialty: <=50K | | occupation = Machine-op-inspct: <=50K | | occupation = Adm-clerical | | | relationship = Own-child: <=50K | | | relationship = Not-in-family: <=50K | | | relationship = Other-relative: <=50K | | | relationship = Unmarried: <=50K | | occupation = Transport-moving: <=50K | | occupation = Protective-serv: >50K | education = 11th: <=50K | education = HS-grad: <=50K | education = Prof-school: >50K | education = Assoc-acdm: <=50K | education = Assoc-voc: <=50K | education = 9th: <=50K | education = 7th-8th: <=50K | education = 12th: <=50K | education = Masters: <=50K | education = 10th: <=50K | education = 5th-6th: <=50K | education = Preschool: <=50K marital-status = Separated | education = Bachelors: <=50K | education = Some-college: <=50K | education = HS-grad: <=50K | education = Assoc-acdm: <=50K | education = 9th: <=50K | education = Masters: >50K | education = 5th-6th: <=50K marital-status = Widowed: <=50K marital-status = Married-spouse-absent: <=50K Time taken to build model: 0.04 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 291 72.75 % Incorrectly Classified Instances 63 15.75 % Kappa statistic 0.4038 Mean absolute error 0.1887 Root mean squared error 0.4029 Relative absolute error 66.1039 % Root relative squared error 107.4991 % UnClassified Instances 46 11.5 % Total Number of Instances 400 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.471 0.092 0.559 0.471 0.512 >50K 0.908 0.529 0.875 0.908 0.891 <=50K === Confusion Matrix === a b <-- classified as 33 37 | a = >50K 26 258 | b = <=50K В результате удаления строк содержащих значение null, дерево превращается в набор правил, пригодных для применения, т.е.: человек с семейный положением Married-civ-spouse | ученой степенью бакалавра | | белый | | | частный предприниматель | | | | занимающийся тех-поддержкой или ремонтом, или продажами, или имеющий проф. специальность, или exec-managerial имеет заработок более 50К. Точность алгоритма – 72,75%, ошибка – 15,75%. Классификация методом 1R (в системе Weka называется OneRule).Метод классификации 1R – один из самых простых и понятных методов классификации. Применяется как к числовым данным, которые разбиваются на промежутки, так и к данным типа nominal. Рисунок 7 Пример вывода алгоритма представлен на рисунке 7. === Classifier model (full training set) === education: Bachelors -> <=50K Some-college -> <=50K 11th -> <=50K HS-grad -> <=50K Prof-school -> >50K Assoc-acdm -> <=50K Assoc-voc -> <=50K 9th -> <=50K 7th-8th -> <=50K 12th -> <=50K Masters -> >50K 1st-4th -> <=50K 10th -> <=50K Doctorate -> >50K 5th-6th -> <=50K Preschool -> <=50K (328/400 instances correct) Time taken to build model: 0.02 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 326 81.5 % Incorrectly Classified Instances 74 18.5 % Kappa statistic 0.2489 Mean absolute error 0.185 Root mean squared error 0.4301 Relative absolute error 56.5864 % Root relative squared error 106.5346 % Total Number of Instances 400 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.22 0.031 0.643 0.22 0.327 >50K 0.969 0.78 0.828 0.969 0.893 <=50K === Confusion Matrix === a b <-- classified as 18 64 | a = >50K 10 308 | b = <=50K После кросс-проверки точность результата также достаточно высока – 81,5%. Education – переменная, по которой производится классификация. Из результата работы алгоритма делаем вывод, что заработок более 50К имеют люди закончившие профессиональное училище, доктора наук, мастера. Классификация методом SVM (Support Vector Machines).Для этого метода не требуется каких-либо преобразований исходной выборки. Данный метод является алгоритмом классификации с использованием математических функций. Метод использует нелинейные математические функции. Номинальные данные преобразуются в числовые. Основная идея метода опорных векторов – перевод исходных векторов в пространство более высокой размерности и поиск максимальной разделяющей гиперплоскости в этом пространстве. Пример вывода на рисунке 7. Рисунок 7 === Run information === Scheme: weka.classifiers.functions.SMO -C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1 Relation: income Instances: 400 Attributes: 15 age workclass fnlwgt education education-num marital-status occupation relationship race sex capital-gain capital-loss hours-per-week native-country income Test mode: 10-fold cross-validation === Classifier model (full training set) === SMO Classifier for classes: >50K, <=50K BinarySMO Machine linear: showing attribute weights, not support vectors. -0.2924 * (normalized) age + -0.3304 * (normalized) workclass=Private + 0.6538 * (normalized) workclass=Self-emp-not-inc + -0.0975 * (normalized) workclass=Self-emp-inc + -0.5478 * (normalized) workclass=Federal-gov + -0.263 * (normalized) workclass=Local-gov + 0.585 * (normalized) workclass=State-gov + -0.3458 * (normalized) fnlwgt + -0.4531 * (normalized) education=Bachelors + 0.0494 * (normalized) education=Some-college + 0.4125 * (normalized) education=11th + 0.6954 * (normalized) education=HS-grad + -1.4746 * (normalized) education=Prof-school + -0.3656 * (normalized) education=Assoc-acdm + 0.3172 * (normalized) education=Assoc-voc + 0.1588 * (normalized) education=9th + 0.3667 * (normalized) education=7th-8th + -0.24 * (normalized) education=12th + -0.6487 * (normalized) education=Masters + 0.7775 * (normalized) education=10th + 0.0137 * (normalized) education=Doctorate + 0.3908 * (normalized) education=5th-6th + -1.4635 * (normalized) education-num + -0.8782 * (normalized) marital-status=Married-civ-spouse + -0.3292 * (normalized) marital-status=Divorced + 0.5952 * (normalized) marital-status=Never-married + 0.47 * (normalized) marital-status=Separated + 0.1422 * (normalized) marital-status=Widowed + -0.464 * (normalized) occupation=Tech-support + -0.1065 * (normalized) occupation=Craft-repair + 0.0996 * (normalized) occupation=Other-service + -0.1311 * (normalized) occupation=Sales + -0.4076 * (normalized) occupation=Exec-managerial + -0.3287 * (normalized) occupation=Prof-specialty + 0.1608 * (normalized) occupation=Handlers-cleaners + 0.0281 * (normalized) occupation=Machine-op-inspct + 0.2566 * (normalized) occupation=Adm-clerical + 0.7499 * (normalized) occupation=Farming-fishing + 0.0639 * (normalized) occupation=Transport-moving + 0.1654 * (normalized) occupation=Priv-house-serv + -0.0865 * (normalized) occupation=Protective-serv + 0.256 * (normalized) relationship=Wife + -0.0304 * (normalized) relationship=Own-child + -0.1342 * (normalized) relationship=Husband + 0.354 * (normalized) relationship=Not-in-family + -0.4009 * (normalized) relationship=Other-relative + -0.0446 * (normalized) relationship=Unmarried + -0.0509 * (normalized) race=White + 1.1509 * (normalized) race=Asian-Pac-Islander + 0.3221 * (normalized) race=Amer-Indian-Eskimo + -0.857 * (normalized) race=Other + -0.5651 * (normalized) race=Black + -0.4622 * (normalized) sex + -1.7019 * (normalized) capital-gain + -0.7783 * (normalized) capital-loss + -1.5288 * (normalized) hours-per-week + 0.2623 * (normalized) native-country=United-States + -1 * (normalized) native-country=England + -0.8162 * (normalized) native-country=Puerto-Rico + -1 * (normalized) native-country=Canada + 0.1654 * (normalized) native-country=Germany + 0.9484 * (normalized) native-country=China + 0.3016 * (normalized) native-country=Philippines + 0.728 * (normalized) native-country=Mexico + -0.4746 * (normalized) native-country=Laos + 0.8851 * (normalized) native-country=Nicaragua + 3.5666 Number of kernel evaluations: 41724 (83.321% cached) Time taken to build model: 0.46 seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 338 84.5 % Incorrectly Classified Instances 62 15.5 % Kappa statistic 0.4665 Mean absolute error 0.155 Root mean squared error 0.3937 Relative absolute error 47.4102 % Root relative squared error 97.5148 % Total Number of Instances 400 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.476 0.06 0.672 0.476 0.557 >50K 0.94 0.524 0.874 0.94 0.906 <=50K === Confusion Matrix === a b <-- classified as 39 43 | a = >50K 19 299 | b = <=50K На выводе алгоритма показываются веса для всех возможных атрибутов, при этом заметна задержка его вывода из-за проведения расчетов. Процент верной классификации оказывается достаточно высоким – 84,5%, а средняя ошибка классификатора наоборот, оказывается минимальной среди всех рассмотренных методов. В итоге вывод данного алгоритма представлен в виде вектора n-мерного пространства. Цифры, указанные в выводе – коэффициенты задающие плоскость, разделяющую исходные данные на типы. Данный метод является одним из самых точных, благодаря совершенству алгоритма. Также этот алгоритм сложен для понимания, так как данными оперируется в n-мерном пространстве, сложном для представления человеком. |
Реферат Error: Reference source not found введение Задание 1: Подготовить исходный файл в формате *. arff. Error: Reference source not found | Министерство образования и науки российской федерации «Error: Reference source not found», профиль «Error: Reference source not found». Дисциплина реализуется на Механико-математическом... | ||
Реферат по дисциплине Социальная философия на тему: Социально-философские взгляды славянофилов Основоположники и представители славянофильской теории Error: Reference source not found | Открытое акционерное общество энергетики и электрификации «тюменьэнерго»... Том 01. Ремонт и техническое обслуживание трансформаторов и электродвигателей Error: Reference source not found | ||
План: Введение Error: Reference source not found Введение 3 Закон... Целью работы является общее представление о закономерностях развития биологических систем. И как можно было увидеть, закономерности... | Западное окружное управление образования центр психолого-медико-социального... Не вдаваясь в качественную сторону составления тестов и не рассуждая о том, насколько технически и экономически оправдано внедрение... | ||
Реферат Введение Введение. С конца XIX века одной из проблем философии стало массовое сознание. Ницше писал: "Когда сто человек стоят друг возле друга,... | Реферат должен содержать введение Реферат должен быть представлен в машинописном варианте (шрифт Times New Roman, размер шрифта – 14; интервал – 1,0), объем работы... | ||
Реферат по географии "Ресурсы пресной воды" План. 0 Введение (общие сведения) Вода и жизнь – понятия неразделимые. По этому реферат данной темы необъятен, и я поэтому рассматриваю лишь некоторые, особенно актуальные... | The tools for solving rapes and murders have improved rapidly. Five... | ||
Реферат по 10-15 стр реферат должен быть написан самостоятельно Реферат должен быть написан самостоятельно и построен по типу статьи: краткая аннотация 4-5 строчек, введение (цели, задачи реферата,... | Реферат Православие и российская государственность Введение 3 | ||
Реферат Отчет представлен на 21 страницах, включает в себя 1 таблицу... Содержание деятельности и результаты реализации Мероприятия 1 «Предоставление услуг населению по формированию ик компетенций с помощью... | Программа по формированию навыков безопасного поведения на дорогах... Доска: Love books, they are the source of knowledge, and only knowledge can make us strong and better | ||
Реферат по литературе на тему: Жизнь и творчество Введение 3 | Реферат ргасу 19 2009 699 содержание введение 2 список использованной... «Теоретические основы "Философии хозяйства" С. Н. Булгакова» одна из важных и актуальных тем на сегодняшний день |