Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»





Скачать 360.3 Kb.
НазваниеОтчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka»
страница3/3
Дата публикации10.11.2014
Размер360.3 Kb.
ТипОтчет
100-bal.ru > Бухгалтерия > Отчет
1   2   3



Задание 3: Построение ассоциативных правил.

Метод Априори.

Нахождение ассоциативных правил происходит почти так же, как и классификация. На вкладке Associate выбирается метод нахождения, для него выставляются параметры кликом на его названии, после чего нажимается кнопка Start и анализируется вывод. При необходимости применяются фильтры (в данном случае применяются фильтры, аналогичные использованным для метода ID3). В нашем случае ассоциативные правила строятся по методу Априори. При анализе данных видно, что поиск ассоциативных правил происходит в 2 этапа: сначала выполняется поиск частных наборов объектов, а затем из найденных частных наборов генерируются правила.

В листингах 7,8,9,10 приведены выводы правил для типов метрик Confidence (поддержка, не может быть больше 1), Lift (Достоверность), Leverage (уверенность), Conviction (P(premise)P(!consequence) / P(premise, !consequence)).
Листинг 7

Apriori

=======
Minimum support: 0.55 (220 instances)

Minimum metric : 0.9

Number of cycles performed: 9
Generated sets of large itemsets:
Size of set of large itemsets L(1): 5
Size of set of large itemsets L(2): 8
Size of set of large itemsets L(3): 4
Best rules found:
1. race=White sex=Male 252 ==> native-country=United-States 238 conf:(0.94)

2. workclass=Private race=White 273 ==> native-country=United-States 257 conf:(0.94)

3. race=White 355 ==> native-country=United-States 334 conf:(0.94)

4. sex=Male native-country=United-States 254 ==> race=White 238 conf:(0.94)

5. race=White income=<=50K 256 ==> native-country=United-States 239 conf:(0.93)

6. workclass=Private 307 ==> native-country=United-States 285 conf:(0.93)

7. sex=Male 275 ==> native-country=United-States 254 conf:(0.92)

8. workclass=Private income=<=50K 243 ==> native-country=United-States 224 conf:(0.92)

9. income=<=50K 297 ==> native-country=United-States 273 conf:(0.92)

10. sex=Male 275 ==> race=White 252 conf:(0.92)

Листинг 8

Apriori

=======
Minimum support: 0.6 (240 instances)

Minimum metric : 1

Number of cycles performed: 8
Generated sets of large itemsets:
Size of set of large itemsets L(1): 5
Size of set of large itemsets L(2): 8
Size of set of large itemsets L(3): 1
Best rules found:
1. income=<=50K 297 ==> workclass=Private 243 conf:(0.82) < lift:(1.07)> lev:(0.04) [15] conv:(1.26)

2. workclass=Private 307 ==> income=<=50K 243 conf:(0.79) < lift:(1.07)> lev:(0.04) [15] conv:(1.22)

3. sex=Male 275 ==> race=White 252 conf:(0.92) < lift:(1.03)> lev:(0.02) [7] conv:(1.29)

4. race=White 355 ==> sex=Male 252 conf:(0.71) < lift:(1.03)> lev:(0.02) [7] conv:(1.07)

5. native-country=United-States 370 ==> workclass=Private race=White 257 conf:(0.69) < lift:(1.02)> lev:(0.01) [4] conv:(1.03)

6. workclass=Private race=White 273 ==> native-country=United-States 257 conf:(0.94) < lift:(1.02)> lev:(0.01) [4] conv:(1.2)

7. native-country=United-States 370 ==> race=White 334 conf:(0.9) < lift:(1.02)> lev:(0.01) [5] conv:(1.13)

8. race=White 355 ==> native-country=United-States 334 conf:(0.94) < lift:(1.02)> lev:(0.01) [5] conv:(1.21)

9. workclass=Private native-country=United-States 285 ==> race=White 257 conf:(0.9) < lift:(1.02)> lev:(0.01) [4] conv:(1.11)

10. race=White 355 ==> workclass=Private native-country=United-States 257 conf:(0.72) < lift:(1.02)> lev:(0.01) [4] conv:(1.03)

Листинг 9

Apriori

=======
Minimum support: 0.4 (160 instances)

Minimum metric : 0.1

Number of cycles performed: 12
Generated sets of large itemsets:
Size of set of large itemsets L(1): 7
Size of set of large itemsets L(2): 16
Size of set of large itemsets L(3): 14
Size of set of large itemsets L(4): 4
Best rules found:
1. marital-status=Married-civ-spouse sex=Male 173 ==> relationship=Husband 170 conf:(0.98) lift:(2.31) < lev:(0.24) [96]> conv:(24.87)

2. relationship=Husband 170 ==> marital-status=Married-civ-spouse sex=Male 170 conf:(1) lift:(2.31) < lev:(0.24) [96]> conv:(96.48)

3. marital-status=Married-civ-spouse race=White sex=Male 164 ==> relationship=Husband 162 conf:(0.99) lift:(2.32) < lev:(0.23) [92]> conv:(31.43)

4. relationship=Husband 170 ==> marital-status=Married-civ-spouse race=White sex=Male 162 conf:(0.95) lift:(2.32) < lev:(0.23) [92]> conv:(11.14)

5. marital-status=Married-civ-spouse sex=Male 173 ==> relationship=Husband race=White 162 conf:(0.94) lift:(2.31) < lev:(0.23) [91]> conv:(8.58)

6. relationship=Husband race=White 162 ==> marital-status=Married-civ-spouse sex=Male 162 conf:(1) lift:(2.31) < lev:(0.23) [91]> conv:(91.94)

7. relationship=Husband sex=Male 170 ==> marital-status=Married-civ-spouse 170 conf:(1) lift:(2.04) < lev:(0.22) [86]> conv:(86.7)

8. marital-status=Married-civ-spouse 196 ==> relationship=Husband sex=Male 170 conf:(0.87) lift:(2.04) < lev:(0.22) [86]> conv:(4.17)

9. relationship=Husband 170 ==> marital-status=Married-civ-spouse 170 conf:(1) lift:(2.04) < lev:(0.22) [86]> conv:(86.7)

10. marital-status=Married-civ-spouse 196 ==> relationship=Husband 170 conf:(0.87) lift:(2.04) < lev:(0.22) [86]> conv:(4.17)

Листинг 10

Apriori

=======
Minimum support: 0.55 (220 instances)

Minimum metric : 1.1

Number of cycles performed: 9
Generated sets of large itemsets:
Size of set of large itemsets L(1): 5
Size of set of large itemsets L(2): 8
Size of set of large itemsets L(3): 4
Best rules found:
1. sex=Male native-country=United-States 254 ==> race=White 238 conf:(0.94) lift:(1.06) lev:(0.03) [12] < conv:(1.68)>

2. sex=Male 275 ==> race=White 252 conf:(0.92) lift:(1.03) lev:(0.02) [7] < conv:(1.29)>

3. native-country=United-States income=<=50K 273 ==> workclass=Private 224 conf:(0.82) lift:(1.07) lev:(0.04) [14] < conv:(1.27)>

4. race=White sex=Male 252 ==> native-country=United-States 238 conf:(0.94) lift:(1.02) lev:(0.01) [4] < conv:(1.26)>

5. income=<=50K 297 ==> workclass=Private 243 conf:(0.82) lift:(1.07) lev:(0.04) [15] < conv:(1.26)>

6. workclass=Private 307 ==> income=<=50K 243 conf:(0.79) lift:(1.07) lev:(0.04) [15] < conv:(1.22)>

7. race=White 355 ==> native-country=United-States 334 conf:(0.94) lift:(1.02) lev:(0.01) [5] < conv:(1.21)>

8. workclass=Private race=White 273 ==> native-country=United-States 257 conf:(0.94) lift:(1.02) lev:(0.01) [4] < conv:(1.2)>

9. sex=Male 275 ==> race=White native-country=United-States 238 conf:(0.87) lift:(1.04) lev:(0.02) [8] < conv:(1.19)>

10. workclass=Private native-country=United-States 285 ==> income=<=50K 224 conf:(0.79) lift:(1.06) lev:(0.03) [12] < conv:(1.18)>
В результате выполнения алгоритма, показываются правила с метрикой больше минимальной.

В настройках метода устанавливалось создание 10 ассоциативных правил. Данный алгоритм определяет часто встречающиеся наборы, соответственно самыми точными являются самые часто встречающиеся наборы, но как видно, не все они имеют смысл. Некоторые из правил выглядят нелогичными (race=White sex=Male ==> native-country=United-States; race=White ==> native-country=United-States), а некоторые и вовсе не имеют смысла (income=<=50K ==> native-country=United-States; sex=Male ==> race=White). Это отчасти является недостатком входного набора статистических данных.
ЗАКЛЮЧЕНИЕ

В результате работы были исследованы методы классификации и построения ассоциативных правил. Обобщенные данные по алгоритмам классификации приведены в Таблице 1.

Таблица 1

Метод

Точность классификации,%

Средняя абсолютная ошибка классификатора

NAIVE BAYES

80

0,206

ID3

69,5

0,222

J4.8

78

0,239

1R(OneR)

75,25

0, 247

SVM (SMO)

82,5

0, 175


В результате получаем, что наиболее эффективным классификатором с точки зрения правильности классификации и средней ошибки классификатора является SVM, однако он мало подходит для наглядного представления анализа данных. Для этой цели хорошо подходит J48 представляющий результаты в виде дерева, а также Naïve Bayes и 1R имеющие соответственно 78, 80, 75 проценты верной классификации. ID3 имеет наименьший процесс верной классификации - 69%, а также (что является минусом) классифицирует только номинальные(перечислимые) значения.

Исходным набором данных в нашем случае являлась перепись населения в США, в которой классификация производилась по доходам населения.

В процессе классификации получили следующие результаты:

Naïve Bayes: 26% имеют доход >50K, 74% имеют доход <=50K.

ID3: 28% имеют доход >50K, 72% имеют доход <=50K.

J48: 38% имеют доход >50K, 62% имеют доход <=50K.

1R: если прирост капитала >= 4243.5 имеют доход >50K, если прирост капитала >= 4243.5 имеют доход <=50K.

SVM: …

НАБОР ДАННЫХ

datamining400-02



Москва 2008
1   2   3

Похожие:

Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лаботарорной работе методы и средства анализа данных по теме:...
Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лаботарорной работе методы и средства анализа данных по теме:...
Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лаботарорной работе методы и средства анализа данных по теме:...
Методы классификации, Data Mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лаботарорной работе методы и средства анализа данных по теме:...
Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лаботарорной работе методы и средства анализа данных по теме:...
Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лабораторной работе методы и средства анализа данных по теме:...
«Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о лабораторной работе методы и средства анализа данных по теме:...
«Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОпыт применения методов интеллектуального анализа данных в компаративистских...
В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconК методическим указаниям о порядке формирования и использования информационного...
Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)...
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconАнализа данных-4: анализ издержки-выгод
Методы анализа данных-4: анализ издержки-выгоды, анализ издержки-эффективность (17 ноября 2005)1
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconПрограмма дисциплины Qualitative and Quantitative Methods of Data...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтделение статистики, анализа данных и демографии статистические...
Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconПрограмма по формированию навыков безопасного поведения на дорогах...
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/специальности...
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconМетодические рекомендации по изучению дисциплины «Анализ данных в...
«Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconУрок по информатике по теме "Системы управления базами данных. Создание...
Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд”
Отчет о лаботарорной работе методы и средства анализа данных по теме: «Система анализа данных weka» iconОтчет о работе по теме: «Проведение подготовительных работ по созданию...
Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент


Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
100-bal.ru
Поиск