Задание 3: Построение ассоциативных правил Метод Априори
Нахождение ассоциативных правил происходит почти так же, как и классификация. На вкладке Associate выбирается метод нахождения, для него выставляются параметры кликом на его названии, после чего нажимается кнопка Start и анализируется вывод. При необходимости применяются фильтры (в данном случае применяются фильтры, аналогичные использованным для метода ID3). В нашем случае ассоциативные правила строятся по методу Априори.
В листингах 7,8,9,10 приведены выводы правил для типов метрик Confidence (поддержка, не может быть больше 1), Lift (Достоверность), Leverage (уверенность), Conviction (P(premise)P(!consequence) / P(premise, !consequence)). Листинг 7
=== Run information === Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0
Relation: laba43-weka.filters.unsupervised.attribute.RemoveType-Tnumeric
Instances: 400
Attributes: 9
workclass
education
marital-status
occupation
relationship
race
sex
native-country
income
=== Associator model (full training set) ===
Apriori
======= Minimum support: 0.4 (160 instances)
Minimum metric : 0.9
Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 7 Size of set of large itemsets L(2): 15 Size of set of large itemsets L(3): 13 Size of set of large itemsets L(4): 2 Best rules found: 1. relationship=Husband 167 ==> marital-status=Married-civ-spouse sex=Male 167 conf:(1)
2. marital-status=Married-civ-spouse relationship=Husband 167 ==> sex=Male 167 conf:(1)
3. relationship=Husband sex=Male 167 ==> marital-status=Married-civ-spouse 167 conf:(1)
4. relationship=Husband 167 ==> sex=Male 167 conf:(1)
5. relationship=Husband 167 ==> marital-status=Married-civ-spouse 167 conf:(1)
6. marital-status=Married-civ-spouse sex=Male 173 ==> relationship=Husband 167 conf:(0.97)
7. marital-status=Married-civ-spouse race=White 182 ==> native-country=United-States 173 conf:(0.95)
8. marital-status=Married-civ-spouse native-country=United-States 182 ==> race=White 173 conf:(0.95)
9. race=White sex=Male 238 ==> native-country=United-States 224 conf:(0.94)
10. marital-status=Married-civ-spouse sex=Male 173 ==> native-country=United-States 162 conf:(0.94) Листинг 8
Apriori
======= Minimum support: 0.4 (160 instances)
Minimum metric : 1.1
Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 7 Size of set of large itemsets L(2): 15 Size of set of large itemsets L(3): 13 Size of set of large itemsets L(4): 2 Best rules found: 1. marital-status=Married-civ-spouse sex=Male 173 ==> relationship=Husband 167 conf:(0.97) < lift:(2.31)> lev:(0.24) [94] conv:(14.4)
2. relationship=Husband 167 ==> marital-status=Married-civ-spouse sex=Male 167 conf:(1) < lift:(2.31)> lev:(0.24) [94] conv:(94.77)
3. relationship=Husband sex=Male 167 ==> marital-status=Married-civ-spouse 167 conf:(1) < lift:(2.04)> lev:(0.21) [85] conv:(85.17)
4. marital-status=Married-civ-spouse 196 ==> relationship=Husband sex=Male 167 conf:(0.85) < lift:(2.04)> lev:(0.21) [85] conv:(3.81)
5. relationship=Husband 167 ==> marital-status=Married-civ-spouse 167 conf:(1) < lift:(2.04)> lev:(0.21) [85] conv:(85.17)
6. marital-status=Married-civ-spouse 196 ==> relationship=Husband 167 conf:(0.85) < lift:(2.04)> lev:(0.21) [85] conv:(3.81)
7. sex=Male 264 ==> marital-status=Married-civ-spouse relationship=Husband 167 conf:(0.63) < lift:(1.52)> lev:(0.14) [56] conv:(1.57)
8. marital-status=Married-civ-spouse relationship=Husband 167 ==> sex=Male 167 conf:(1) < lift:(1.52)> lev:(0.14) [56] conv:(56.78)
9. sex=Male 264 ==> relationship=Husband 167 conf:(0.63) < lift:(1.52)> lev:(0.14) [56] conv:(1.57)
10. relationship=Husband 167 ==> sex=Male 167 conf:(1) < lift:(1.52)> lev:(0.14) [56] conv:(56.78)
Листинг 9
Apriori
======= Minimum support: 0.4 (160 instances)
Minimum metric : 0.1
Number of cycles performed: 12 Generated sets of large itemsets: Size of set of large itemsets L(1): 7 Size of set of large itemsets L(2): 15 Size of set of large itemsets L(3): 13 Size of set of large itemsets L(4): 2 Best rules found: 1. marital-status=Married-civ-spouse sex=Male 173 ==> relationship=Husband 167 conf:(0.97) lift:(2.31) < lev:(0.24) [94]> conv:(14.4)
2. relationship=Husband 167 ==> marital-status=Married-civ-spouse sex=Male 167 conf:(1) lift:(2.31) < lev:(0.24) [94]> conv:(94.77)
3. relationship=Husband sex=Male 167 ==> marital-status=Married-civ-spouse 167 conf:(1) lift:(2.04) < lev:(0.21) [85]> conv:(85.17)
4. marital-status=Married-civ-spouse 196 ==> relationship=Husband sex=Male 167 conf:(0.85) lift:(2.04) < lev:(0.21) [85]> conv:(3.81)
5. relationship=Husband 167 ==> marital-status=Married-civ-spouse 167 conf:(1) lift:(2.04) < lev:(0.21) [85]> conv:(85.17)
6. marital-status=Married-civ-spouse 196 ==> relationship=Husband 167 conf:(0.85) lift:(2.04) < lev:(0.21) [85]> conv:(3.81)
7. sex=Male 264 ==> marital-status=Married-civ-spouse relationship=Husband 167 conf:(0.63) lift:(1.52) < lev:(0.14) [56]> conv:(1.57)
8. marital-status=Married-civ-spouse relationship=Husband 167 ==> sex=Male 167 conf:(1) lift:(1.52) < lev:(0.14) [56]> conv:(56.78)
9. sex=Male 264 ==> relationship=Husband 167 conf:(0.63) lift:(1.52) < lev:(0.14) [56]> conv:(1.57)
10. relationship=Husband 167 ==> sex=Male 167 conf:(1) lift:(1.52) < lev:(0.14) [56]> conv:(56.78)
Листинг 10
Apriori
======= Minimum support: 0.45 (180 instances)
Minimum metric : 1.1
Number of cycles performed: 11 Generated sets of large itemsets: Size of set of large itemsets L(1): 6 Size of set of large itemsets L(2): 12 Size of set of large itemsets L(3): 5 Best rules found: 1. marital-status=Married-civ-spouse 196 ==> race=White 182 conf:(0.93) lift:(1.07) lev:(0.03) [11] < conv:(1.7)>
2. sex=Male native-country=United-States 242 ==> race=White 224 conf:(0.93) lift:(1.06) lev:(0.03) [13] < conv:(1.66)>
3. race=White sex=Male 238 ==> native-country=United-States 224 conf:(0.94) lift:(1.04) lev:(0.02) [8] < conv:(1.51)>
4. sex=Male 264 ==> race=White native-country=United-States 224 conf:(0.85) lift:(1.06) lev:(0.03) [12] < conv:(1.27)>
5. sex=Male 264 ==> race=White 238 conf:(0.9) lift:(1.04) lev:(0.02) [8] < conv:(1.27)>
6. marital-status=Married-civ-spouse 196 ==> native-country=United-States 182 conf:(0.93) lift:(1.03) lev:(0.01) [4] < conv:(1.24)>
7. race=White 348 ==> native-country=United-States 321 conf:(0.92) lift:(1.02) lev:(0.02) [6] < conv:(1.18)>
8. workclass=Private 283 ==> income=<=50K 230 conf:(0.81) lift:(1.04) lev:(0.02) [8] < conv:(1.14)>
9. native-country=United-States 362 ==> race=White 321 conf:(0.89) lift:(1.02) lev:(0.02) [6] < conv:(1.12)>
10. race=White native-country=United-States 321 ==> sex=Male 224 conf:(0.7) lift:(1.06) lev:(0.03) [12] < conv:(1.11)>
В результате выполнения алгоритма, показываются правила с метрикой больше минимальной.
В настройках метода устанавливалось создание 10 ассоциативных правил. Данный алгоритм определяет часто встречающиеся наборы, соответственно самыми точными являются самые часто встречающиеся наборы, но как видно, не все они имеют смысл( . race=White sex=Male 238 ==> native-country=United-States 224 ).
ЗАКЛЮЧЕНИЕ
В результате работы были исследованы методы классификации и построения ассоциативных правил. Обобщенные данные по алгоритмам классификации приведены в Таблице 1.
Таблица 1
Метод
| Точность классификации,%
| Средняя абсолютная ошибка классификатора
| NAIVE BAYES
| 85.25
| 0.1607
| ID3
| 74.25
| 0.1909
| J4.8
| 86.75
| 0.208
| 1R(OneR)
| 80.25
| 0.1975
| SVM (SMO)
| 82.75
| 0.1725
|
В результате получаем, что наиболее эффективным классификатором с точки зрения правильности классификации и средней ошибки классификатора является J48. Для наглядного представления анализа данных хорошо подходит, собственно J48 представляющий результаты в виде дерева, а также Naïve Bayes и 1R имеющие соответственно 86.75, 85.25, 80.25 проценты верной классификации. ID3 имеет наименьший процесс верной классификации - 74.25 %, а также (что является минусом) классифицирует только номинальные(перечислимые) значения. Средние результаты в точности показал классификатор SVM(82.75%), однако он мало подходит для наглядного представления анализа данных.
Исходным набором данных в нашем случае являлась перепись населения в США, в которой классификация производилась по доходам населения.
|
| Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
| | Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
|
| Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, Data Mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
| | Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
|
| Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
| | Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
|
| Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
| | Опыт применения методов интеллектуального анализа данных в компаративистских... В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
|
| К методическим указаниям о порядке формирования и использования информационного... Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)...
| | Анализа данных-4: анализ издержки-выгод Методы анализа данных-4: анализ издержки-выгоды, анализ издержки-эффективность (17 ноября 2005)1
|
| Программа дисциплины Qualitative and Quantitative Methods of Data... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
| | Отделение статистики, анализа данных и демографии статистические... Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г
|
| Программа по формированию навыков безопасного поведения на дорогах... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/специальности...
| | Методические рекомендации по изучению дисциплины «Анализ данных в... «Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
|
| Урок по информатике по теме "Системы управления базами данных. Создание... Повторить понятие “База данных”, “поле базы данных”, “запись базы данных”, “субд”
| | Отчет о работе по теме: «Проведение подготовительных работ по созданию... Музеный фонд, музейное дело, банк данных, сохранные изображения, экспонат, информационные технологии, цифровой контент
|