Министерство образования Российской Федерации МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ
ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)
ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ
Методы и средства анализа данных
по теме:
«Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации» Руководитель темы ______________ И. Игнатьев
подпись, дата Исполнитель ______________ И. Шаповалов
подпись, дата Группа С-75
СОДЕРЖАНИЕ СОДЕРЖАНИЕ 2
РЕФЕРАТ 3
ВВЕДЕНИЕ 4
ОСНОВНАЯ ЧАСТЬ 5
Задание: над своими данными провести сравнение всех алгоритмов классификации, использованных в первой лабораторной работе 5
ЗАКЛЮЧЕНИЕ 10
НАБОР ДАННЫХ 11
РЕФЕРАТ Отчет страницы
WEKA, EXPERIMENTER, JAVA, КЛАССИФИКАЦИЯ, МЕТОД БАЙЕСА, J4.8, ID3, 1R, SVM, АССОЦИАТИВНЫЕ ПРАВИЛА, МЕТОД АПРИОРИ, ПОДГОТОВКА ДАННЫХ, ОПРЕДЕЛЕНИЕ ПРИМЕНИМОСТИ, EXPERIMENTER
Объектом изучения является применимость методов анализа к конкретным данным.
Основной задачей лабораторной является определение применимости методов анализа данных к определенным данным.
В результате работы были получены данные о применимости методов анализа.
ВВЕДЕНИЕ Лабораторная работа посвящена предварительной подготовке к анализу данных в системе анализа данных Weka. На этот раз используемый интерфейс - Experimenter. Он предназначен для сравнение применимости методов анализа данных (конкретно - построения классификаторов) к конкретным данным вне зависимости от их тематической направлености на основе статистических механизмов оценки качества построенных классификаторов (к примеру, кросс-проверке). Фактически, он просто много раз выполняет кросс-проверку для каждого из методов и на основе полученных данных создает новую совокупность данных - о результатах этих многочисленных кросс-проверок.
ОСНОВНАЯ ЧАСТЬ Задание: над своими данными провести сравнение всех алгоритмов классификации, использованных в первой лабораторной работе
Окно загрузки данных и выбора методов, которые будут сравниваться в дальнейшем ходе исследования. Количество проходов кросс-валидации устанавливаем равным 15, а количество проходов каждого алгоритма устанавливается равным 10.
В моем варианте сравнение методов производиться по полю “SF_entropy_gain ”. Т.е. по значению прироста энтропии у каждого медода.
Окно с выводом результатов исследования методов. Выводится таблица в строках которой указываеются методы классификации, а в рядах входные наборы данных. В нашем случае имеется только один входной набор данных. В последней строке указывается что алгоритм статитически лучше/нейтрален/хуже других в данном исследовании. Результат вывода:
Analysing: SF_entropy_gain
Datasets: 1
Resultsets: 4
Confidence: 0.05 (two tailed)
Date: 19.12.08 10:21
Dataset (1) bayes.NaiveBayes '' | (2) functions.SMO '- (3) trees.J48 '-C 0. (4) rules.OneR '-B 6
------------------------------------------------------------------------------------------
IGOR_SHAPOVALOV (150) -28.33( 74.50) | -5620.13(1916.14) * -732.25( 806.03) * -6214.41(1204.31) *
------------------------------------------------------------------------------------------
(v/ /*) | (0/0/1) (0/0/1) (0/0/1)
Skipped: Key: (1) bayes.NaiveBayes '' 5995231201785697655
(2) functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736
(3) trees.J48 '-C 0.25 -M 2' -217733168393644444
(4) rules.OneR '-B 6' 3010129309850089072
Анализ результата:
Алгоритмы показали следующую точность:
bayes.NaiveBayes -- -28.33( 74.50)
functions.SMO -- -5620.13(1916.14)
trees.J48 -- -732.25( 806.03)
rules.OneR -- -6214.41(1204.31)
В скобках указывается стандартное отклонение.
В последней строке
(v/ /*) | (0/0/1) (0/0/1) (0/0/1)
описанной выше таблицы показывается, что в данном случае методы J48, One R, SMO – показали себя хорошо, а метод NaiveBayes оказался худшим (чем больше значение, тем менее применим метод) применимо к входному набору данных. Далее рассматривается Summary:
Summary:
Analysing: SF_entropy_gain
Datasets: 1
Resultsets: 4
Confidence: 0.05 (two tailed)
Date: 19.12.08 10:30
a b c d (No. of datasets where [col] >> [row])
- 0 (0) 0 (0) 0 (0) | a = bayes.NaiveBayes '' 5995231201785697655
1 (1) - 1 (1) 0 (0) | b = functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736
1 (1) 0 (0) - 0 (0) | c = trees.J48 '-C 0.25 -M 2' -217733168393644444
1 (1) 1 (0) 1 (1) - | d = rules.OneR '-B 6' 3010129309850089072 В правой части указывается метод классификации и его параметры, заданные при выборе классификаторов. Эта матрица показывает наборы данных в которых один алгоритм статитически лучше/нейтрален/хуже другого. В нашем случае использовался только 1 набор данных. По данной матрице видно что OneR показал себя лучше других алгоритмов. Рассмотрим матрицу Ranking:
Ranking:
Analysing: SF_entropy_gain
Datasets: 1
Resultsets: 4
Confidence: 0.05 (two tailed)
Date: 19.12.08 10:42
>-< > < Resultset
3 3 0 bayes.NaiveBayes '' 5995231201785697655
1 2 1 trees.J48 '-C 0.25 -M 2' -217733168393644444
-2 0 2 rules.OneR '-B 6' 3010129309850089072
-2 0 2 functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736 Рассмотрим результаты при Select Base=>Ranking. Эта таблица выводит количество наборов данных, в котором победил (колонка >) или проиграл (колонка <) определенный алгоритм в сравнении с остальными. Колонка > - < показывает разницу победы – поражения для данного алгоритма. Необходимо отметить, что в данном случае победа алгоритма означает, что у него самый прирост энтропии, что равносильно поражению, т.е. худшему результату применимости.
Опять же в нашем случае использовался только 1 набор данных, и как и ранее победили OneR и SMO.
ЗАКЛЮЧЕНИЕ В результате работы было произведено сравнение алгоритмов по точности классификации. Результаты этого сравнения и были представлены в работе.
В результате работы было произведено сравнение алгоритмов по значению прироста энтропии. Результаты этого сравнения и были представлены в работе. Отметим, что результаты сравнения необходимо рассматривать с той точки зрения, что более применим тот метод, у кого значение этого прироста меньше.
Анализируя результаты, можно сказать, что алгоритр OneR оказывался лучшим, почти в каждом сравнении, методы SMO и J48 показывали средние результаты, а NaiveBayes часто оказывался хучшим.
НАБОР ДАННЫХ datamining400-08
Москва 2008
|