Отчет о лабораторной работе методы и средства анализа данных по теме: «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»

Скачать 56.6 Kb.

Название	Отчет о лабораторной работе методы и средства анализа данных по теме: «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
Дата публикации	08.05.2015
Размер	56.6 Kb.
Тип	Отчет

100-bal.ru > Право > Отчет

Министерство образования Российской Федерации
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

ОТЧЕТ О ЛАБОРАТОРНОЙ РАБОТЕ

Методы и средства анализа данных

по теме:

«Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»
Руководитель темы ______________ И. Игнатьев

подпись, дата
Исполнитель ______________ И. Шаповалов

подпись, дата Группа С-75

СОДЕРЖАНИЕ

СОДЕРЖАНИЕ 2

РЕФЕРАТ 3

ВВЕДЕНИЕ 4

ОСНОВНАЯ ЧАСТЬ 5

Задание: над своими данными провести сравнение всех алгоритмов классификации, использованных в первой лабораторной работе 5

ЗАКЛЮЧЕНИЕ 10

НАБОР ДАННЫХ 11

РЕФЕРАТ

Отчет страницы

WEKA, EXPERIMENTER, JAVA, КЛАССИФИКАЦИЯ, МЕТОД БАЙЕСА, J4.8, ID3, 1R, SVM, АССОЦИАТИВНЫЕ ПРАВИЛА, МЕТОД АПРИОРИ, ПОДГОТОВКА ДАННЫХ, ОПРЕДЕЛЕНИЕ ПРИМЕНИМОСТИ, EXPERIMENTER

Объектом изучения является применимость методов анализа к конкретным данным.

Основной задачей лабораторной является определение применимости методов анализа данных к определенным данным.

В результате работы были получены данные о применимости методов анализа.

ВВЕДЕНИЕ

Лабораторная работа посвящена предварительной подготовке к анализу данных в системе анализа данных Weka. На этот раз используемый интерфейс - Experimenter. Он предназначен для сравнение применимости методов анализа данных (конкретно - построения классификаторов) к конкретным данным вне зависимости от их тематической направлености на основе статистических механизмов оценки качества построенных классификаторов (к примеру, кросс-проверке). Фактически, он просто много раз выполняет кросс-проверку для каждого из методов и на основе полученных данных создает новую совокупность данных - о результатах этих многочисленных кросс-проверок.

ОСНОВНАЯ ЧАСТЬ

Задание: над своими данными провести сравнение всех алгоритмов классификации, использованных в первой лабораторной работе

Окно загрузки данных и выбора методов, которые будут сравниваться в дальнейшем ходе исследования. Количество проходов кросс-валидации устанавливаем равным 15, а количество проходов каждого алгоритма устанавливается равным 10.

В моем варианте сравнение методов производиться по полю “SF_entropy_gain ”. Т.е. по значению прироста энтропии у каждого медода.

Окно с выводом результатов исследования методов. Выводится таблица в строках которой указываеются методы классификации, а в рядах входные наборы данных. В нашем случае имеется только один входной набор данных. В последней строке указывается что алгоритм статитически лучше/нейтрален/хуже других в данном исследовании.
Результат вывода:

Analysing: SF_entropy_gain

Datasets: 1

Resultsets: 4

Confidence: 0.05 (two tailed)

Date: 19.12.08 10:21

Dataset (1) bayes.NaiveBayes '' | (2) functions.SMO '- (3) trees.J48 '-C 0. (4) rules.OneR '-B 6

------------------------------------------------------------------------------------------

IGOR_SHAPOVALOV (150) -28.33( 74.50) | -5620.13(1916.14) * -732.25( 806.03) * -6214.41(1204.31) *

------------------------------------------------------------------------------------------

(v/ /*) | (0/0/1) (0/0/1) (0/0/1)

Skipped:
Key:
(1) bayes.NaiveBayes '' 5995231201785697655

(2) functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

(3) trees.J48 '-C 0.25 -M 2' -217733168393644444

(4) rules.OneR '-B 6' 3010129309850089072

Анализ результата:

Алгоритмы показали следующую точность:

bayes.NaiveBayes -- -28.33( 74.50)
functions.SMO -- -5620.13(1916.14)
trees.J48 -- -732.25( 806.03)
rules.OneR -- -6214.41(1204.31)

В скобках указывается стандартное отклонение.

В последней строке

(v/ /*) | (0/0/1) (0/0/1) (0/0/1)

описанной выше таблицы показывается, что в данном случае методы J48, One R, SMO – показали себя хорошо, а метод NaiveBayes оказался худшим (чем больше значение, тем менее применим метод) применимо к входному набору данных.
Далее рассматривается Summary:

Summary:

Analysing: SF_entropy_gain

Datasets: 1

Resultsets: 4

Confidence: 0.05 (two tailed)

Date: 19.12.08 10:30

a b c d (No. of datasets where [col] >> [row])

- 0 (0) 0 (0) 0 (0) | a = bayes.NaiveBayes '' 5995231201785697655

1 (1) - 1 (1) 0 (0) | b = functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736

1 (1) 0 (0) - 0 (0) | c = trees.J48 '-C 0.25 -M 2' -217733168393644444

1 (1) 1 (0) 1 (1) - | d = rules.OneR '-B 6' 3010129309850089072
В правой части указывается метод классификации и его параметры, заданные при выборе классификаторов. Эта матрица показывает наборы данных в которых один алгоритм статитически лучше/нейтрален/хуже другого. В нашем случае использовался только 1 набор данных. По данной матрице видно что OneR показал себя лучше других алгоритмов.
Рассмотрим матрицу Ranking:

Ranking:

Analysing: SF_entropy_gain

Datasets: 1

Resultsets: 4

Confidence: 0.05 (two tailed)

Date: 19.12.08 10:42

>-< > < Resultset

3 3 0 bayes.NaiveBayes '' 5995231201785697655

1 2 1 trees.J48 '-C 0.25 -M 2' -217733168393644444

-2 0 2 rules.OneR '-B 6' 3010129309850089072

-2 0 2 functions.SMO '-C 1.0 -E 1.0 -G 0.01 -A 250007 -L 0.0010 -P 1.0E-12 -N 0 -V -1 -W 1' -6585883636378691736
Рассмотрим результаты при Select Base=>Ranking. Эта таблица выводит количество наборов данных, в котором победил (колонка >) или проиграл (колонка <) определенный алгоритм в сравнении с остальными. Колонка > - < показывает разницу победы – поражения для данного алгоритма. Необходимо отметить, что в данном случае победа алгоритма означает, что у него самый прирост энтропии, что равносильно поражению, т.е. худшему результату применимости.

Опять же в нашем случае использовался только 1 набор данных, и как и ранее победили OneR и SMO.

ЗАКЛЮЧЕНИЕ

В результате работы было произведено сравнение алгоритмов по точности классификации. Результаты этого сравнения и были представлены в работе.

В результате работы было произведено сравнение алгоритмов по значению прироста энтропии. Результаты этого сравнения и были представлены в работе. Отметим, что результаты сравнения необходимо рассматривать с той точки зрения, что более применим тот метод, у кого значение этого прироста меньше.

Анализируя результаты, можно сказать, что алгоритр OneR оказывался лучшим, почти в каждом сравнении, методы SMO и J48 показывали средние результаты, а NaiveBayes часто оказывался хучшим.

НАБОР ДАННЫХ

datamining400-08

Москва 2008

Добавить документ в свой блог или на сайт

Похожие:

	Отчет о лабораторной работе методы и средства анализа данных по теме:... «Лабораторная работа с системой анализа данных Weka. Сравнение методов классификации»		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, Data Mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори
	Отчет о лаботарорной работе методы и средства анализа данных по теме:... Методы классификации, data mining, метод байеса, 8, id3, 1R, svm, ассоциативные правила, метод априори		Опыт применения методов интеллектуального анализа данных в компаративистских... В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета...
	К методическим указаниям о порядке формирования и использования информационного... Средства анализа, консолидации и агрегации данных (технологии многомерного анализа (olap), технологии хранилища данных (Data Warehouse)...		Методические рекомендации по изучению дисциплины «Анализ данных в... «Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
	Анализа данных-4: анализ издержки-выгод Методы анализа данных-4: анализ издержки-выгоды, анализ издержки-эффективность (17 ноября 2005)1		Программа дисциплины Qualitative and Quantitative Methods of Data... Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/ специальности...
	Отделение статистики, анализа данных и демографии статистические... Методические рекомендации в помощь преподавателю: издание гаоу спо «Уфимский топливно – энергетический колледж». – Уфа, 2012г		Лицензионный договор – публичная оферта о передаче неисключительных... «Анализ данных в социологии»: познакомился с основными направлениями анализа данных в социологии, осуществляемых с помощью математических...
	Рабочая программа по дисциплине Аналитическая химия и физико-химические методы анализа Цели и задачи дисциплины: Освоение теоретических основ современных химических методов анализа, аналитических методик и приемов, статистической...		Анализ данных науки, образования и инновационной деятельности с использованием... В данной статье будет описан метод анализа паттернов и результаты его применения к поставленной проблеме анализа развития науки,...

Школьные материалы