ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение высшего профессионального образования
«Алтайский государственный университет»
Математический факультет
Кафедра информатики
РЕАЛИЗАЦИЯ МЕТОДА ИНТЕРВАЛЬНОЙ РЕГРЕССИИ
В ПАКЕТЕ KNIME Выпускная работа бакалавра
Выполнил:
студент 4 курса 461 группы,
Пятков Владислав Дмитриевич
__________________________
(подпись) Научный руководитель:
к.ф.-м.н., доцент
Жилин Сергей Иванович
__________________________
(подпись) Работа защищена:
«___»___________________2010 г. Оценка:_________________________
Барнаул 2010
Оглавление Оглавление 2
Введение 3
1. Интервальная регрессия 7
1.1. Ограниченность погрешности 7
1.2. Модель линейной регрессии 8
1.3. Состоятельность и несмещённость метода 10
1.4. Способы выявления ошибочных данных 11
1.5. Предсказание отклика 12
1.6. Задача регрессионного анализа 13
1.7. Пример построения регрессии методом ИР 14
1.8. Выводы из первой главы 17
2. Реализация метода 17
2.1. KNIME 17
2.2. Создание пакетов 18
2.3. Задача линейного программирования 20
2.4. Структура программы 23
3. Программная реализация метода интервальной регрессии 24
3.1. Модуль для решения задачи линейного программирования 24
3.2. Вершина IRLearner 26
3.3.Вершина IRPredictor 26
Введение Обработка и хранение информации всегда были наиболее трудоёмкой задачей. Даже сейчас, когда с использованием довольно больших вычислительных мощностей этот процесс невозможно проводить без задержек. Время, потреблённое на обработку информации и то, сколько полезных закономерностей из неё можно извлечь во многом зависят от выбора метода обработки.
Поиском и исследованием новых методов анализа данных занимаются многие специалисты [2, 3, 9]. На сегодняшний момент нет универсального метода, хорошо работающего с любой информацией, для каждой предметной области выделяется свой набор потребляемых методов. Единственным достоверным средством проверки метода в той или иной предметной области является его применение непосредственно к данным этой области. Таким образом, чем шире набор методов, которые можно применить, тем вероятнее отыщется подходящий.
Проблема построения модели по эмпирическим данным часто встаёт перед исследователями. Обработка информации, полученной в результате экспериментов различного характера с целью сжатия, классификации, удаления ошибок в данных, является интенсивно развивающимся направлением и изобилует актуальными задачами как теоретического, так и прикладного характера.
Методы построения и анализа регрессии всегда привлекали к себе значительное внимание исследователей, поскольку являются основным инструментом при восстановлении зависимостей по экспериментальным данным. Наиболее широко известным и употребляемым подходом к конструированию регрессионных зависимостей является классический вероятностно-статистический подход. Этот подход основан на описании ошибки регрессионной модели случайной величиной, закон распределения которой считается известным или подлежащим оцениванию. Знание вероятностных свойств ошибки моделирования позволяет отыскать параметры регрессии в результате оптимизации некоторого функционала качества модели.
Известные трудности в практике применения классического регрессионного анализа стимулируют появление иных взглядов на постановку задачи о построении эмпирических зависимостей. В частности, с 70-х годов XX века развивается нестатистический подход, базирующийся на гипотезе ограниченности ошибки моделирования, не выдвигая при этом никаких предположений о характере распределения значений ошибки внутри некоторого ограниченного множества. Классиком нестатистического подхода принято считать Л.В. Канторовича. К его последователям можно отнести ряд отечественных и зарубежных исследователей: С.И. Спивака, M. Milanese, ?. Belforte, Н.М. Оскорбина, ?.?. Суханова, О.Е. Родионову и др. Настоящая работа посвящена разработке программных инструментов, реализующих методы построения и анализа регрессионных зависимостей именно в рамках нестатистического подхода, поскольку недостаточная развитость таких инструментов является одним из факторов, сдерживающих широкое распространение идей нестатичтического подхода в практике анализа данных. Для краткости здесь и далее в работе весь набор методов и приемов анализа эмпирических данных в рамках указанного подхода именуется методами интервальной регрессии (ИР).
На сегодняшний момент существует немало систем анализа данных или аналитических платформ (KNIME, RapidMiner, Deductor, STATISTICA и др.). Все они в соответствии с общей методикой анализа содержат в себе довольно большой набор методов. Однако ни одна платформа не может содержать всех известных методов. Вполне может оказаться так, что интересующий метод просто не был реализован. Все они позволяют задействовать при анализе данных довольно большой набор методов как статистического, так и нестатистического характера. Однако каждый из указанных программных продуктов предоставляет возможности дополнить его стандартные возможности какими-либо пользовательскими компонентами, например, реализующими некоторый оригинальный метод.
Целью настоящей работы является разработка модулей расширения аналитической платформы KNIME, реализующих методы построения и анализа интервальной регрессии.
В рамках достижения сформулированной цели предполагается решить следующие задачи:
Систематизировать описание методов ИР, предложенных различными авторами.
Разработать вспомогательный класс-решатель задач линейного программирования.
Разработать набор модулей расширения системы KNIME, позволяющий конструировать и анализировать интервальные регрессионные зависимости, в частности,
модуль построения интервальной регрессионной модели IRLearner;
модуль выявления выбросов в данных IROutlier;
модуль построения прогноза по построенной интервальной регрессионной модели IRPredictor.
Провести опытную эксплуатацию разработанных программных инструментов.
……………
Апробация работы. Основные положения и отдельные результаты работы обсуждались на XXXVII научной конференции студентов по секции основ информатики, где доклад автора работы был удостоен диплома II степени.
Работа состоит из введения, трех глав, заключения и двух приложений. В первой главе подробно изложен метод интервальной регрессии. Во второй главе описывается разработка модулей расширения системы KNIME для построения и анализа интервальной регрессии. В третьей главе приведены краткое руководство пользователя и примеры решения задач анализа данных с использованием разработанных модулей расширения KNIME.
Рисунков, таблиц……
|