МЕТОДОЛОГИЯ СОЗДАНИЯ КОМПЬЮТЕРНОГО ТЕСТА Д.В. Смолин
|
|
| Компьютерный тест - это инструмент измерения некоторой личностной характеристики, относящейся к когнитивным, психологическим, психическим или психофизиолоическим особенностям данного индивида.
Интересующая Вас личностная характеристика может быть измерена, прямо или косвенно
Для измерения личностных характеристик применяются различные методики, большинство из которых берут свое начало в психологии, наиболее перспективные современные методики основаны на методах психофизиологии, то есть связи психического состояния индивида с его с внешними проявлениями, которые могут быть измерены непосредственно.
Компьютерные тесты обладают рядом преимуществ, по сравнению с традиционными (бумажными, вербальными и визуальными) тестами, но также имеют и ряд недостатков.
Компьютерный тест - это некоторая последовательность, возможно циклическая стимулов и реакций, позволяющая подтвердить (или опровергнуть) некоторую гипотезу тестирования.
Гипотеза тестирования - логическое утверждение, подлежащее проверке, в том числе проверке с некоторой степенью уверенности или вероятности в ходе тестирования.
Современное состояние педагогики, психологии и медицинских наук не позволяет в ходе одного теста полностью определить состояние индивида (статус), но только подтвердить (опровергнуть) некоторую гипотезу.
Тест должен быть математически обоснован.
Математическое обоснование теста, согласно современному состонияю теории тестирования может быть основано:
на принципах теории вероятности
на принципах теории множеств
критериальный язык, основанный на относительном весе каждой пары стимул-реакция (вопрос-ответ).
К основным характеристикам теста в целом и его отдельных элементов относят:
Валидность - степень соотвествия реального положения дел желаемому (аналог понятия адекватности модели в математике)
Надежность - степень повторяемости результатов в нескольких сериях испытаний
Экономичность - длина теста, выраженная в некоторых абстрактных единицах, относительно некоторого идеального "нулевого" значения.
Методика создания компьютерного теста предполагает следующие шаги:
1. "Планирование теста" - то есть подробное определение цели теста, возможных способов достижения цели, ограничений на процесс достижения цели (например временных), математических показателей качества будущего теста и допустимых отклонений этих характеристик.
2. В соотвествии с планом теста проводится генерация тестовых заданий. - то есть создание списка стимулов, вариантов правильных ответов и отвлекающих. Тип задания (закрытое, открытое) и конкретный способ его предъявления определяются исходя из требований к математическим характеристикам качества теста (валидности и надежности).
3. Из тестовых заданий составляются 2 равноценных набора заданий: основной и запасной, предназначенный для проведения повторного тестирования.
4. Определяется порядок следования вопросов в тесте.
5. Проводится пробное тестирование на экспертах, не участвовавших в составлении заданий. Цель тестирования - проверить очевидную валидность заданий - то есть доходчивость формулировки задания, способа ответа на него, исправление ошибок - логических, предметных и грамматических. Экспертов просят предварителньно оценить трудность каждого задания проставив ему оценку по некоторой шкале, например пятибалльной.
6. Исправленный тест проводится на малой выборке (до 3-х человек) из контингента, равнозначного целевому. Цель - ранжировать вопросы по трудности путем корректировки "весов вопросов", предварительно расставленных экспертами.
7. Тест проводится на целевой выборке. Результаты обрабатываются. Тест корректируется в сторону повышения очевидной валидности, приведения в соответствие со стандартом (например, образовательным), корректируется система оценки по тесту, так, чтобы оценка по тесту примерно соответствовала экспертной оценке проставленной конкретному студенту.
8. Результаты теста объявляются студентам по прошествии некоторого времени (не менее суток) и не комментируются.
Теоретически, этап планирования теста следует начинать с составления специальной таблицы, содержащей краткое и полное название теста (из которого следует его цель), указание на назначение теста (тренировочный, проверочный), указание на целевой контингент (образование, возраст, пол, родной язык), описания тем тестирования и целей включения именно этих тем, определение количества вопросов в каждой теме и типов заданий.
Пример таблицы:
Тест текущего контроля по дисциплине "Основы теории баз данных". Подраздел: основы программирования в системе FoxPro.
Цель: оценить степень практического владения встроенным языком СУБД FoxPro при создании типовых приложений БД.
Контингент: студенты 2-4 курсов информационных специальностей. Родной язык русский, базовая подготовка в техническом английском. Тема
| Цель включения темы
| вопросов
| Общие сведения о СУБД FoxPro
| Проверка понимания назначения и особенностей применения
Контроль способности обоснованно делать выбор СУБД для конкретной задачи.
Знание требований к системе для работы FoxPro
| 5-10
| Понятие БД в терминах FoxPro
| Проверка знания форматов и типов данных
Проверка знания особенностей работы с данными в FoxPro
| 5-10
| Команды встроенного языка
| Общее представление о типах команд и механизме их реализации
Подробное тестирование по назначению конкретных команд
Проверка понимания кода - поиск ошибок во фрагментах
| 10-20
| Стиль программирования
| Понятие о модульности
Понятие об оформлении кода на экране
Комментирование
Понятность применения конструкций языка, особенно циклов
| 5-10
| Итого
| 25-50
| При таком количестве вопросов наиболее реально достижение валидности и надежности в [0.6-0.7]. При использовании заданий "выбор 1 из N" и, [0.7-0.75] при использовании заданий "выбор M из N" и "введите слово", "упорядочьте". Оба варианта более чем хороши для теста текущего контроля.
На практике, для ускорения работы по созданию теста начинают как раз с генерации тестовых заданий, обращая особое внимание на качество составляемых заданий и их "общеупотребительность". Задания должны проверять степень владения предметом, способность к решению практических задач, а не знание особенностей, характерных для конкретной организации (учебного заведения). Полученные задания распределяют на группы и описывают, что они проверяют, получая , таким образом вышеприведенную таблицу. Таблицу корректируют, заполняя "пропуски" и перерабатывая наполнение тем. Очень полезно проконсультироваться с 2-3 специалистами по FoxPro.
Среди вопросов ищут "подобные" сразу же разнося их по разным вариантам теста. Для наиболее удачных заданий намеренно сочиняют "аналогичные" для варианта теста №2.
Вопросы выстраивают в различных порядках, с целью определить, не служит ли некоторый вопрос подсказкой для ответа на последующий, вопросы корректируют, часть вопросов переносят в вариант теста №2. Определяют окончательную последовательнсть вопросов в тесте.
Веса вопросов и порядок их следования в тесте - две взаимозависящих характеристики, влияющие в конечном счете на трудность теста. Существуют разичные алгоритмы формирования теста заданной трудности. Под тестом заданной трудности понимается такой тест, оценка по которому для некоторой группы тестируемых примерно соотвествует оценке этой же группы человеком-экспертом. В идеале, вопросы и варианты ответов (отвлекающие) никак не должны пересекаться между собой, что на практике невозможно. По этой причине в классической теории тестирования вопросы в тесте выстраивают в порядке возрастания трудностей, так, чтобы начав с примитивных, постепенно дойти до вопросов, на которые никто не может ответить. По достижении этого момента и следует прекратить тестирование. В качестве оценки по тесту, в этом случае, можно исрользовать не только привычную сумму баллов, но и экзотические, на первый взгляд формулы типа: оценка=max(оценка1, оценка2 ... оценкаN).
Для первоначальной оценки трудности вопросов можно использовать методы экспертных оценок, такие, например, как методы согласования. Удобно, также, пользоваться процедурами нормирования и ранжирования. Применительно в нашему тесту по FoxPro возможна следующая последовательность:
генерируем (выбираем из готовых) вопрос "единичной" трудности, например "Что такое СУБД?" варианты ответов "система управления базой данных", "система управления банком данных", "нет правильного ответа".
все остальные вопросы оцениваем по N-бальной шкале (например, привычной 5-ти балльной) относительно первого.
В случае, когда мы затрудняемся оценить, какой в точности балл выставить тому или иному вопросу, применяем попарное сравнение, и, не выставляя баллов, просто выстраиваем вопросы в порядке "от более простых к сложным".
в случае, если все вопросы оценены баллами, считаем из сумму (максимальная оценка по тесту) и нормируем тест целиком в некоторый интервал, например [0..1].
в случае, если часть вопросов не имеет оценки, считаем сумму существующих оценок и количество вопросов и задаем максимальную оценку по тесту исходя из соображений относительной важности первой (оцененной) части теста и второй. Имея общую оценку по тесту и ранжированные вопросы нетрудно вычислить веса вопросов.
Дальнейшее уточнение весов вопросов требует проведения экспериментов на целевой выборке. В случае, если используется неклассический алгоритм тестирования, например с произвольным порядком вопросов или с циклическим, с условными переходами - веса следует вычислять иначе, в особо трудных случаях (психологические тесты) - динамически то есть уже в ходе тестирования.
В последние годы в российской сфере образования наблюдается усиление интереса к методам объективного контроля результатов обучения, в частности к педагогическим тестам [1–3]. К сожалению, лишь немногие педагоги владеют методами оценки качества тестов, поэтому на практике нередко используются неэффективные задания.
В данной работе исследовались способы повышения качества педагогических тестов на основе корреляционного анализа результатов тестирования. Для проверки приобретенных на занятиях по информатике навыков были выбраны команды операционной системы и составлен соответствующий компьютерный тест. Сразу же после тестирования проводились экспертные оценки навыков по принципу «умеет — не умеет» (1 или 0).
Обработка результатов тестирования показала, что если перед обучением средняя мера трудности равна 0,8, то после занятий она понижается до 0,3. Таким образом, тестирование четко фиксирует результат обучения.
Оценка надежности по формуле Кудера — Ричардсона дает значение 0,7.
Для определения валидности сравнивались результаты тестирования и экспертной оценки. Определение коэффициента корреляции меры трудности заданий теста и результатов экспертных оценок дает значение 0,6.
Приведенные характеристики теста показывают, что он хорошо измеряет уровень обученности студентов, обладает удовлетворительными значениями надежности и валидности. Нередко на практике преподаватели этим и довольствуются.
В действительности все не так просто, как кажется на первый взгляд.
Корреляционная связь между столбцами матрицы, содержащими суммарный балл студента, полученный в результате тестирования, и суммарный экспертный балл, должна быть сильной, так как тестовый балл студента, показавшего хорошую подготовку эксперту, должен быть выше, чем у студента с плохой подготовкой. Однако расчет коэффициента корреляции дает очень низкое значение — 0,14. Выходит, тест не так хорош, как кажется. Налицо серьезное противоречие. В чем его причина?
Был рассчитан коэффициент корреляции между результатами испытания по соответствующему заданию (ККЗ) и суммой баллов по всем заданиям.
Анализ результатов показывает, что тест очень неоднороден, характеристики заданий различаются очень сильно; так, мера трудности колеблется от 0,1 до 0,8; значения ККЗ очень низки.
Из анализа данных можно предположить, что неоднородность характеристик теста связана с неоднородностью заданий. Чтобы проверить эту гипотезу, была составлена таблица измерений, из которой были убраны самые «плохие» задания. После этого были вновь рассчитаны ККЗ. Коэффициент корреляции заданий значительно вырос, в среднем в 12 раз. Коэффициент корреляции тестовой оценки (суммарный балл) и экспертной (по столбцам) составил 0,6 для «улучшенного теста» против 0,14 для исходного.
Для создания качественных педагогических тестов, автор предлагает метод последовательного приближения к «идеальной» модели. Вначале создается тест на основе априорных знаний, затем проводится эксперимент по тестированию и экспертным оценкам, статистический анализ результатов эксперимента, «улучшение» теста, новый эксперимент и так далее. Улучшение теста возможно за счет замены «плохих» заданий или изменения их формы.
Дополнительные исследования показали необходимость тщательного обучения испытуемых методике тестирования до проведения испытаний, чтобы избежать искажения результатов тестирования.
Повышение качества педагогических тестов в конечном счете должно приводить к повышению качества самого процесса обучения.
Литература
Аванесов В.С. Научные основы тестового контроля знаний. М.: Исследовательский центр, 1994. 135 с.
Аванесов В.С. Композиция тестовых заданий. М.: Адепт, 1998. 217 с.
Организация тестового контроля: Учебн.-методич. пособие / Авт.-сост. Н. В. Кузьмина, М. С. Чванова, В. В. Зубец. Тамбов: Изд-во ТГУ, 1998. 42 с.
| |