УДК 004.9
Коржик И.А. Толстобров А.П.
Воронежский государственный университет, г. Воронеж
Встроенные средства Moodle для оценки качества тестов Одним из важных достоинств тестовых технологий является возможность получения объективных характеристик, позволяющих оценить качество тестов, как инструмента для измерения уровня обучения учащимися изучаемого материала. Эти характеристики рассматриваются и обосновываются в теории педагогических измерений [2]. То, что тесты и составляющие их вопросы многократно используются для больших групп испытуемых, позволяет использовать статистические методы при обработке их результатов для вычисления целого ряда характеристик. Эти величины могут интерпретироваться для оценки качества тестов. В основе системы сбора статистики используется метрическая система Раша, позволяющая говорить о качестве педагогических измерений [3].
Проблема, однако, в том, что статистическая обработка результатов тестирования, вычисления и последующей интерпретации необходимых характеристик являются довольно сложными. Это является серьезным препятствием для использования этих характеристик широким кругом преподавателей, использующих в своей деятельности задания в тестовой форме, но в большинстве своем не являющихся специалистами в области математической статистики, практически нереальным.
В этой связи, одним из достоинств системы управления обучением Moodle является то, что у нее имеются встроенные средства для осуществления такой обработки и вычисления разнообразных характеристик тестов. Более того в версиях системы Moodle начиная с 2.1 эти средства претерпели большие изменения – они еще более расширились по сравнению с версией 1.9. Тем не менее, к сожалению, приходится констатировать, что в настоящее время мало кто из преподавателей знает и, тем более, практически использует в своей практике эти возможности для оценки качества своих тестовых материалов.
Рассмотрим наиболее важные, на наш взгляд, характеристики, которые автоматически формирует система Moodle 2.1 по результатам выполнения тестов испытуемыми.
Все характеристики разделены на две группы: первая относится к тесту в целом, вторая – к каждому вопросу или категории вопросов, присутствующему в тесте.
Характеристиками, позволяющими оценивать качество теста в целом, являются следующие величины [4].
Средняя оценка испытуемых – среднее арифметическое по оценкам всех выполняющих тест студентов.
где S – множество студентов, выполнявших тест, Ts – оценка за тест s-го студента.
Медиана – срединное значение оценок испытуемых Ts.
Стандартное отклонение оценок за тест
Эта мера характеризует способность теста разделять испытуемых в группе по уровню подготовки.
Коэффициенты асимметрии и эксцесса – меры характеризующие отличие формы распределения полученных испытуемыми тестовых баллов от нормального распределения.
Коэффициент надежности теста, еще называемый альфа Кронбаха.
где p – номер тестового задания из множества заданий теста P.
Это средний разброс результатов каждого студента при ответе на все вопросы теста. Чем он меньше, тем вопросы теста являются более согласованными.
Относительная погрешность (ошибка) – характеризует долю случайности в оценках испытуемых. Чем эта величина меньше, тем лучше.
Стандартная ошибка – оценивает фактор везения и указывает границы погрешности для оценки студента за тест [3]:
В теории педагогических измерений считается, что в более хорошем тесте средний арифметический балл испытуемых равен медианному значению оценок используемых заданий, коэффициенты асимметрии и эксцесса не отклоняются от значений для стандартной кривой нормального распределения результатов. Также хорошо, если значения среднего арифметического, моды и медианы совпадают. Это признак точной нацеленности общего уровня трудности теста на уровень подготовленности испытуемых [2]. Так же совпадающие средние значения шкальных баллов, показатели асимметрии и эксцесса позволяют корректно сравнивать распределения результатов по разным тестам.
Вторая группа параметров позволяет оценивать качество конкретных тестовых заданий (вопросов), составляющих тест.
Индекс легкости – процент студентов, которые ответили на конкретный вопрос теста правильно.
Стандартное отклонение – характеризует разброс значений оценок испытуемых при ответе на конкретный вопрос теста.
Случайно угаданная оценка – оценка, которую мог бы получить студент при случайном угадывании ответов.
Предполагаемый вес – вес, который преподаватель назначил тестовому заданию при формировании сценария теста.
Эффективный вес – фактическая доля конкретного вопроса в итоговой оценке студентов за тест. В идеале эффективный вес должен быть равен предполагаемому.
Коэффициент дифференциации – это соотношение связи между оценками за конкретный p-й вопрос и за весь тест в целом.
где Xp(s) = Ts − xp(s) - баллы, полученные студентом за ответы на все вопросы кроме pго (остаток оценки студента для позиции p).
Эффективность дифференциации – нормированный коэффициент дифференциации [3].
В качестве иллюстрации можно привести показатели, полученные при реальном тестировании студентов.
Таблица 1 Тестирование/Параметры
| Аттестация1
| Аттестация2
| Аттестация3
| Средняя оценка
| 73
| 60,9
| 78,2
| Медиана
| 75
| 58,4
| 83,7
| Стандартное отклонение
| 17
| 18,9
| 15,6
| Коэффициент асимметрии
| -0,84
| 0,261
| -1,363
| Мера эксцесса
| 0,7
| -0,894
| 2,727
| Коэффициент надежности
| 90
| 90
| 83,2
| Относительная погрешность
| 32
| 31,6
| 41
| Стандартная ошибка
| 5
| 6
| 6,4
| Приведенные в таблице значения можно интерпретировать следующим образом.
О качестве сценария тестирования – по параметру надежность. Он достаточно высок для всех тестов, т.е. хорошо оценивает всех студентов.
О целевой аудитории теста – по средним параметрам. Поскольку они практически равны, значит, тест по своей трудности соответствует именно этой аудитории.
Об ошибке в оценке за тест – по величине стандартной ошибки. Может помочь преподавателю при определении окончательной оценки, указав возможные допуски для изменений.
Реализованная в сетевой системе управления обучением Moodle система анализа статистических результатов тестирования внутри учебного курса может служить эффективным инструментом контроля качества создаваемых преподавателем тестовых материалов и удобным инструментом для самого преподавателя в процессе совершенствования теста и тестовых заданий для увеличения качества обучения и контроля успеваемости.
Литература:
Сайт http://moodle.org/stats/
Аванесов В.С. Метрическая система Георга Раша // Педагогические Измерения №2, 2010, С. 57-80.
Аванесов В.С. Понятие и методы математической теории педагогических измерений (Item Response Theory): статья третья. Педагогические Измерения. №4, 2009 г. - С. 5.
Сайт http://docs.moodle.org/dev/Quiz_statistics_calculations
|