IRT: анализ тестовых заданий

Дарья Лисовенко 9 апреля 2024 Время чтения ≈ 4 мин.

Что такое IRT

Item Response Theory (IRT) — это подход или семейство статистических моделей, используемый для анализа данных, полученных в результате тестирования, опросов или других форм оценки, где внимание уделяется каждому отдельному заданию или вопросу. В отличие от более традиционной классической теории тестов, которая фокусируется на общих результатах теста, IRT рассматривает вероятность правильного или желаемого ответа на конкретное задание в зависимости от способностей или характеристик респондента.

Основные компоненты моделей IRT включают:

Сложность задания (b). Это показатель того, насколько сложно задание; задания с более высоким значением b сложнее.
Дискриминативность задания (a). Это мера того, насколько хорошо задание различает респондентов с разными уровнями способности или чертой, измеряемой тестом.
Вероятность угадывания (c). В некоторых моделях это параметр, который позволяет учесть вероятность того, что респондент угадает правильный ответ на задание с несколькими вариантами ответа.
Способность респондента (θ). Это характеристика респондента, которая влияет на вероятность правильного ответа на задания. Это может быть общая способность, знание или другая измеряемая черта.

Модели IRT применяются в различных областях, включая образование, психологию и медицину, для создания и анализа тестов, опросов и оценочных шкал. Они позволяют проводить более точное и дифференцированное тестирование, создавать адаптивные тесты, где следующие задания выбираются на основе ответов на предыдущие, и оценивать изменения в способностях или отношениях с течением времени.

Для чего используется оценка IRT

Оценка, основанная на теории ответов на задания (IRT), используется в различных областях и целях, включая следующие ключевые применения:

Разработка и анализ тестов. IRT позволяет создавать тесты и оценивать их качество, анализируя каждое задание отдельно. Это помогает в выборе заданий, которые лучше всего измеряют желаемые характеристики или способности, улучшая тем самым надежность и валидность теста.
Адаптивное тестирование. Один из наиболее известных примеров использования IRT — компьютерное адаптивное тестирование (CAT), где следующие вопросы теста адаптируются к уровню способностей респондента, основываясь на его предыдущих ответах. Это позволяет более точно измерять способности респондента за меньшее количество вопросов, уменьшая при этом общее время тестирования.
Оценка и сравнение заданий и тестов. IRT предоставляет инструменты для оценки параметров заданий, таких как сложность и дискриминативность. Это позволяет сравнивать задания и тесты в разное время или в разных группах без необходимости их прямого администрирования всем респондентам.
Исследование и разработка образовательных программ. IRT используется для анализа результатов обучения и эффективности образовательных программ. Понимание того, как студенты отвечают на конкретные задания, может помочь в разработке более эффективных учебных материалов и стратегий обучения.
Кросс-культурные исследования. С помощью IRT можно адаптировать и сравнивать тесты для использования в разных культурных и языковых контекстах, обеспечивая справедливость тестирования и сопоставимость результатов.
Диагностика и клиническая оценка. В медицине и психологии IRT применяется для создания и анализа диагностических тестов и опросников, например, для оценки уровня депрессии или тревожности. Это обеспечивает более точную диагностику и позволяет отслеживать изменения в состоянии пациента во времени.
Оценка социальных и психологических исследований. IRT используется для анализа данных опросов в социологии и психологии, позволяя изучать отношения, мнения и поведение людей с более высокой степенью точности и надежности.

Как рассчитывается метрика IRT

Расчет метрик в рамках теории ответов на задания (IRT) зависит от выбранной модели IRT, поскольку существует несколько типов моделей, каждая из которых может быть лучше подходить для определенных видов данных или целей исследования. Основные шаги расчета включают оценку параметров заданий и параметров способности респондентов.

Выбор модели IRT:

1PL (модель Раша) предполагает, что все задания имеют одинаковую дискриминативность, и оценивает только параметры сложности заданий и способности респондентов.
2PL включает в себя оценку как сложности заданий, так и их дискриминативности.
3PL дополнительно учитывает параметр угадывания, позволяя некоторым заданиям иметь больше шансов на правильный ответ наугад.

Оценка параметров заданий:

Для каждого задания оцениваются его параметры (сложность, дискриминативность, вероятность угадывания) на основе ответов респондентов. Это обычно делается с использованием методов максимального правдоподобия или байесовских методов оценки.

Оценка способностей респондентов:

После оценки параметров заданий оцениваются параметры способности респондентов, обычно с использованием метода максимального правдоподобия, где ищется значение способности респондента, максимизирующее правдоподобие его ответов на задания.

Формула моделей:

Для 2PL модели, например, вероятность правильного ответа (P) респондента с параметром способности θ на задание с параметрами сложности b и дискриминативности a может быть выражена как:

P(θ)=1/1+e*−a(θ−b)

Для 3PL модели добавляется параметр угадывания c, и формула становится:

P(θ)=c+(1−c)1/1+e*−a(θ−b)

Использование метрик IRT:

После оценки параметров заданий и способностей респондентов, данные могут быть использованы для анализа качества заданий, сравнения респондентов, адаптивного тестирования и других целей.

Пример:

Давайте рассмотрим простой пример расчета в контексте IRT, используя двухпараметрическую логистическую модель (2PL). В этой модели вероятность правильного ответа на задание зависит от двух параметров задания — его сложности (b) и дискриминативности (a), а также от способности (θ) респондента. Формула для вероятности правильного ответа (P) в модели 2PL выглядит следующим образом:

P(θ)=1/1+e*−a(θ−b)

Предположим, у нас есть задание с параметром сложности b=−1 и дискриминативностью a=1.5. Мы хотим рассчитать вероятность правильного ответа для респондента со способностью θ=0.5.

Вставляя значения в формулу, получаем:

P(0.5)=1/1+e−*1.5(0.5−(−1))

Вероятность того, что респондент со способностью 0.5 правильно ответит на задание с параметром сложности −1 и дискриминативностью 1.5, составляет примерно 0.905 или 90.5%. Это означает, что данное задание относительно легко для респондента с таким уровнем способности.

Оценка параметров в IRT требует сложных статистических методов и программного обеспечения, способного обрабатывать большие объемы данных и выполнять комплексные расчеты.

Опубликовано 9 апреля 2024

Каждое мнение важно

IRT: анализ тестовых заданий

Что такое IRT

Для чего используется оценка IRT

Как рассчитывается метрика IRT

Похожие материалы

Iframe (inline frame)

In-depth Interviews: глубинные интервью

IQS: внутренние показатели качества

Ищут чаще всего

Анкета: виды, методы и проведение

Респондент

Experimental Research: экспериментальное исследование

SUS: юзабилити продукта

ERQ: оценка эмоциональной регуляции

Retention: удержание