Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Test-Retest Reliability (надёжность повторного тестирования)

Вы измерили вовлечённость сотрудников — 72 балла. Через неделю повторили тот же опрос на тех же людях — 65.

Что случилось? Может, вовлечённость реально упала. А может, инструмент просто нестабилен и каждый замер даёт случайный результат. Test-retest reliability отвечает на этот вопрос: когда одни и те же люди проходят один и тот же опрос дважды, насколько похожи результаты? Это базовая проверка того, измеряет ли ваш инструмент хоть что-то устойчивое.

Определение

Test-Retest Reliability (надёжность повторного тестирования) — свойство измерительного инструмента давать близкие результаты при повторном измерении того же признака у тех же людей через некоторый промежуток времени, при условии, что измеряемый признак не изменился. Оценивается через корреляцию между первым и вторым замером. Высокое значение означает, что инструмент измеряет стабильную характеристику, а не случайный шум.

Зачем нужна проверка test-retest

Надёжность — необходимое условие валидности. Если инструмент даёт нестабильные результаты, он не может быть валидным — даже если теоретически измеряет нужную характеристику. Как минимум три причины провести проверку:

Оценка самого инструмента. Новый опросник, индекс или шкала должны быть проверены на стабильность до массового применения. Неустойчивые результаты = нельзя принимать на их основе решения.

Выбор между инструментами. Если есть несколько альтернативных шкал для измерения одного конструкта, test-retest — один из критериев выбора. Стабильный опросник надёжнее капризного.

Интерпретация изменений во времени. Когда вы сравниваете две волны опроса и видите "снижение NPS на 5 пунктов" — нужно понимать, может ли это быть реальным изменением или просто укладывается в нестабильность измерения.

Процедура test-retest

Шаги для проведения:

1. Подобрать выборку. Рекомендуется минимум 30-50 человек, идеально 100+. Это должны быть реальные представители целевой аудитории опроса, а не абстрактные "добровольцы".

2. Провести первый замер. Стандартная процедура опроса — респонденты проходят анкету при обычных условиях.

3. Выждать интервал. Оптимальный — от 2 до 4 недель. Слишком короткий (день-два) — респонденты помнят свои ответы и воспроизводят их из памяти, а не реально отвечают заново. Слишком длинный (несколько месяцев) — измеряемая характеристика реально может измениться.

4. Провести повторный замер. Те же респонденты, та же анкета, те же условия распространения. Важно — одинаковые условия: нельзя сначала онлайн-опрос, потом телефонный.

5. Посчитать корреляцию. Между парными ответами (первый и второй замер каждого респондента). Для непрерывных шкал — коэффициент Пирсона. Для категориальных — коэффициент Спирмена или Cohen's kappa. Для сравнения средних или общих индексов — intraclass correlation coefficient (ICC).

Интерпретация коэффициентов

Пороги для test-retest reliability:

  • r ≥ 0.9 — отличная надёжность. Стандарт для клинических инструментов и высокоставочных решений.
  • 0.8 ≤ r < 0.9 — хорошая. Подходит для большинства прикладных опросов.
  • 0.7 ≤ r < 0.8 — приемлемая. Минимум для серьёзного применения.
  • r < 0.7 — низкая. Инструмент нужно дорабатывать или не использовать для принятия решений.

Пороги — ориентиры. Для длинных валидированных опросников (MBI, Big Five) ожидается 0.8+. Для короткого пульс-опроса на 3 вопроса reliability 0.7 может быть приемлемой.

Пример: проверка шкалы удовлетворённости

HR-команда разработала 8-вопросную шкалу удовлетворённости работой. Перед внедрением в ежеквартальный опрос решили проверить стабильность.

Выборка: 60 сотрудников. Первый замер в понедельник. Повторный — через 3 недели. Результаты:

  • Корреляция Пирсона между суммарными баллами: r = 0.84
  • По отдельным вопросам: от 0.52 до 0.91
  • Вопрос "в моём офисе удобно работать": r = 0.52 — нестабилен

Вывод: общая шкала надёжна (0.84 — хорошо), но один вопрос нестабилен. Решение: переформулировать проблемный вопрос или заменить. После доработки — ещё одна проверка на новой выборке.

Что может снижать test-retest reliability

Реальные изменения измеряемой характеристики. За 3 недели между замерами могло что-то произойти: реорганизация, новый проект, смена руководителя. В этом случае низкая корреляция не говорит о плохом инструменте — она отражает реальную динамику. Учитывайте контекст между замерами.

Эффект научения или памяти. Респонденты помнят свои прошлые ответы и воспроизводят их автоматически. Искусственно завышает reliability. Противоположная крайность: респонденты стараются отвечать "иначе", чтобы не повторяться — занижает корреляцию. Оба эффекта смягчаются интервалом 2-4 недели.

Невнимательность или усталость. Если респондент проходил первый опрос вдумчиво, а второй — "лишь бы закрыть", результаты разойдутся. Контроль: оценивать время прохождения, исключать speeders и невнимательных.

Нестабильность условий замера. Первый замер утром, второй — вечером в пятницу. Первый в спокойной обстановке, второй — на бегу. Условия должны быть сопоставимы.

Слишком общие или абстрактные формулировки. Вопросы типа "насколько вы в целом довольны жизнью?" дают менее стабильные ответы, чем конкретные поведенческие индикаторы. Общие самооценки легче колеблются от настроения.

Test-retest vs другие виды надёжности

Test-retest — один из нескольких типов надёжности. Полная картина включает:

  • Test-retest reliability — стабильность во времени
  • Internal consistency (Cronbach's alpha) — согласованность между пунктами одной шкалы
  • Inter-rater reliability — согласованность оценок разных оценщиков
  • Parallel forms reliability — согласованность между двумя эквивалентными версиями опросника

Эти виды надёжности проверяют разные аспекты. Высокая альфа не гарантирует высокий test-retest (шкала может быть согласованной, но нестабильной во времени) и наоборот. Для валидации инструмента желательно проверять несколько видов.

Типичные ошибки при проверке

Слишком короткий интервал. Провести повторный замер через 2 дня — получить искусственно завышенную корреляцию за счёт памяти. Минимум — 2 недели.

Разные условия замеров. Первый раз — в рамках общего опроса компании, второй — только для "теста". Разный контекст, мотивация, внимание. Условия должны быть максимально одинаковыми.

Слишком малая выборка. Корреляция на 15 человек имеет широкий доверительный интервал — показатель может быть как 0.5, так и 0.9. Для точной оценки — минимум 30-50, лучше 100+.

Смешивать с реальными изменениями. Если между замерами произошло что-то значимое (изменение в компании, внешние события), низкая корреляция может отражать реальную динамику, а не проблему инструмента. Документируйте контекст.

Test-retest в практике опросов

Для прикладных задач полноценная проверка test-retest проводится один раз при пилотировании нового опросника. Затем инструмент используется без повторной проверки — предполагается, что его надёжность установлена.

Исключения — при существенном изменении популяции (новая страна, новая индустрия) или переводе опросника на другой язык. В этих случаях надёжность нужно проверять заново: что работало на американских студентах, может не работать на российских рабочих.

При планировании опросника в WebAsk: если вы разрабатываете новую шкалу — обязательно включите этап проверки на небольшой выборке. Через пилотное исследование можно одновременно проверить test-retest, внутреннюю согласованность и понятность формулировок. Для Likert-шкал и индексов это особенно важно — именно они чаще всего оказываются нестабильными без проверки.

Test-retest reliability — это проверка того, измеряет ли ваш инструмент что-то стабильное, а не случайный шум. Процедура: повторить опрос на тех же людях через 2-4 недели, посчитать корреляцию. Выше 0.7 — приемлемо, выше 0.8 — хорошо. Без этой проверки любые сравнения волн опроса рискованы: изменения могут оказаться артефактом инструмента.

Частые вопросы

Какой интервал между замерами выбрать?

Оптимально 2-4 недели. Короче — эффект памяти завышает корреляцию. Длиннее — измеряемая характеристика может реально измениться. Для динамичных характеристик (настроение, усталость) интервал должен быть короче; для устойчивых (личностные черты) — может быть больше, до 2-3 месяцев.

Можно ли проводить повторный замер на другой выборке?

Нет — это уже не test-retest, а проверка согласованности между разными выборками (parallel samples). Для классической test-retest нужны ОДНИ И ТЕ ЖЕ люди в оба замера. Иначе невозможно корректно посчитать корреляцию между парными ответами.

Что делать, если test-retest reliability низкая?

Проанализировать: это проблема конкретных вопросов или всей шкалы? Если отдельных вопросов — переформулировать или заменить. Если всей шкалы — возможно, инструмент измеряет слишком переменную характеристику (настроение дня, а не устойчивую черту). Также проверьте: не изменилось ли что-то в контексте между замерами.

Какой коэффициент использовать для разных типов данных?

Для непрерывных числовых шкал (баллы, оценки) — коэффициент Пирсона или ICC. Для порядковых (ранги, категории) — Спирмен. Для номинальных (категории без порядка, например, "выбранный вариант ответа") — Cohen's kappa или проценты согласия. ICC — наиболее универсальный выбор, подходит для большинства случаев.

Нужно ли проверять test-retest для известных валидированных шкал?

Для стандартных валидированных шкал (NPS, CSAT, MBI) в их оригинальной форме и на сопоставимой аудитории — обычно нет. Но при существенной адаптации (перевод, изменение формулировок, новая культурная среда) — проверку стоит провести, даже если базовая шкала известна. Валидация не переносится автоматически между контекстами.

1