Test-Retest Reliability (надёжность повторного тестирования)
17 апреля 2026 Время чтения ≈ 8 мин.
Вы измерили вовлечённость сотрудников — 72 балла. Через неделю повторили тот же опрос на тех же людях — 65.
Что случилось? Может, вовлечённость реально упала. А может, инструмент просто нестабилен и каждый замер даёт случайный результат. Test-retest reliability отвечает на этот вопрос: когда одни и те же люди проходят один и тот же опрос дважды, насколько похожи результаты? Это базовая проверка того, измеряет ли ваш инструмент хоть что-то устойчивое.
Определение
Test-Retest Reliability (надёжность повторного тестирования) — свойство измерительного инструмента давать близкие результаты при повторном измерении того же признака у тех же людей через некоторый промежуток времени, при условии, что измеряемый признак не изменился. Оценивается через корреляцию между первым и вторым замером. Высокое значение означает, что инструмент измеряет стабильную характеристику, а не случайный шум.
Зачем нужна проверка test-retest
Надёжность — необходимое условие валидности. Если инструмент даёт нестабильные результаты, он не может быть валидным — даже если теоретически измеряет нужную характеристику. Как минимум три причины провести проверку:
Оценка самого инструмента. Новый опросник, индекс или шкала должны быть проверены на стабильность до массового применения. Неустойчивые результаты = нельзя принимать на их основе решения.
Выбор между инструментами. Если есть несколько альтернативных шкал для измерения одного конструкта, test-retest — один из критериев выбора. Стабильный опросник надёжнее капризного.
Интерпретация изменений во времени. Когда вы сравниваете две волны опроса и видите "снижение NPS на 5 пунктов" — нужно понимать, может ли это быть реальным изменением или просто укладывается в нестабильность измерения.
Процедура test-retest
Шаги для проведения:
1. Подобрать выборку. Рекомендуется минимум 30-50 человек, идеально 100+. Это должны быть реальные представители целевой аудитории опроса, а не абстрактные "добровольцы".
2. Провести первый замер. Стандартная процедура опроса — респонденты проходят анкету при обычных условиях.
3. Выждать интервал. Оптимальный — от 2 до 4 недель. Слишком короткий (день-два) — респонденты помнят свои ответы и воспроизводят их из памяти, а не реально отвечают заново. Слишком длинный (несколько месяцев) — измеряемая характеристика реально может измениться.
4. Провести повторный замер. Те же респонденты, та же анкета, те же условия распространения. Важно — одинаковые условия: нельзя сначала онлайн-опрос, потом телефонный.
5. Посчитать корреляцию. Между парными ответами (первый и второй замер каждого респондента). Для непрерывных шкал — коэффициент Пирсона. Для категориальных — коэффициент Спирмена или Cohen's kappa. Для сравнения средних или общих индексов — intraclass correlation coefficient (ICC).
Интерпретация коэффициентов
Пороги для test-retest reliability:
- r ≥ 0.9 — отличная надёжность. Стандарт для клинических инструментов и высокоставочных решений.
- 0.8 ≤ r < 0.9 — хорошая. Подходит для большинства прикладных опросов.
- 0.7 ≤ r < 0.8 — приемлемая. Минимум для серьёзного применения.
- r < 0.7 — низкая. Инструмент нужно дорабатывать или не использовать для принятия решений.
Пороги — ориентиры. Для длинных валидированных опросников (MBI, Big Five) ожидается 0.8+. Для короткого пульс-опроса на 3 вопроса reliability 0.7 может быть приемлемой.
Пример: проверка шкалы удовлетворённости
HR-команда разработала 8-вопросную шкалу удовлетворённости работой. Перед внедрением в ежеквартальный опрос решили проверить стабильность.
Выборка: 60 сотрудников. Первый замер в понедельник. Повторный — через 3 недели. Результаты:
- Корреляция Пирсона между суммарными баллами: r = 0.84
- По отдельным вопросам: от 0.52 до 0.91
- Вопрос "в моём офисе удобно работать": r = 0.52 — нестабилен
Вывод: общая шкала надёжна (0.84 — хорошо), но один вопрос нестабилен. Решение: переформулировать проблемный вопрос или заменить. После доработки — ещё одна проверка на новой выборке.
Что может снижать test-retest reliability
Реальные изменения измеряемой характеристики. За 3 недели между замерами могло что-то произойти: реорганизация, новый проект, смена руководителя. В этом случае низкая корреляция не говорит о плохом инструменте — она отражает реальную динамику. Учитывайте контекст между замерами.
Эффект научения или памяти. Респонденты помнят свои прошлые ответы и воспроизводят их автоматически. Искусственно завышает reliability. Противоположная крайность: респонденты стараются отвечать "иначе", чтобы не повторяться — занижает корреляцию. Оба эффекта смягчаются интервалом 2-4 недели.
Невнимательность или усталость. Если респондент проходил первый опрос вдумчиво, а второй — "лишь бы закрыть", результаты разойдутся. Контроль: оценивать время прохождения, исключать speeders и невнимательных.
Нестабильность условий замера. Первый замер утром, второй — вечером в пятницу. Первый в спокойной обстановке, второй — на бегу. Условия должны быть сопоставимы.
Слишком общие или абстрактные формулировки. Вопросы типа "насколько вы в целом довольны жизнью?" дают менее стабильные ответы, чем конкретные поведенческие индикаторы. Общие самооценки легче колеблются от настроения.
Test-retest vs другие виды надёжности
Test-retest — один из нескольких типов надёжности. Полная картина включает:
- Test-retest reliability — стабильность во времени
- Internal consistency (Cronbach's alpha) — согласованность между пунктами одной шкалы
- Inter-rater reliability — согласованность оценок разных оценщиков
- Parallel forms reliability — согласованность между двумя эквивалентными версиями опросника
Эти виды надёжности проверяют разные аспекты. Высокая альфа не гарантирует высокий test-retest (шкала может быть согласованной, но нестабильной во времени) и наоборот. Для валидации инструмента желательно проверять несколько видов.
Типичные ошибки при проверке
Слишком короткий интервал. Провести повторный замер через 2 дня — получить искусственно завышенную корреляцию за счёт памяти. Минимум — 2 недели.
Разные условия замеров. Первый раз — в рамках общего опроса компании, второй — только для "теста". Разный контекст, мотивация, внимание. Условия должны быть максимально одинаковыми.
Слишком малая выборка. Корреляция на 15 человек имеет широкий доверительный интервал — показатель может быть как 0.5, так и 0.9. Для точной оценки — минимум 30-50, лучше 100+.
Смешивать с реальными изменениями. Если между замерами произошло что-то значимое (изменение в компании, внешние события), низкая корреляция может отражать реальную динамику, а не проблему инструмента. Документируйте контекст.
Test-retest в практике опросов
Для прикладных задач полноценная проверка test-retest проводится один раз при пилотировании нового опросника. Затем инструмент используется без повторной проверки — предполагается, что его надёжность установлена.
Исключения — при существенном изменении популяции (новая страна, новая индустрия) или переводе опросника на другой язык. В этих случаях надёжность нужно проверять заново: что работало на американских студентах, может не работать на российских рабочих.
При планировании опросника в WebAsk: если вы разрабатываете новую шкалу — обязательно включите этап проверки на небольшой выборке. Через пилотное исследование можно одновременно проверить test-retest, внутреннюю согласованность и понятность формулировок. Для Likert-шкал и индексов это особенно важно — именно они чаще всего оказываются нестабильными без проверки.
Test-retest reliability — это проверка того, измеряет ли ваш инструмент что-то стабильное, а не случайный шум. Процедура: повторить опрос на тех же людях через 2-4 недели, посчитать корреляцию. Выше 0.7 — приемлемо, выше 0.8 — хорошо. Без этой проверки любые сравнения волн опроса рискованы: изменения могут оказаться артефактом инструмента.
Частые вопросы
Какой интервал между замерами выбрать?
Оптимально 2-4 недели. Короче — эффект памяти завышает корреляцию. Длиннее — измеряемая характеристика может реально измениться. Для динамичных характеристик (настроение, усталость) интервал должен быть короче; для устойчивых (личностные черты) — может быть больше, до 2-3 месяцев.
Можно ли проводить повторный замер на другой выборке?
Нет — это уже не test-retest, а проверка согласованности между разными выборками (parallel samples). Для классической test-retest нужны ОДНИ И ТЕ ЖЕ люди в оба замера. Иначе невозможно корректно посчитать корреляцию между парными ответами.
Что делать, если test-retest reliability низкая?
Проанализировать: это проблема конкретных вопросов или всей шкалы? Если отдельных вопросов — переформулировать или заменить. Если всей шкалы — возможно, инструмент измеряет слишком переменную характеристику (настроение дня, а не устойчивую черту). Также проверьте: не изменилось ли что-то в контексте между замерами.
Какой коэффициент использовать для разных типов данных?
Для непрерывных числовых шкал (баллы, оценки) — коэффициент Пирсона или ICC. Для порядковых (ранги, категории) — Спирмен. Для номинальных (категории без порядка, например, "выбранный вариант ответа") — Cohen's kappa или проценты согласия. ICC — наиболее универсальный выбор, подходит для большинства случаев.
Нужно ли проверять test-retest для известных валидированных шкал?
Для стандартных валидированных шкал (NPS, CSAT, MBI) в их оригинальной форме и на сопоставимой аудитории — обычно нет. Но при существенной адаптации (перевод, изменение формулировок, новая культурная среда) — проверку стоит провести, даже если базовая шкала известна. Валидация не переносится автоматически между контекстами.
Опубликовано 17 апреля 2026
Алексей Логинов