Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Проверка гипотез (Hypothesis Testing)

Вы поменяли формулировку вопроса в опросе - и response rate вырос с 23% до 27%. Это реальное улучшение или просто удача выборки?

Перефразировали кнопку на лендинге - конверсия выросла на 2 процентных пункта. Это сигнал или шум? Проверка гипотез - статистический инструмент, который позволяет ответить на этот вопрос не "кажется да", а с конкретным уровнем уверенности.

Определение

Проверка гипотез (Hypothesis Testing) - статистическая процедура, позволяющая принять или отклонить предположение о генеральной совокупности на основе данных выборки. Процедура формализует вопрос "случайно это или нет?" через нулевую гипотезу (H0), альтернативную гипотезу (H1), уровень значимости и p-value. Если p-value ниже выбранного порога значимости - нулевая гипотеза отклоняется.

Нулевая и альтернативная гипотезы

Любая проверка начинается с формулировки двух гипотез. Нулевая гипотеза (H0) - предположение об отсутствии эффекта или различия. "Новая формулировка вопроса не влияет на response rate", "Между группами нет разницы в удовлетворённости". H0 - это то, что статистика пытается опровергнуть.

Альтернативная гипотеза (H1) - предположение о наличии эффекта. "Новая формулировка повышает response rate", "Группа A более удовлетворена, чем группа B". H1 принимается, если данные дают достаточно свидетельств против H0.

Важный нюанс: статистика никогда не "доказывает" H1. Она лишь показывает, насколько маловероятны наблюдаемые данные при условии, что H0 верна. Чем меньше эта вероятность - тем сильнее основания отклонить H0.

P-value и уровень значимости

P-value - вероятность получить результат не менее экстремальный, чем наблюдаемый, если нулевая гипотеза верна. Если p = 0.03, это значит: если бы H0 была верна (никакого эффекта нет), такой результат или более экстремальный возник бы лишь в 3% случаев.

Уровень значимости (α) - заранее выбранный порог, ниже которого p-value считается достаточным основанием отклонить H0. Стандарт в большинстве исследований - α = 0.05 (5%). В медицине и науке - 0.01 или 0.001. В бизнес-аналитике иногда используют 0.1 для быстрых решений.

Порог выбирается до сбора данных, не после. Подбирать α под уже полученный результат - это p-hacking, форма манипуляции данными, которая даёт ложноположительные выводы.

Ошибки I и II рода

Два типа ошибок неизбежны в любой статистической проверке:

Ошибка I рода (ложноположительная) - отклонить H0, когда она на самом деле верна. "Нашли эффект там, где его нет". Вероятность этой ошибки равна α. При α = 0.05 в среднем каждый 20-й значимый результат - случайный.

Ошибка II рода (ложноотрицательная) - не отклонить H0, когда она ложна. "Пропустили реальный эффект". Вероятность этой ошибки - β, а 1 - β называется статистической мощностью теста. Чем больше выборка - тем ниже β и тем выше шанс обнаружить реальный эффект. Подробнее о связи с размером выборки - в статье про размер выборки.

В практике исследований опросов ошибка II рода часто опаснее: при маленькой выборке реальный эффект теряется в шуме, и компания делает вывод "улучшений нет", хотя они есть.

Как формулировать гипотезы в исследованиях опросов

Хорошая гипотеза конкретна, проверяема и сформулирована до сбора данных. Несколько примеров из практики опросов:

  • Сравнение групп: "Удовлетворённость клиентов, использующих онлайн-чат, выше, чем у тех, кто обращается по телефону" - проверяется через сравнение средних баллов двух групп.
  • Связь переменных: "Частота использования продукта положительно коррелирует с NPS" - проверяется через корреляционный анализ.
  • Изменение во времени: "После обновления интерфейса completion rate вырос" - проверяется сравнением показателей до и после.

Плохая гипотеза: "Пользователи в целом довольны продуктом". Это не гипотеза, а предположение без точного критерия. Чтобы превратить её в проверяемую: "Средний балл удовлетворённости превышает 4 из 5 в целевом сегменте".

Какой статистический тест выбрать

Тест выбирается в зависимости от типа данных и структуры сравнения. Для исследований опросов чаще всего нужны три сценария:

Сравнение двух групп по средним. Например, средний балл удовлетворённости у клиентов A vs B. Используется t-тест для независимых выборок. Условие: данные примерно нормально распределены или выборка достаточно большая (n > 30). Если сравниваются ответы одних и тех же людей до и после - парный t-тест.

Сравнение трёх и более групп. Три региона, четыре сегмента, пять продуктов. Здесь t-тест не подходит - он не рассчитан на множественное сравнение. Используется ANOVA (дисперсионный анализ). Если ANOVA показывает значимый результат, дополнительные тесты post-hoc (например, Tukey) определяют, между какими именно парами есть различия.

Сравнение долей. "Процент довольных клиентов в группе A vs группе B" или "Доля завершивших опрос по двум версиям формы". Используется z-тест для долей или критерий хи-квадрат. Хи-квадрат также подходит для проверки независимости двух категориальных переменных - например, связана ли должность респондента с уровнем вовлечённости.

Непараметрические тесты. Когда данные не нормально распределены и выборка небольшая - используют непараметрические аналоги: тест Манна-Уитни вместо t-теста, тест Краскела-Уоллиса вместо ANOVA. Они работают с рангами, а не значениями, и менее чувствительны к выбросам - что важно для шкальных вопросов с 5-7 градациями.

Анализ мощности: планирование до сбора данных

Мощность теста (1 - β) - вероятность обнаружить эффект, если он реально существует. Стандартный целевой уровень - 80%. Это значит: при реально существующем эффекте тест пропустит его в 20% случаев.

Мощность зависит от четырёх параметров: размера выборки, уровня значимости α, ожидаемого размера эффекта и дисперсии данных. Анализ мощности позволяет рассчитать нужный объём выборки до начала исследования - чтобы при заданном α и ожидаемом эффекте тест имел достаточную мощность.

Практический пример: ожидаете, что новый онбординг поднимет NPS в среднем на 5 пунктов. Стандартное отклонение NPS в вашей базе - около 20 пунктов. При α = 0.05 и мощности 80% нужно около 250 человек в каждой группе. Если набрать по 50 - мощность упадёт до 30%, и реальный эффект в 70% случаев останется незамеченным. Калькулятор размера выборки доступен на webask.io/tools.

Проверка гипотез в A/B-тестировании

A/B-тестирование - один из наиболее частых сценариев применения проверки гипотез. Две версии (контрольная и экспериментальная) показываются случайным группам, затем сравнивается целевая метрика. H0: "Между версиями нет разницы". H1: "Версия B лучше версии A".

Критичные условия корректного A/B-теста: случайное распределение по группам, достаточный размер каждой группы, заранее определённый период теста и единственная изменённая переменная. Остановить тест в момент, когда p-value впервые упало ниже 0.05, - распространённая ошибка: это увеличивает вероятность ошибки I рода. Тест должен идти до заранее рассчитанного объёма.

Пример: проверка гипотезы в опросе NPS

Компания перешла на новый онбординг. Гипотеза: "NPS пользователей, прошедших новый онбординг, выше, чем у прошедших старый". До изменения измеряли NPS на 300 пользователях - средний балл 32. После - 400 пользователей, средний балл 38. Разница 6 пунктов выглядит значимой. Но это случайность или реальный эффект?

Запускают t-тест для независимых выборок. P-value = 0.04, уровень значимости α = 0.05. P-value ниже порога - H0 отклоняется. Вывод: разница статистически значима, новый онбординг ассоциирован с более высоким NPS. Доверительный интервал для разницы: от +1.2 до +10.8 пунктов с вероятностью 95%.

Если бы выборка была по 50 человек - p-value при той же разнице могло быть 0.3, и вывод был бы "эффект не обнаружен". Не потому что его нет, а потому что маленькая выборка не дала достаточной мощности.

Односторонние и двусторонние тесты

При формулировке H1 важно определить направление проверки. Двусторонний тест проверяет любое отличие от H0: "группы различаются" (неважно в какую сторону). Односторонний - конкретное направление: "группа A лучше группы B". Односторонний тест мощнее при правильном направлении гипотезы, но если эффект окажется в другую сторону - тест его не поймает. По умолчанию используют двусторонний - он консервативнее и честнее.

Типичные ошибки при проверке гипотез

Формулировать гипотезы после просмотра данных. HARKing (Hypothesizing After Results are Known) - когда гипотеза подгоняется под уже найденный паттерн. Результат выглядит значимым, но фактически не проверен.

Путать статистическую и практическую значимость. При большой выборке даже крошечный эффект будет статистически значимым. Разница в NPS на 0.3 пункта с p = 0.001 - статистически значима, но практически бессмысленна. Всегда смотрите на размер эффекта, не только на p-value.

Множественное сравнение без поправки. Если проверять 20 гипотез при α = 0.05, одна окажется "значимой" случайно. При массовых проверках нужна поправка (Бонферрони или FDR) - иначе количество ложноположительных результатов растёт пропорционально числу тестов.

Инструменты и WebAsk

Для расчётов WebAsk предоставляет набор статистических калькуляторов: калькулятор p-value, калькулятор значимости для A/B, калькулятор размера выборки. Перед запуском опроса полезно рассчитать необходимый объём - чтобы тест имел достаточную мощность для обнаружения ожидаемого эффекта.

Сформулировать гипотезу на старте исследования помогает инструмент генератор гипотез на базе ИИ. Данные для проверки собираются через опросы с чётко определёнными метриками - ещё на этапе планирования исследования важно определить, какая именно переменная будет проверяться.

Проверка гипотез - это формальный способ отличить сигнал от шума. H0 формулируется до сбора данных, p-value сравнивается с заранее выбранным α, размер эффекта оценивается отдельно от статистической значимости. Без этого "значимые" результаты нередко оказываются случайными совпадениями.

1