Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

T-тест (критерий Стьюдента, Student's t-test)

Группа A оценила продукт на 7.2 балла, группа B — на 6.8. Разница есть. Но значима ли она? Может, это просто случайный разброс, и при другой выборке числа поменялись бы местами?

T-тест (критерий Стьюдента) — статистический инструмент, который отвечает именно на этот вопрос: реальное ли различие между двумя средними, или оно укладывается в пределы случайных колебаний.

Определение

T-тест (критерий Стьюдента, Student's t-test) — параметрический статистический критерий для проверки гипотезы о равенстве средних значений в одной или двух группах. Использует t-статистику, которая показывает, насколько наблюдаемая разница средних велика относительно вариабельности данных. По t-статистике и степеням свободы вычисляется p-value — вероятность получить такую разницу при условии, что в генеральной совокупности её нет. Применяется при малых выборках (обычно n < 30) и нормально распределённых данных.

Три вида t-теста

Однвыборочный t-тест (One-sample t-test). Проверяет, отличается ли среднее значение выборки от заданного числа. Пример: средний NPS в выборке равен 42. Отличается ли это от исторического бенчмарка 38 статистически значимо? Сравниваем одну выборку с константой.

Двухвыборочный независимый t-тест (Independent samples t-test). Сравнивает средние двух независимых групп. Пример: мужчины оценили удобство интерфейса на 7.4, женщины — на 6.9. Значимо ли различие? Группы независимы — разные люди, не связанные между собой. Самый частый вид в опросных исследованиях.

Парный t-тест (Paired t-test). Сравнивает средние у одних и тех же людей в двух условиях или в два момента времени. Пример: те же сотрудники оценили удовлетворённость до и после внедрения нового инструмента. Группы зависимы — это одни и те же респонденты. Парный тест мощнее независимого при той же выборке, потому что устраняет межличностную вариабельность.

Как работает t-тест

T-статистика вычисляется как отношение разницы средних к стандартной ошибке этой разницы:

t = (M1 - M2) / SE

Где SE (стандартная ошибка разности) учитывает разброс данных в обеих группах и размер выборки. Чем больше разница между средними и чем меньше разброс внутри групп — тем больше t. Большое t означает, что различие трудно объяснить случайностью.

По значению t и числу степеней свободы (зависит от размера выборки) определяется p-value — вероятность получить такое или более экстремальное различие, если в реальности никакой разницы нет. Стандартный порог: если p < 0.05, различие признаётся статистически значимым.

Пример: t = 2.34, степени свободы = 58, p = 0.023. Вывод: вероятность случайно получить такую разницу — 2.3%. Меньше 5% — признаём различие реальным.

T-тест vs Z-тест

T-тест и Z-тест решают похожую задачу — сравнение средних — но применяются в разных условиях.

T-тест используется, когда:

  • Выборка малая (обычно n < 30 в каждой группе)
  • Дисперсия генеральной совокупности неизвестна (в большинстве практических задач)

Z-тест используется, когда:

  • Выборка большая (n > 30)
  • Дисперсия генеральной совокупности известна

На практике при n > 30 результаты t-теста и z-теста почти совпадают. T-тест — более универсальный инструмент: он корректно работает и на малых, и на больших выборках. Поэтому его используют по умолчанию в большинстве случаев анализа опросных данных.

Пример: t-тест для сравнения двух версий онбординга

Компания тестирует два варианта онбординга. 35 пользователей прошли версию A, 35 — версию B. После онбординга каждый оценил лёгкость начала работы по шкале 1-10.

  • Версия A: среднее 6.8, стандартное отклонение 1.9
  • Версия B: среднее 7.6, стандартное отклонение 1.7

На глаз разница 0.8 балла выглядит значимой. Запускаем независимый t-тест:

  • t = 1.98, степени свободы = 68
  • p = 0.051

p = 0.051 — чуть выше порога 0.05. Формально: различие статистически незначимо. Что делать? Не спешить с выводом "нет разницы". Это пограничный результат — возможно, выборка недостаточно велика. Имеет смысл посчитать размер эффекта: если он умеренный или большой, стоит повторить тест на большей выборке перед принятием решения.

Допущения t-теста

T-тест работает корректно при соблюдении нескольких условий:

Нормальность распределения. Данные в каждой группе должны быть приблизительно нормально распределены. При n > 30 это условие становится менее критичным благодаря центральной предельной теореме. Для малых выборок нарушение нормальности — повод рассмотреть непараметрические альтернативы (тест Манна-Уитни).

Независимость наблюдений. Каждый респондент отвечает самостоятельно, не влияя на других. Нарушается, например, если члены одной семьи попали в одну группу.

Однородность дисперсий (для независимого t-теста). Разброс данных в двух группах должен быть примерно одинаковым. Проверяется тестом Левена. Если дисперсии значимо отличаются — используют вариант Уэлча (Welch's t-test), который не требует этого условия и доступен в большинстве статистических пакетов.

Типичные ошибки при интерпретации t-теста

Путать статистическую значимость с практической. p < 0.05 означает, что различие не случайное. Но не означает, что оно важное. Разница в среднем NPS на 0.3 пункта может быть статистически значимой при большой выборке — и при этом не иметь никакого практического смысла. Всегда смотрите размер эффекта (Cohen's d) вместе с p-value.

Применять t-тест к порядковым шкалам без осторожности. Формально t-тест требует числовых данных с равными интервалами. Шкала Ликерта 1-5 — порядковая. На практике исследователи часто применяют t-тест к ликертовским данным, и это допустимо при n > 30 и умеренном распределении. Но для малых выборок и выраженной асимметрии лучше использовать непараметрические тесты.

Множественные сравнения без поправки. Если вы сравниваете 10 пар групп с порогом p < 0.05, хотя бы одно значимое различие появится случайно с вероятностью ~40%. Множественные t-тесты требуют поправки Бонферрони или перехода к дисперсионному анализу (ANOVA).

Игнорировать размер выборки. При n = 10 в группе t-тест будет иметь низкую статистическую мощность: реальные различия могут не обнаружиться. Рассчитывайте нужный размер выборки заранее через минимально обнаруживаемый эффект.

T-тест в анализе опросных данных

В исследованиях на основе опросов t-тест применяется в нескольких стандартных сценариях: сравнение оценок между демографическими группами (мужчины vs женщины, новые vs опытные пользователи), сравнение результатов до и после изменения (парный тест), сравнение двух версий продукта или коммуникации в A/B-тесте.

Рассчитать t-тест и p-value можно в калькуляторе p-value WebAsk — без необходимости использовать статистические пакеты. После выгрузки данных из опроса достаточно ввести средние, стандартные отклонения и размеры групп.

T-тест — базовый инструмент проверки различий между двумя средними. Ключевые выходные показатели: t-статистика, p-value и размер эффекта. P-value показывает, случайно ли различие. Размер эффекта показывает, значимо ли оно практически. Только вместе они дают полную картину.

Частые вопросы

Когда использовать t-тест, а когда ANOVA?

T-тест сравнивает ровно две группы. Если групп три и больше — нужен ANOVA. Использовать несколько t-тестов для сравнения трёх групп попарно — ошибка: это накапливает вероятность ложноположительного результата. ANOVA проверяет все группы одновременно и корректно управляет этим риском.

Что делать, если p-value чуть выше 0.05?

Не торопитесь делать вывод "нет различий". Проверьте: достаточен ли размер выборки? Посчитайте размер эффекта — если он умеренный или большой, возможно, выборка просто мала для обнаружения реального различия. P = 0.07 при маленькой выборке и большом эффекте — это сигнал повторить исследование с большей выборкой, а не вывод об отсутствии разницы.

Можно ли применять t-тест к данным шкалы Ликерта?

Формально шкала Ликерта порядковая, и строго говоря, t-тест к ней не применим. На практике при n > 30 и симметричном распределении ответов большинство исследователей используют t-тест — это принятая норма. При малых выборках или сильной асимметрии лучше использовать непараметрический тест Манна-Уитни.

Что такое степени свободы в t-тесте?

Степени свободы (df) определяют форму t-распределения, по которому вычисляется p-value. Для независимого t-теста df ≈ n1 + n2 - 2. Чем больше выборка — тем больше df и тем точнее t-распределение приближается к нормальному. На практике не нужно считать вручную: все калькуляторы и статистические пакеты делают это автоматически.

Влияет ли порядок групп на результат t-теста?

На значение t-статистики — влияет знак (положительный или отрицательный). На p-value и вывод о значимости — нет. P-value всегда одинаковое независимо от того, группа A минус группа B или наоборот. При двустороннем тесте (стандартный вариант) проверяется наличие различия в любую сторону.

1