Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Effect Size (размер эффекта)

Вы протестировали два варианта формулировки вопроса на выборке 2000 человек. P-value = 0.001 — высокозначимо. Но разница в средних оценках — 0.1 балла из 10.

Стоит ли менять формулировку? P-value говорит "да, это не случайность". Effect size говорит "но это ничтожно мало". Без размера эффекта статистика описывает, существует ли различие. С ним — насколько оно важно.

Определение

Effect Size (размер эффекта) — стандартизированная мера величины различия или связи между переменными, независимая от размера выборки. Показывает практическую значимость результата: насколько сильно одна группа отличается от другой или насколько выражена связь между переменными. В отличие от p-value, которое зависит от объёма выборки, effect size характеризует только величину самого явления. Наиболее распространённые меры: Cohen's d (для разности средних), r Пирсона (для корреляций), eta-squared (для ANOVA).

Зачем effect size, если есть p-value

P-value и effect size отвечают на разные вопросы.

P-value отвечает: "Могло ли это различие возникнуть случайно при условии, что в реальности его нет?" При большой выборке p-value обнаружит любое, сколь угодно маленькое различие — просто потому, что данных достаточно для его фиксации. 10 000 человек в A/B-тесте покажут значимое различие в 0.05 пункта NPS.

Effect size отвечает: "Насколько велико это различие?" Он не зависит от размера выборки — одно и то же реальное различие даст одинаковый effect size при n=50 и n=5000. Это делает его сопоставимым между исследованиями.

Четыре возможных комбинации:

  • Значимый p + большой эффект → различие реальное и важное
  • Значимый p + малый эффект → различие реальное, но практически несущественное
  • Незначимый p + большой эффект → возможно, выборка мала; стоит повторить с большим n
  • Незначимый p + малый эффект → различий скорее всего нет

Только вторая строка — ловушка, в которую попадают без effect size. Огромные выборки производят значимые результаты из несущественных различий.

Cohen's d: размер эффекта для сравнения двух средних

Cohen's d — самая распространённая мера effect size при сравнении двух групп. Вычисляется как разность средних, делённая на объединённое стандартное отклонение:

d = (M1 - M2) / SD_pooled

Интерпретация по Коэну (1988), ставшая стандартом:

  • d = 0.2 — малый эффект. Группы перекрываются примерно на 85%. На практике почти незаметно.
  • d = 0.5 — средний эффект. Перекрытие ~67%. Заметно при внимательном наблюдении.
  • d = 0.8 — большой эффект. Перекрытие ~53%. Очевидно невооружённым глазом.

Важно: пороги Коэна — ориентиры, а не жёсткие правила. В медицине эффект d = 0.2 может быть клинически значимым. В маркетинговом A/B-тесте d = 0.5 может не оправдывать затраты на изменение. Контекст задачи важнее абстрактных порогов.

Другие меры effect size

r Пирсона — для корреляционного анализа и некоторых непараметрических тестов. Диапазон от -1 до +1. Ориентиры: |r| = 0.1 — малый, 0.3 — средний, 0.5 — большой эффект.

Eta-squared (η²) — для ANOVA. Доля вариабельности зависимой переменной, объяснённая фактором. Ориентиры: 0.01 — малый, 0.06 — средний, 0.14 — большой. Omega-squared (ω²) — более точная версия, менее смещённая на малых выборках.

Odds Ratio и Risk Ratio — для категориальных данных и бинарных исходов. Часто используются в медицинских и социологических исследованиях.

Glass's delta — вариант d, когда дисперсии групп существенно различаются: нормируется только на стандартное отклонение контрольной группы, а не объединённое.

Пример: effect size в A/B-тесте формулировки CTA

Компания тестирует два варианта призыва к действию в опросе. Замеряет готовность рекомендовать (NPS-вопрос, шкала 0-10).

  • Вариант A (n=500): среднее 7.2, SD 2.1
  • Вариант B (n=500): среднее 7.5, SD 2.0

T-тест: t = 2.14, p = 0.033 — статистически значимо.

Cohen's d: (7.5 - 7.2) / 2.05 = 0.146 — малый эффект.

Вывод: различие реальное (не случайное), но очень маленькое. Разница 0.3 балла на десятибалльной шкале вряд ли изменит реальные бизнес-показатели. Решение о переходе на вариант B требует оценки стоимости изменения: если изменение бесплатное — можно внедрить. Если требует значительных ресурсов — скорее всего не оправдано.

Effect size и расчёт размера выборки

Effect size — ключевой входной параметр при планировании размера выборки. Перед запуском исследования нужно ответить: какой минимальный эффект практически важен для вас?

Если вас интересует только большой эффект (d ≥ 0.8) — достаточно небольшой выборки. Если хотите обнаружить малый эффект (d = 0.2) — нужна выборка в 10-15 раз больше при той же статистической мощности.

Формально это связано с концепцией MDE (минимально обнаруживаемого эффекта): вы задаёте порог практической значимости, а расчёт выборки определяет, сколько человек нужно, чтобы обнаружить эффект такой величины с заданной мощностью (обычно 80%).

Обратная ситуация — когда уже собраны данные, тест незначимый, но эффект умеренный — говорит о недостаточной выборке. Это не "результата нет", это "у нас не хватило данных, чтобы его зафиксировать".

Типичные ошибки при работе с effect size

Игнорировать effect size при значимом p-value. Именно это делает большинство исследователей-практиков. Значимый тест + не посчитанный d = незавершённый анализ. Добавить одну строку в отчёт ("Cohen's d = 0.18, малый эффект") — небольшое усилие с большой аналитической ценностью.

Механически применять пороги Коэна. "d = 0.2 — маленький, значит неважный" — упрощение. Контекст определяет интерпретацию. Небольшое улучшение конверсии при миллионной аудитории = миллионы рублей. Небольшое снижение боли у пациентов = клинически значимо. Малый эффект — не синоним неважного.

Сравнивать effect size из исследований с разными мерами. d = 0.5 и r = 0.5 — не одно и то же. Между ними есть формула пересчёта, но нельзя сравнивать напрямую. При мета-анализе все эффекты приводят к единой метрике.

Не указывать доверительный интервал для effect size. Как и любая оценка по выборке, d имеет погрешность. Доверительный интервал d = [0.12; 0.68] значительно информативнее точечной оценки d = 0.4. При малой выборке интервалы очень широкие — это важная информация о точности оценки.

Effect size в исследованиях с опросами

В опросных исследованиях effect size особенно важен при сравнении оценок между сегментами аудитории, анализе изменений показателей во времени и A/B-тестировании вопросов или форматов. Статистическая значимость без effect size — неполная картина, особенно когда выборка большая.

Для быстрой проверки значимости и расчёта базовых параметров эффекта используйте калькулятор значимости A/B-тестов WebAsk. Он рассчитывает p-value и помогает оценить, достаточна ли выборка для обнаружения нужного эффекта.

Effect size переводит статистику в практический смысл. P-value отвечает на вопрос "случайно ли это?". Effect size — "важно ли это?". Полный анализ требует обоих: значимость без размера эффекта — это как знать, что разница есть, но не знать, насколько она большая.

Частые вопросы

Чем Cohen's d отличается от разницы средних?

Разница средних зависит от шкалы измерения. Разница 2 балла на шкале 1-10 и разница 2 балла на шкале 1-100 — совершенно разные по величине эффекты. Cohen's d стандартизирует разность на стандартное отклонение, делая её сопоставимой между разными шкалами и исследованиями.

Какой effect size считается достаточным для принятия решения?

Зависит от контекста: стоимости изменения, потенциальной выгоды и базового уровня показателя. Нет универсального порога. Для быстрых бесплатных изменений даже малый эффект (d = 0.2) может оправдывать внедрение. Для дорогостоящих — требуется умеренный или большой. Определите практически значимый порог до запуска исследования, а не после.

Нужно ли считать effect size при незначимом p-value?

Да, и это особенно важно. Незначимый p + большой effect size — сигнал, что выборка мала. Незначимый p + малый effect size — свидетельство, что различий действительно нет или они пренебрежимо малы. Без effect size нельзя различить эти два принципиально разных случая.

Как посчитать Cohen's d вручную?

Вычтите одно среднее из другого, разделите на объединённое стандартное отклонение. SD_pooled = √[(SD1² + SD2²) / 2] при равных выборках. При неравных — взвешенное среднее дисперсий: √[((n1-1)·SD1² + (n2-1)·SD2²) / (n1+n2-2)]. Знак d показывает направление эффекта, модуль — его величину.

Можно ли сравнивать effect size между разными исследованиями?

Да, это одно из главных преимуществ стандартизированных мер. Именно поэтому effect size используют в мета-анализах: результаты десятков исследований приводятся к единой шкале и агрегируются. Главное условие — использовать одну и ту же меру или корректно пересчитывать между ними.

1