Effect Size (размер эффекта)
16 апреля 2026 Время чтения ≈ 8 мин.
Вы протестировали два варианта формулировки вопроса на выборке 2000 человек. P-value = 0.001 — высокозначимо. Но разница в средних оценках — 0.1 балла из 10.
Стоит ли менять формулировку? P-value говорит "да, это не случайность". Effect size говорит "но это ничтожно мало". Без размера эффекта статистика описывает, существует ли различие. С ним — насколько оно важно.
Определение
Effect Size (размер эффекта) — стандартизированная мера величины различия или связи между переменными, независимая от размера выборки. Показывает практическую значимость результата: насколько сильно одна группа отличается от другой или насколько выражена связь между переменными. В отличие от p-value, которое зависит от объёма выборки, effect size характеризует только величину самого явления. Наиболее распространённые меры: Cohen's d (для разности средних), r Пирсона (для корреляций), eta-squared (для ANOVA).
Зачем effect size, если есть p-value
P-value и effect size отвечают на разные вопросы.
P-value отвечает: "Могло ли это различие возникнуть случайно при условии, что в реальности его нет?" При большой выборке p-value обнаружит любое, сколь угодно маленькое различие — просто потому, что данных достаточно для его фиксации. 10 000 человек в A/B-тесте покажут значимое различие в 0.05 пункта NPS.
Effect size отвечает: "Насколько велико это различие?" Он не зависит от размера выборки — одно и то же реальное различие даст одинаковый effect size при n=50 и n=5000. Это делает его сопоставимым между исследованиями.
Четыре возможных комбинации:
- Значимый p + большой эффект → различие реальное и важное
- Значимый p + малый эффект → различие реальное, но практически несущественное
- Незначимый p + большой эффект → возможно, выборка мала; стоит повторить с большим n
- Незначимый p + малый эффект → различий скорее всего нет
Только вторая строка — ловушка, в которую попадают без effect size. Огромные выборки производят значимые результаты из несущественных различий.
Cohen's d: размер эффекта для сравнения двух средних
Cohen's d — самая распространённая мера effect size при сравнении двух групп. Вычисляется как разность средних, делённая на объединённое стандартное отклонение:
d = (M1 - M2) / SD_pooled
Интерпретация по Коэну (1988), ставшая стандартом:
- d = 0.2 — малый эффект. Группы перекрываются примерно на 85%. На практике почти незаметно.
- d = 0.5 — средний эффект. Перекрытие ~67%. Заметно при внимательном наблюдении.
- d = 0.8 — большой эффект. Перекрытие ~53%. Очевидно невооружённым глазом.
Важно: пороги Коэна — ориентиры, а не жёсткие правила. В медицине эффект d = 0.2 может быть клинически значимым. В маркетинговом A/B-тесте d = 0.5 может не оправдывать затраты на изменение. Контекст задачи важнее абстрактных порогов.
Другие меры effect size
r Пирсона — для корреляционного анализа и некоторых непараметрических тестов. Диапазон от -1 до +1. Ориентиры: |r| = 0.1 — малый, 0.3 — средний, 0.5 — большой эффект.
Eta-squared (η²) — для ANOVA. Доля вариабельности зависимой переменной, объяснённая фактором. Ориентиры: 0.01 — малый, 0.06 — средний, 0.14 — большой. Omega-squared (ω²) — более точная версия, менее смещённая на малых выборках.
Odds Ratio и Risk Ratio — для категориальных данных и бинарных исходов. Часто используются в медицинских и социологических исследованиях.
Glass's delta — вариант d, когда дисперсии групп существенно различаются: нормируется только на стандартное отклонение контрольной группы, а не объединённое.
Пример: effect size в A/B-тесте формулировки CTA
Компания тестирует два варианта призыва к действию в опросе. Замеряет готовность рекомендовать (NPS-вопрос, шкала 0-10).
- Вариант A (n=500): среднее 7.2, SD 2.1
- Вариант B (n=500): среднее 7.5, SD 2.0
T-тест: t = 2.14, p = 0.033 — статистически значимо.
Cohen's d: (7.5 - 7.2) / 2.05 = 0.146 — малый эффект.
Вывод: различие реальное (не случайное), но очень маленькое. Разница 0.3 балла на десятибалльной шкале вряд ли изменит реальные бизнес-показатели. Решение о переходе на вариант B требует оценки стоимости изменения: если изменение бесплатное — можно внедрить. Если требует значительных ресурсов — скорее всего не оправдано.
Effect size и расчёт размера выборки
Effect size — ключевой входной параметр при планировании размера выборки. Перед запуском исследования нужно ответить: какой минимальный эффект практически важен для вас?
Если вас интересует только большой эффект (d ≥ 0.8) — достаточно небольшой выборки. Если хотите обнаружить малый эффект (d = 0.2) — нужна выборка в 10-15 раз больше при той же статистической мощности.
Формально это связано с концепцией MDE (минимально обнаруживаемого эффекта): вы задаёте порог практической значимости, а расчёт выборки определяет, сколько человек нужно, чтобы обнаружить эффект такой величины с заданной мощностью (обычно 80%).
Обратная ситуация — когда уже собраны данные, тест незначимый, но эффект умеренный — говорит о недостаточной выборке. Это не "результата нет", это "у нас не хватило данных, чтобы его зафиксировать".
Типичные ошибки при работе с effect size
Игнорировать effect size при значимом p-value. Именно это делает большинство исследователей-практиков. Значимый тест + не посчитанный d = незавершённый анализ. Добавить одну строку в отчёт ("Cohen's d = 0.18, малый эффект") — небольшое усилие с большой аналитической ценностью.
Механически применять пороги Коэна. "d = 0.2 — маленький, значит неважный" — упрощение. Контекст определяет интерпретацию. Небольшое улучшение конверсии при миллионной аудитории = миллионы рублей. Небольшое снижение боли у пациентов = клинически значимо. Малый эффект — не синоним неважного.
Сравнивать effect size из исследований с разными мерами. d = 0.5 и r = 0.5 — не одно и то же. Между ними есть формула пересчёта, но нельзя сравнивать напрямую. При мета-анализе все эффекты приводят к единой метрике.
Не указывать доверительный интервал для effect size. Как и любая оценка по выборке, d имеет погрешность. Доверительный интервал d = [0.12; 0.68] значительно информативнее точечной оценки d = 0.4. При малой выборке интервалы очень широкие — это важная информация о точности оценки.
Effect size в исследованиях с опросами
В опросных исследованиях effect size особенно важен при сравнении оценок между сегментами аудитории, анализе изменений показателей во времени и A/B-тестировании вопросов или форматов. Статистическая значимость без effect size — неполная картина, особенно когда выборка большая.
Для быстрой проверки значимости и расчёта базовых параметров эффекта используйте калькулятор значимости A/B-тестов WebAsk. Он рассчитывает p-value и помогает оценить, достаточна ли выборка для обнаружения нужного эффекта.
Effect size переводит статистику в практический смысл. P-value отвечает на вопрос "случайно ли это?". Effect size — "важно ли это?". Полный анализ требует обоих: значимость без размера эффекта — это как знать, что разница есть, но не знать, насколько она большая.
Частые вопросы
Чем Cohen's d отличается от разницы средних?
Разница средних зависит от шкалы измерения. Разница 2 балла на шкале 1-10 и разница 2 балла на шкале 1-100 — совершенно разные по величине эффекты. Cohen's d стандартизирует разность на стандартное отклонение, делая её сопоставимой между разными шкалами и исследованиями.
Какой effect size считается достаточным для принятия решения?
Зависит от контекста: стоимости изменения, потенциальной выгоды и базового уровня показателя. Нет универсального порога. Для быстрых бесплатных изменений даже малый эффект (d = 0.2) может оправдывать внедрение. Для дорогостоящих — требуется умеренный или большой. Определите практически значимый порог до запуска исследования, а не после.
Нужно ли считать effect size при незначимом p-value?
Да, и это особенно важно. Незначимый p + большой effect size — сигнал, что выборка мала. Незначимый p + малый effect size — свидетельство, что различий действительно нет или они пренебрежимо малы. Без effect size нельзя различить эти два принципиально разных случая.
Как посчитать Cohen's d вручную?
Вычтите одно среднее из другого, разделите на объединённое стандартное отклонение. SD_pooled = √[(SD1² + SD2²) / 2] при равных выборках. При неравных — взвешенное среднее дисперсий: √[((n1-1)·SD1² + (n2-1)·SD2²) / (n1+n2-2)]. Знак d показывает направление эффекта, модуль — его величину.
Можно ли сравнивать effect size между разными исследованиями?
Да, это одно из главных преимуществ стандартизированных мер. Именно поэтому effect size используют в мета-анализах: результаты десятков исследований приводятся к единой шкале и агрегируются. Главное условие — использовать одну и ту же меру или корректно пересчитывать между ними.
Опубликовано 16 апреля 2026
Алексей Логинов