Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Стандартная ошибка (Standard Error, SE)

Средний NPS по выборке из 50 клиентов — 42. По выборке из 500 — тоже 42. Одинаковые числа, но доверять им в разной степени.

В первом случае среднее могло "прыгнуть" на 5-7 пунктов, возьми вы другие 50 человек. Во втором — колебание было бы в три раза меньше. Стандартная ошибка — это именно то число, которое показывает, насколько нестабильна ваша оценка из-за ограниченного размера выборки.

Определение

Стандартная ошибка (Standard Error, SE) — мера точности выборочной оценки параметра генеральной совокупности. Показывает, насколько сильно выборочное среднее колеблется от выборки к выборке при фиксированном объёме. Вычисляется как стандартное отклонение, делённое на квадратный корень из размера выборки: SE = SD / √n. Чем больше выборка и меньше разброс данных — тем меньше стандартная ошибка и точнее оценка.

Стандартная ошибка vs стандартное отклонение

Это две разные вещи, которые часто путают — даже в научных статьях.

Стандартное отклонение (SD) описывает разброс данных внутри выборки: насколько сильно отдельные ответы отличаются от среднего. Это характеристика данных, а не точности оценки. При увеличении выборки SD не уменьшается — он описывает реальную вариабельность в популяции.

Стандартная ошибка (SE) описывает точность оценки среднего: насколько близко выборочное среднее к истинному среднему генеральной совокупности. При увеличении выборки SE уменьшается — пропорционально корню из n. Удвоить точность = увеличить выборку в 4 раза.

Аналогия: SD — это разброс роста людей в городе. SE — это точность, с которой выборка из 100 человек оценивает средний рост всего города. Разброс роста не изменится, если мы опросим больше людей. Но наша оценка среднего станет точнее.

Формула и вычисление

Для среднего значения:

SE = SD / √n

Где SD — стандартное отклонение выборки, n — размер выборки.

Пример: опрос удовлетворённости, 100 респондентов, среднее 7.2, SD = 2.0.

SE = 2.0 / √100 = 2.0 / 10 = 0.2

Это значит: если бы мы повторили опрос на другой случайной выборке из 100 человек, среднее скорее всего оказалось бы в диапазоне 7.2 ± 0.2 (примерно в двух третях случаев). Увеличим выборку до 400:

SE = 2.0 / √400 = 2.0 / 20 = 0.1

В два раза точнее. За счёт четырёхкратного увеличения выборки.

Стандартная ошибка и доверительный интервал

SE — строительный блок для доверительного интервала. 95%-й доверительный интервал для среднего строится как:

CI = M ± 1.96 × SE

Где 1.96 — z-значение для 95% уровня доверия. При малых выборках (n < 30) вместо 1.96 используется t-значение из таблицы t-распределения.

Для примера выше (M = 7.2, SE = 0.2):

95% CI = 7.2 ± 1.96 × 0.2 = [6.81; 7.59]

Интерпретация: с 95% вероятностью истинное среднее в генеральной совокупности находится между 6.81 и 7.59. Это ширина интервала — 0.78 пункта — показывает, насколько неточна наша оценка. При выборке 400 интервал сузится до 0.39 пункта.

Стандартная ошибка для долей

В опросах часто нужна SE не для среднего, а для доли: "32% клиентов оценили сервис на 9-10" — насколько точна эта цифра? Для доли формула другая:

SE_p = √(p × (1-p) / n)

Где p — наблюдаемая доля, n — размер выборки.

Пример: p = 0.32, n = 200:

SE_p = √(0.32 × 0.68 / 200) = √(0.001088) ≈ 0.033

95% CI для доли: 0.32 ± 1.96 × 0.033 = [0.255; 0.385], то есть 25.5% — 38.5%.

Это важная информация: "32%" звучит точно, но реальный диапазон — от 26% до 38%. При принятии решений нужно держать в голове этот интервал, а не точечную оценку.

Пример: сравнение точности оценок в разных опросах

Компания собирает данные об удовлетворённости через три канала:

КаналnСреднееSDSE95% CI
Email-рассылка4007.42.10.105[7.19; 7.61]
Виджет на сайте807.12.30.257[6.60; 7.60]
QR в офлайн256.81.90.380[6.05; 7.55]

Средние разные: 7.4, 7.1, 6.8. Но посмотрите на доверительные интервалы: все три пересекаются. Доверительные интервалы email и QR перекрываются почти полностью. Вывод "в офлайне клиенты менее довольны" статистически не обоснован — разница укладывается в погрешность измерения. Для уверенного вывода нужно больше данных по офлайн-каналу.

Как размер выборки влияет на SE

Зависимость SE от n нелинейная — это важно понимать при планировании исследования:

  • n = 25 → SE = SD / 5
  • n = 100 → SE = SD / 10 (в 2 раза точнее, чем при n=25)
  • n = 400 → SE = SD / 20 (в 4 раза точнее, чем при n=25)
  • n = 1600 → SE = SD / 40 (в 8 раз точнее)

Каждое удвоение точности требует четырёхкратного увеличения выборки. Это закон убывающей отдачи в сборе данных: переход от n=25 к n=100 даёт большой прирост точности, а от n=900 к n=1600 — уже небольшой. Это один из аргументов для расчёта минимально необходимого размера выборки заранее — чтобы не тратить ресурсы на избыточные данные и не получить неточные оценки из-за недостаточных.

Типичные ошибки

Путать SE и SD в отчётах. "Среднее 7.2 ± 0.2" — это про что? Про разброс данных (SD) или про точность оценки (SE)? В академических публикациях это обязательно уточняется. В бизнес-отчётах часто нет. Всегда явно указывайте, что именно стоит за ±.

Не считать SE для малых подгрупп. Общая выборка 500 человек — хорошо. Но если вы анализируете подгруппу из 18 человек (например, клиентов конкретного региона), SE для этой группы будет большим, а выводы — ненадёжными. Маленькие подгруппы требуют особой осторожности при интерпретации.

Игнорировать SE при сравнении двух оценок. "В этом квартале NPS вырос с 38 до 42". Выглядит как прогресс. Но если SE обеих оценок ~4 пункта, то интервалы перекрываются и рост статистически незначим. Без SE нельзя утверждать, что изменение реальное, а не шум измерения.

SE в анализе опросных данных

Стандартная ошибка — фундаментальный показатель при интерпретации любых выборочных оценок из опросов. Средние, доли, индексы (NPS, CSI, eNPS) — все они имеют SE, которая определяет ширину доверительного интервала и минимально обнаруживаемое изменение.

При экспорте данных из WebAsk через data export вы получаете сырые ответы, на основе которых можно рассчитать SE в Excel, R или Python. Для быстрой оценки точности доли — формула SE_p в любой таблице. Для оценки точности среднего — SE = SD / √n, где SD и n есть в базовой статистике любого отчёта.

Стандартная ошибка — это погрешность вашего измерения, обусловленная конечным размером выборки. Среднее без SE — неполная информация. Две оценки нельзя сравнивать без учёта их SE: разница может быть реальной, а может — просто шумом. SE = SD / √n: больше данных — меньше ошибка, но не линейно.

Частые вопросы

Чем стандартная ошибка отличается от погрешности выборки?

Погрешность выборки (margin of error) — это половина ширины доверительного интервала, обычно для 95% уровня доверия: MOE = 1.96 × SE. Стандартная ошибка — базовая величина, погрешность выборки — её практическое выражение в виде "±X%", которое используют в публичных отчётах и СМИ.

Почему SE уменьшается при росте выборки, а SD — нет?

SD описывает реальную вариабельность в данных — она не зависит от размера выборки, потому что отражает свойство генеральной совокупности. SE описывает точность оценки среднего — чем больше выборка, тем точнее мы оцениваем истинное среднее. Это математическое следствие закона больших чисел.

Какой размер SE считается приемлемым?

Зависит от задачи. Универсальный ориентир: SE должна быть существенно меньше различий, которые вы хотите обнаружить. Если вам важно зафиксировать изменение NPS на 5 пунктов, SE оценки должна быть не более 2-3 пунктов. Если SE = 6, то изменение на 5 пунктов статистически неотличимо от шума.

Как SE связана с мощностью статистического теста?

Мощность теста (вероятность обнаружить реальный эффект) напрямую зависит от SE: чем меньше SE, тем выше мощность. Именно поэтому увеличение выборки повышает мощность — оно снижает SE и делает тест более чувствительным к реальным различиям. Расчёт нужного размера выборки через MDE фактически задаёт целевой уровень SE.

Можно ли сравнивать SE из разных исследований?

Напрямую — только если шкалы одинаковые. SE = 0.3 на шкале 1-10 и SE = 0.3 на шкале 1-100 — разные по смыслу. Для сопоставления используют относительную погрешность: SE делят на среднее или на диапазон шкалы. Это даёт безразмерный показатель, сравнимый между исследованиями.

1