Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Размер выборки и доверительный интервал для опросов

Полезные статьи
Размер выборки и доверительный интервал для опросов

Допустим, вы провели опрос, собрали 60 ответов и теперь уверенно пишете в отчёте: «82% клиентов довольны нашим сервисом». Выглядит убедительно. Но если завтра опросить другую случайную группу из тех же 60 человек — результат вполне может оказаться 71% или 91%. И оба числа будут «правильными» с точки зрения статистики.

Проблема не в том, как вы считали проценты. Проблема в том, что выборка была слишком маленькой, чтобы доверять числу на выходе.

Именно для этого и существуют понятия размера выборки и доверительного интервала. Это не академическая абстракция — это практический ответ на вопрос: «Сколько анкет нужно собрать, чтобы результат был надёжным?»

Ниже разберёмся со всем по порядку. А если вам нужно просто быстро получить число — сразу переходите к калькулятору размера выборки.

Что такое доверительный интервал и зачем он нужен

Когда вы опрашиваете часть аудитории (выборку), а не всю её целиком (генеральную совокупность), вы получаете приближённое значение. Оно всегда немного отличается от «настоящего» показателя по всей аудитории — вопрос только в том, насколько сильно.

Доверительный интервал (ДИ) — это диапазон значений, в котором с заданной вероятностью находится истинный показатель по всей генеральной совокупности. Если по-простому: это «коридор погрешности» вашего исследования.

Разберём на живом примере. Вы замерили NPS (Net Promoter Score) и получили значение 42. Рядом написано: «±5 при уровне доверия 95%». Это означает: если бы вы повторили этот опрос 100 раз на разных случайных выборках из той же аудитории — примерно в 95 случаях из 100 полученный NPS попал бы в диапазон 37–47. Где-то в этом коридоре и «живёт» истинное значение.

30 35 40 45 50 55 37 47 погрешность ±5 NPS = 42
Голубая зона — диапазон, в котором с вероятностью 95% находится истинный NPS всей аудитории

Три параметра, от которых зависит всё остальное:

  • Уровень доверия — насколько сильно вы хотите быть уверены в результате. Стандарт — 95%, то есть вероятность ошибки составляет 5%. В медицине или финансах часто используют 99%. Для быстрых, менее критичных замеров иногда достаточно 90%.
  • Допустимая погрешность (margin of error) — с какой точностью нужен результат. Погрешность ±5% означает: реальный показатель может отличаться от полученного не более чем на 5 процентных пунктов в любую сторону. Для маркетинговых опросов ±5% — общепринятый стандарт.
  • Ожидаемая доля (p) — примерный процент тех, кто ответит «да» (поставит высокую оценку, выберет вариант A и т.п.). Если не знаете — берите 0,5 (50%). Это самый консервативный вариант, он даёт максимальный объём выборки.

Чем выше уровень доверия и чем меньше допустимая погрешность — тем больше нужна выборка. Это, если сильно сократить :)

Формула расчёта размера выборки

Для долей и процентов — NPS, CSAT, доля довольных

Это самый распространённый случай: вы хотите знать, какой процент клиентов доволен, готов рекомендовать или собирается уйти.

n = (z² × p × (1 − p)) / e²

Где:

  • n — нужный объём выборки (количество заполненных анкет);
  • z — z-коэффициент для выбранного уровня доверия: 90% → 1,645; 95% → 1,96; 99% → 2,576;
  • p — ожидаемая доля: 50% → 0,5; 30% → 0,3 и т.д.;
  • e — допустимая погрешность: ±5% → 0,05; ±3% → 0,03.

Стандартный расчёт: уровень доверия 95%, погрешность ±5%, доля неизвестна

n = (1,96² × 0,5 × 0,5) / 0,05²
n = (3,8416 × 0,25) / 0,0025
n = 0,9604 / 0,0025
n ≈ 384

Итого: нужно минимум 384 заполненных анкеты. Это «стандарт» для большинства маркетинговых опросов с неизвестной долей.

Если примерная доля известна — выборка меньше

Если по прошлым данным вы знаете, что промоутеров у вас около 30% (p = 0,3), погрешность ±5%, уровень доверия 95%:

n = (1,96² × 0,3 × 0,7) / 0,05²
n = (3,8416 × 0,21) / 0,0025
n ≈ 323

Уже 323 ответа — на 16% меньше. Исторические данные позволяют экономить ресурсы.

Для оценки среднего балла — CES, средняя оценка по шкале

Если вы измеряете не долю, а среднее значение по шкале (например, средний CES по шкале 1–7 или средний балл удовлетворённости 1–10), формула другая:

n = (z × σ / e)²

Здесь σ — стандартное отклонение. Если не знаете его заранее, используйте консервативную оценку: четверть диапазона шкалы. Для шкалы 1–10 это σ ≈ 2,25.

Пример: шкала 1–10, σ = 2,25, уровень доверия 95%, погрешность ±0,5 балла:

n = (1,96 × 2,25 / 0,5)² = (8,82)² ≈ 78

Достаточно 78 ответов. Оценка среднего требует значительно меньших выборок, чем оценка доли — это важно учитывать при планировании.

Готовая таблица размеров выборки

Все значения рассчитаны для неизвестной доли (p = 0,5) — максимально консервативный случай.

Уровень доверия Погрешность ±3% Погрешность ±5% Погрешность ±7% Погрешность ±10%
90% 752 271 138 68
95% 1 068 384 196 97
99% 1 849 666 340 166

Обратите внимание: переход от погрешности ±5% к ±3% почти утраивает нужный объём выборки (с 384 до 1 068 ответов). Это один из самых дорогих «апгрейдов» точности. Стоит ли он того — зависит от ставок: если на основе результатов принимается стратегическое решение с большим бюджетом — да. Если это регулярный пульс-замер — нет.

Нижний правый угол таблицы: 68 ответов при уровне доверия 90% и погрешности ±10%. Это минимальный порог для быстрой проверки гипотезы, когда вам нужна не точность, а направление.

Чем выше точность — тем больше нужна выборка (уровень доверия 95%) ±10% 97 ответов ±5% 384 ответа ±3% 1 068 ответов
Переход от ±5% к ±3% почти утраивает нужный объём — с 384 до 1 068 ответов

Погрешность уже собранных данных можно проверить в калькуляторе погрешности выборки.

Поправка для небольшой аудитории

Все цифры из таблицы выше рассчитаны для большой или бесконечной аудитории. Но что если вы опрашиваете сотрудников компании в 400 человек, или клиентов нишевого сервиса, которых всего 800?

В таких случаях стандартная формула завышает нужный объём. Применяется поправка на конечность генеральной совокупности:

n_скорр = n₀ / (1 + (n₀ − 1) / N)

Где n₀ — размер выборки по стандартной формуле, N — общий размер вашей аудитории.

Пример: компания опрашивает сотрудников, всего их N = 500. По стандарту нужно n₀ = 384:

n_скорр = 384 / (1 + 383 / 500) = 384 / 1,766 ≈ 218

Достаточно 218 анкет — на 43% меньше «стандарта». Это математически обоснованная экономия, а не срезание углов.

Размер аудитории (N) Нужно ответов Охват аудитории
1008080%
20013266%
50021844%
1 00027828%
2 00032316%
5 0003577%
10 000+≈ 384<4%

Начиная примерно с N = 10 000, поправка уже почти не работает. А вот для аудиторий до 2 000 человек она даёт очень ощутимую экономию ресурсов — что особенно актуально для опросов сотрудников в средних компаниях.

Практический пример: NPS-опрос в e-commerce

Задача. Интернет-магазин хочет замерить NPS среди покупателей за последние 3 месяца. База таких покупателей — 8 400 человек. Нужна точность ±5% при уровне доверия 95%. Дополнительно — хотим сравнивать NPS по трём каналам: веб-сайт, мобильное приложение, маркетплейс.

Шаг 1. Считаем базовый объём

N = 8 400 — аудитория достаточно большая, поправка на конечность даст минимальный эффект. По стандарту: n = 384 ответа.

Шаг 2. Учитываем response rate

Ожидаемый отклик на email-опрос в e-commerce — около 10–15%. При отклике 12% нужно разослать:

384 / 0,12 ≈ 3 200 писем

Из 8 400 покупателей достаточно охватить 3 200 — это 38% базы. Вполне реалистично.

Шаг 3. Планируем выборку для сегментов

Вот ловушка, в которую попадают чаще всего: «у нас 384 ответа, разделим на 3 канала — получим по 128». Но 128 ответов — это уже погрешность ±8,7% для каждого канала. Сравнивать NPS между каналами с такой точностью практически бессмысленно.

Правильный подход: планировать объём для каждого сегмента отдельно. Если у каждого канала будет не менее 200–270 ответов — сравнение станет статистически обоснованным. Итого: около 800–900 заполненных анкет по всем каналам.

Шаг 4. Интерпретируем результат

Допустим, в итоге собрано 410 ответов. NPS составил 38. Как правильно сформулировать в отчёте?

«NPS = 38 (доверительный интервал: 33–43, уровень доверия 95%)». Это честная и корректная формулировка. Она говорит: с вероятностью 95% истинный NPS вашей аудитории лежит где-то между 33 и 43.

Типичные ошибки при работе с выборкой

«Нам надо охватить хотя бы 1% базы»

Один из самых устойчивых мифов. При аудитории больше 50 000 человек её размер почти не влияет на нужный объём выборки. 384 ответа дают точность ±5% как для 100 000 клиентов, так и для 10 миллионов — потому что важно абсолютное число ответов, а не доля охвата.

Одна выборка на несколько сегментов

384 ответа отлично работают для одного общего показателя. Но если вы хотите сравнивать подгруппы — нужный объём рассчитывается для каждой из них отдельно. Иначе погрешность внутри сегментов делает сравнение ненадёжным.

Путаница между response rate и точностью

Низкий response rate — это не проблема точности (при условии, что итоговое n достаточно), а потенциальная проблема смещения: если отвечают только самые лояльные или только самые недовольные — результат будет искажённым вне зависимости от размера выборки. Никакая формула это не исправит. Подробнее о смещениях — в статье «Искажение ответов в опросах».

Игнорирование поправки на малую аудиторию

Если вы опрашиваете 500 сотрудников по стандартной формуле и ждёте 384 ответа — вы просите 77% компании заполнить анкету. Правильный объём — 218. Применяйте поправку всегда, когда аудитория меньше 5 000 человек.

«Мы уверены на 95%, что истинное значение равно X»

Строго говоря, неточная формулировка. Доверительный интервал — это свойство метода: при многократном повторении исследования 95% из построенных интервалов накрывают истинное значение. Ваш конкретный интервал либо накрывает его, либо нет — просто неизвестно. Но для бизнес-отчётов такая формулировка вполне рабочая, если вы сами понимаете, что за ней стоит.

Как рассчитать и контролировать выборку в WebAsk

В WebAsk можно задать лимит ответов — опрос автоматически остановится, когда наберёт нужный объём. Рассчитайте целевое n в калькуляторе выборки, укажите его в настройках опроса — и платформа сделает остальное.

Для опросов с сегментами используйте логику ветвления и квоты по группам: так вы гарантируете, что каждый сегмент наберёт статистически достаточный объём, а не «сколько придёт».

Если опрос уже завершён — проверьте фактическую погрешность полученных данных в калькуляторе погрешности. Это займёт 30 секунд и избавит отчёт от ложной уверенности.

Смотрите также: «Генеральная совокупность — определение и примеры» — о том, как правильно задать рамки исследования перед расчётом выборки.

2
Еще больше интересного в нашем Telegram канале!

Никакого спама, только самое актуальное