Выборка
9 февраля 2026 Время чтения ≈ 7 мин.
Представьте ситуацию: сеть кофеен хочет узнать, довольны ли клиенты новым меню. У сети 200 тысяч покупателей в месяц. Опросить всех — невозможно: это займёт месяцы и обойдётся в целое состояние. Опросить 15 друзей основателя — бессмысленно: их мнение не отражает мнение аудитории.
Где-то между «всеми» и «пятнадцатью знакомыми» находится золотая середина — выборка, которая достаточно велика, чтобы дать надёжные данные, и достаточно компактна, чтобы исследование было выполнимым. Умение правильно сформировать эту выборку — навык, который отличает профессиональное исследование от гадания на кофейной гуще.
Что такое выборка
Выборка (Sample) — это подмножество людей (или объектов), отобранных из более широкой группы — генеральной совокупности — для участия в исследовании. Результаты, полученные на выборке, экстраполируются на всю генеральную совокупность. Качество этой экстраполяции определяется тем, насколько выборка репрезентативна — то есть насколько точно она отражает структуру и характеристики целевой группы.
Аналогия из кулинарии: чтобы понять, достаточно ли соли в кастрюле супа, не нужно выпивать всю кастрюлю — достаточно перемешать и попробовать одну ложку. Ложка — это выборка, кастрюля — генеральная совокупность, а перемешивание — способ обеспечить репрезентативность (чтобы в ложку попал не только бульон с поверхности, а смесь всех ингредиентов).
Выборка и генеральная совокупность
Эти два понятия всегда работают в паре.
Генеральная совокупность (Population) — вся группа, о которой вы хотите сделать выводы. Это может быть что угодно: все клиенты интернет-магазина, все жители Москвы старше 18 лет, все сотрудники компании, все пользователи мобильного приложения.
Выборка (Sample) — часть этой группы, которую вы реально опрашиваете.
Цель — чтобы выводы, сделанные на основе выборки, были справедливы для всей генеральной совокупности. Это возможно, только если выборка достаточно большая и правильно сформированная. Если в сети кофеен 70% покупателей — женщины 25–35 лет, а в вашей выборке 90% — мужчины старше 50, данные будут бесполезными, даже если вы опросите тысячу человек.
Виды выборок
Все методы формирования выборки делятся на две большие группы: вероятностные и невероятностные.
Вероятностные выборки (Probability Sampling)
Каждый элемент генеральной совокупности имеет известную, ненулевую вероятность попасть в выборку. Это золотой стандарт: результаты можно обобщать на всю совокупность с измеримой точностью.
Простая случайная выборка (Simple Random Sampling). Из полного списка всех членов совокупности случайным образом отбираются N человек. Каждый имеет одинаковый шанс быть выбранным. Пример: из базы в 10 000 клиентов генератор случайных чисел выбирает 500. Требование — наличие полного списка совокупности, что не всегда реально.
Стратифицированная выборка (Stratified Sampling). Совокупность делится на подгруппы (страты) по важному признаку — пол, возраст, регион, уровень дохода. Из каждой страты отбирается случайная подвыборка пропорционально её доле в совокупности. Так обеспечивается представленность всех ключевых групп.
Пример. Компания опрашивает сотрудников. В штате 60% работают в офисе, 40% — удалённо. При простой случайной выборке из 100 человек может случайно попасть 80 офисных и 20 удалённых — перекос. Стратифицированная выборка гарантирует: 60 офисных + 40 удалённых.
Кластерная выборка (Cluster Sampling). Совокупность делится на кластеры (обычно по географическому или организационному принципу), случайно выбирается несколько кластеров, и в них опрашиваются все или случайно отобранные участники. Удобна для больших территориально распределённых совокупностей.
Систематическая выборка (Systematic Sampling). Из списка выбирается каждый N-й элемент (например, каждый десятый клиент). Простой и быстрый метод, но может дать искажения, если в списке есть скрытая периодичность.
Невероятностные выборки (Non-Probability Sampling)
Вероятность попадания в выборку неизвестна или неравна. Результаты нельзя строго обобщать на всю совокупность, но метод дешевле, быстрее и часто — единственный доступный.
Удобная выборка (Convenience Sampling). Опрашиваются те, кто оказался «под рукой»: посетители сайта, подписчики рассылки, прохожие на улице. Самый распространённый метод в онлайн-опросах — и самый рискованный с точки зрения репрезентативности. Если вы разместили опрос на сайте, его пройдут только те, кто зашёл на сайт, — а это не вся ваша аудитория.
Квотная выборка (Quota Sampling). Интервьюер набирает респондентов по заданным квотам: «нужно 50 женщин и 50 мужчин», «30% в возрасте 18–25, 40% в возрасте 26–40, 30% старше 40». Внешне похожа на стратифицированную, но внутри каждой квоты отбор нерандомный — интервьюер сам решает, кого включить.
Выборка снежного кома (Snowball Sampling). Респондент приглашает других респондентов: «Заполнили анкету? Перешлите коллегам». Метод используется, когда целевую группу трудно найти обычными способами — например, при исследовании редких профессий, закрытых сообществ или стигматизированных групп.
Целевая (экспертная) выборка (Purposive Sampling). Исследователь намеренно отбирает респондентов, которые соответствуют определённым критериям — например, только тех, кто совершил покупку за последний месяц. Позволяет получить глубокую информацию от релевантной аудитории, но не претендует на обобщаемость.
Как рассчитать размер выборки
Один из самых частых вопросов: «Сколько людей нужно опросить?» Ответ зависит от четырёх параметров.
Размер генеральной совокупности (N). Сколько всего людей в группе, которую вы изучаете? Для больших совокупностей (свыше 100 000) этот параметр слабо влияет на расчёт — что удивительно, но математически доказано.
Доверительный интервал (Confidence Interval / Margin of Error). Насколько допустима погрешность? Если доверительный интервал ±5%, а 60% респондентов ответили «да», то реальное значение в совокупности лежит в диапазоне 55–65%. Чем уже интервал — тем больше нужна выборка.
Уровень доверия (Confidence Level). С какой вероятностью результат попадает в указанный интервал? Стандарт — 95%: это значит, что при повторении исследования 100 раз результат в 95 случаях окажется в заданном диапазоне. Для критичных решений берут 99%, для скрининга — иногда достаточно 90%.
Ожидаемая доля признака (p). Если вы не знаете заранее, как распределятся ответы, используйте p = 50% — это даёт максимальный размер выборки (худший сценарий).
Для типичного маркетингового опроса с доверительным интервалом ±5% и уровнем доверия 95% нужно около 385 респондентов — независимо от того, исследуете вы 10 тысяч клиентов или 10 миллионов. Этот контринтуитивный факт объясняется тем, что статистическая точность определяется абсолютным размером выборки, а не её долей от совокупности.
Для быстрого расчёта используйте формулу Кокрена или онлайн-калькулятор. Важнее формулы — понимание принципа: увеличение выборки вдвое не увеличивает точность вдвое. Переход от 100 к 400 респондентов даёт резкий скачок надёжности. Переход от 1000 к 4000 — заметно меньший.
Ошибки выборки: что может пойти не так
Ошибка покрытия (Coverage Error). Ваш список генеральной совокупности неполон. Пример: вы опрашиваете клиентов по email, но 30% клиентов не оставляли email — они вне вашей досягаемости. Результат будет отражать мнение только тех, кто оставил email, а это может быть систематически другая группа (более лояльная, более молодая).
Ошибка самоотбора (Self-Selection Bias). Опрос открыт для всех, но проходят его только те, кому не лень — а это определённый тип людей. Крайне довольные и крайне недовольные клиенты заполняют анкеты чаще, чем «средние». В результате данные смещены к полюсам.
Ошибка неответа (Non-Response Bias). Часть выбранных респондентов не отвечает. Если неответившие систематически отличаются от ответивших — данные искажены. Пример: опрос об удовлетворённости работой — те, кто выгорел и подумывает об увольнении, с меньшей вероятностью потратят время на корпоративную анкету.
Слишком маленькая выборка. 20 ответов не дают статистически значимых выводов — даже если вам кажется, что «тенденция очевидна». С маленькой выборкой случайные колебания велики, и один нетипичный ответ может сдвинуть общую картину.
Практические рекомендации
Определите генеральную совокупность до начала исследования. «Наши клиенты» — слишком размыто. «Клиенты, совершившие хотя бы одну покупку за последние 6 месяцев» — чётко и операционализируемо. Без ясного определения совокупности невозможно оценить, репрезентативна ли выборка.
Используйте скрининговые вопросы. Если опрос открыт для всех, но вам нужны только определённые люди — добавьте фильтр в начале: «Покупали ли вы наш продукт за последние 3 месяца?» Нет — спасибо, опрос окончен. Это помогает очистить выборку от нерелевантных респондентов.
Сравнивайте структуру выборки с известными данными. Если вы знаете, что среди ваших клиентов 55% женщин, а в выборке их 80%, — это сигнал смещения. Можно скорректировать результаты статистическим взвешиванием, но лучше — изначально контролировать распределение.
Боритесь за response rate. Чем больше людей из изначально отобранной выборки реально ответят, тем меньше ошибка неответа. Короткие анкеты, понятные приглашения, напоминания, стимулы (подарок, скидка) — всё это работает. В WebAsk можно настроить автоматические напоминания и email-рассылку для повторного охвата неответивших.
Документируйте метод выборки. Кто вошёл в выборку, как были отобраны, какой процент ответил — эта информация нужна для интерпретации данных и для того, чтобы коллеги (или вы сами через полгода) могли оценить надёжность результатов.
Выборка — фундамент любого исследования. Ошибка на этом этапе не компенсируется ни отличными вопросами, ни продвинутой аналитикой. Если выборка нерепрезентативна — вы получите точный ответ на неправильный вопрос. Потратьте время на планирование выборки до запуска опроса — это самая выгодная инвестиция во всём проекте.
Опубликовано 9 февраля 2026
Алексей Логинов