Стратифицированная выборка
10 февраля 2026 Время чтения ≈ 6 мин.
Представьте ситуацию: сеть супермаркетов хочет измерить удовлетворённость покупателей сервисом. Если просто случайно опросить 800 человек из общей базы, есть риск, что большинство окажется из крупных городов и центральных районов. Малые города, пригородные магазины и "ночные" покупатели попадут в выборку в меньшей доле — а именно там часто скрываются самые острые проблемы.
Чтобы не "размазать" по выборке важные сегменты и не потерять их голос, исследователи заранее делят аудиторию на однородные группы и планируют, сколько людей нужно опросить в каждой. Такой подход называется стратифицированной выборкой и считается одним из самых аккуратных способов построить выборку для опроса.
Что такое стратифицированная выборка
Стратифицированная выборка (Stratified Sampling) — это способ формирования выборки, при котором генеральная совокупность предварительно делится на однородные группы (страты) по важному признаку — полу, возрасту, региону, типу клиента и т.п., а затем внутри каждой страты случайным образом отбирается определённое число респондентов.
Идея проста: вместо того чтобы надеяться, что случай сам "правильно" распределит респондентов по группам, вы заранее задаёте структуру выборки и контролируете, чтобы в опросе были представлены все значимые сегменты аудитории.
Чем стратификация отличается от квотной и простой случайной выборки
Простая случайная выборка. Каждый элемент совокупности имеет одинаковый шанс попасть в выборку, но структура по полу, возрасту, регионам и другим признакам получается "как повезёт". При достаточно больших объёмах выборки случай обычно работает в вашу пользу, но на малых и средних выборках возможны перекосы.
Квотная выборка. Вы тоже задаёте целевые доли по ключевым признакам, но внутри каждой квоты отбор, как правило, удобный: интервьюеры или каналы сами выбирают людей, которых проще всего опросить. Формально это невераятностная схема, о которой подробно рассказывается в статье о квотной выборке.
Стратифицированная выборка. Отличается от квотной тем, что внутри каждой страты отбор должен быть случайным (или максимально приближённым к нему). Это позволяет относить её к вероятностным методам и корректно оценивать статистическую погрешность на уровне всей выборки.
Как спланировать стратифицированную выборку
1. Описать генеральную совокупность. Сначала нужно чётко понять, кого именно вы хотите изучить: всех клиентов за последние 12 месяцев, только новых клиентов, жителей города старше 18 лет, пользователей определённого тарифа. Без этого шагать дальше бессмысленно.
2. Выбрать признак (или несколько) для стратификации. Это должны быть характеристики, которые сильно влияют на исследуемый показатель: регион, тип торговой точки, размер компании, возрастная группа. Для массовых исследований полезно ориентироваться на рекомендации из статьи о социологических опросах и официальную статистику по населению.
3. Определить структуру страт. Здесь помогают данные CRM, статистика бизнеса или публичные источники. Например: "Москва — 20% клиентов, другие города‑миллионники — 30%, прочие города — 50%". Или: "микробизнес — 40%, малый — 35%, средний — 25%".
4. Распределить общий объём выборки по стратам. Чаще всего используют пропорциональное распределение: если в совокупности 60% клиентов — женщины, 40% — мужчины, то и в выборке задают те же доли. Для малых, но стратегически важных сегментов иногда применяют диспропорциональную стратификацию — набирают чуть больше респондентов, чтобы аналитика по ним была устойчивее.
Стратифицированная выборка в онлайн-опросах
В "оффлайн‑классике" стратификация строится вокруг списков и случайного отбора. В онлайн‑среде подход меняется, но базовые принципы сохраняются.
Работа с несколькими базами. Часто разные страты физически живут в разных источниках: отдельные списки клиентов по регионам, типам продукта или каналам продаж. В этом случае каждая база выступает собственной стратой, внутри которой вы случайно выбираете контакты и рассылаете приглашения.
Использование панелей респондентов. Если вы набираете аудиторию через панель, похожий эффект достигается за счёт настроек таргетинга. Подход и ожидания от таких респондентов хорошо разобраны в статье "Кто такой респондент в опросе": там показано, как панели помогают добирать нужные сегменты и избегать перекосов по активным пользователям.
Скрытые переменные и фильтры. Даже если вы не можете идеально случайно отбирать респондентов внутри каждой страты, вы можете, по крайней мере, корректно их помечать. Через скрытые переменные и фильтры в отчётах (подробнее об этом рассказывается в статье про фильтрацию ответов) вы контролируете структуру данных и при необходимости дополнительно добираете недопредставленные группы.
Пример: опрос клиентов сети фитнес‑клубов
Допустим, у сети 30 клубов в трёх типах локаций: центр города, спальные районы и торговые центры. По данным CRM, 25% клиентов посещают центральные клубы, 50% — клубы в спальных районах, 25% — клубы в торговых центрах. Аналитика показывает, что удовлетворённость сильно зависит от типа локации.
Если просто взять случайную выборку из общей базы, можно случайно получить перекос в сторону одного типа клубов. При стратифицированной схеме вы задаёте три страты ("центр", "районы", "ТЦ") и распределяете, скажем, 600 клиентов как 150/300/150. Внутри каждой страты из CRM случайно выбираются люди для приглашения, а рассылка в WebAsk строится уже на основе этих списков.
В результате в отчёте вы получаете не только общую оценку удовлетворённости, но и устойчивые сравнения по каждому типу клубов — без страха, что в одной из групп всего 20 ответов и выводы по ней ненадёжны.
Типичные ошибки при стратификации
Слишком много страт. Желание "учесть всё" приводит к тому, что вы делите аудиторию сразу по множеству критериев и в итоге получаете десятки ячеек, в каждой из которых нужно набрать минимум наблюдений. На практике это почти невыполнимо и сильно удорожает проект.
Использование нестабильных признаков. Стратифицировать по признакам, которые быстро меняются (например, "активный/неактивный клиент за последнюю неделю"), рискованно: пока вы набираете выборку, структура совокупности уже успевает измениться.
Смешивание стратификации и квотной логики без понимания. В реальных онлайн‑опросах внутри страт часто используют квотный или удобный отбор, а не чисто случайный. Это не запрещено, но важно честно признавать, что в таком случае ваш дизайн находится где‑то посередине между строгой стратификацией и квотной выборкой, и аккуратно интерпретировать статистические выводы.
Практические рекомендации
Стратифицируйте по нескольким действительно значимым признакам. Для начала достаточно 1–2 измерений: регион + тип клиента, тип торговой точки + размер компании. Остальные признаки можно учесть уже на этапе анализа, применяя фильтры и срезы в отчётах.
Планируйте объём выборки с учётом страт. Важно считать размер выборки не только "в целом", но и внутри каждой группы. Если у вас 600 респондентов и три страты, то аналитика по каждой из них строится уже на подвыборках по 200 человек — стоит заранее проверить, достаточно ли этого для ваших задач.
Фиксируйте схему в методологическом разделе. В отчётах по результатам опросов стоит отдельно описывать, какие страты использовались и как внутри них отбирались респонденты. Это повышает доверие к результатам и помогает коллегам правильно оценивать достоверность выводов.
Используйте возможности конструктора, а не только Excel. В WebAsk стратификацию удобно "поддерживать" через несколько ссылок на один и тот же опрос (для разных страт) и скрытые переменные, которые помечают, к какой группе относится каждый ответ. Это упрощает построение срезов и сравнений в отчётах и снижает риск перепутать данные при ручной обработке.
Стратифицированная выборка — это способ заранее позаботиться о том, чтобы в опросе были услышаны все важные сегменты аудитории, а не только самые заметные и громкие. Немного дополнительного планирования на старте экономит часы споров на этапе анализа, когда приходится объяснять, почему "в выборке почти нет клиентов из регионов".
Опубликовано 10 февраля 2026
Алексей Логинов