Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Что такое дескриптивный анализ и как его провести

Полезные статьи
Что такое дескриптивный анализ и как его провести

Дескриптивный, или описательный, анализ сжимает гору собранных ответов до нескольких понятных чисел и графиков.

Он отвечает на простой вопрос: как выглядят данные. Какие значения встречаются чаще, насколько ответы разбросаны, как они распределены. И сразу стоит запомнить его границу: он описывает то, что есть, но не объясняет причины и ничего не говорит о тех, кого вы не опрашивали.

С него начинается почти любой разбор данных. Прежде чем искать связи, проверять гипотезы или строить прогнозы, ответы сначала описывают. Тысяча строк в выгрузке превращается в короткую сводку, которую не стыдно показать коллегам: средняя оценка, доля довольных, самый частый ответ. Ниже разберём, чем описание отличается от выводов, из каких показателей оно складывается, какие из них к каким данным подходят, и пройдём весь путь на живом примере опроса.

Дескриптивный анализ описывает данные с трёх сторон Центральная тенденция среднее, медиана, мода Разброс размах, дисперсия, стандартное отклонение Распределение частоты, доли, проценты

Чем дескриптивный анализ отличается от других

Анализ данных удобно делить по вопросу, на который он отвечает. Дескриптивный отвечает на вопрос «что произошло»: он описывает собранное и ничего не достраивает. Выводной, или инференциальный, идёт дальше и переносит выводы с выборки на всю совокупность. Можно ли по тремстам опрошенным судить обо всех клиентах и насколько такому выводу стоит верить, это уже его территория. Предиктивный смотрит вперёд и строит прогнозы, а диагностический ищет ответ на вопрос «почему так вышло».

Разница тут принципиальная. Фраза «средняя оценка сервиса 3,76, а 18% гостей недовольны» это описание: вы просто пересказали собранное. А фраза «значит, по городу клиенты скорее довольны» это уже вывод обо всех, и он требует репрезентативной выборки и расчёта погрешности (о ней есть отдельный материал про размер выборки и доверительный интервал). Описание остаётся внутри того, что вы собрали. В этом и сила: оно почти не ошибается, потому что ничего не выдумывает.

Поэтому описание идёт первым почти всегда. Сравнение сегментов, проверка гипотез, прогноз, всё это стартует с того, что данные сперва описали. Заметили, что одна группа клиентов ставит оценки ниже другой? Тогда дальше подключается сравнительный анализ и проверяет, значима ли разница или это просто шум в цифрах. А чтобы понять, где описание стоит среди других подходов к исследованию, посмотрите обзор методов исследования.

Чтобы не путать описание с тем, что идёт после него, аналитику обычно раскладывают на четыре ступени. Дескриптивная отвечает на вопрос «что произошло», и без неё не обходится ни одна из следующих.

Вид анализа Отвечает на вопрос Пример по опросу
Описательный (дескриптивный)Что произошло?Средняя оценка 3,76, довольных 67%
ДиагностическийПочему так вышло?Недовольны в основном те, кто ждал доставку дольше часа
ПредиктивныйЧто будет дальше?При том же сервисе отток вырастет примерно на 5%
ПрескриптивныйЧто с этим делать?Сократить время доставки, иначе теряем этот сегмент

Из чего состоит дескриптивный анализ

Описание держится на трёх группах показателей: насколько значения в среднем велики, насколько они различаются между собой и как часто встречается каждое из них. Поодиночке любая из этих цифр обманет. Вместе они дают объём.

Центральная тенденция: среднее, медиана, мода

Центральная тенденция отвечает, какое значение типично. Среднее арифметическое считают привычнее всего: сумма значений, делённая на их количество, вот только оно сильнее остальных страдает от выбросов. Медиана стоит ровно посередине упорядоченного ряда, половина ответов меньше неё, половина больше. Мода это просто самое частое значение, и она единственная работает даже там, где среднего не бывает в принципе: например, для города или канала привлечения.

Классику этой разницы видно на зарплатах. Посадите в комнату девять человек с доходом около 50 тысяч и одного с пятью миллионами. Среднее тут же подскочит почти до полумиллиона, хотя столько не получает вообще никто из десяти. Медиана же останется у тех самых 50 тысяч и опишет комнату честно. Вот почему для скошенных данных, будь то зарплаты, чеки или время ответа, медиана обычно говорит больше среднего. Хотя смотреть лучше сразу на оба показателя.

Нагляднее всего это на скошенном распределении: мода сидит на пике, медиана делит наблюдения пополам, а среднее уползает в сторону длинного хвоста.

На скошенном распределении среднее, медиана и мода расходятся Мода Медиана Среднее длинный правый хвост тянет среднее вправо значение показателя →

Разброс: размах, дисперсия, стандартное отклонение

Два набора с одинаковым средним бывают совсем не похожи, и как раз разброс показывает, держатся значения кучно или разлетаются. Самый простой показатель, размах, это разница между максимумом и минимумом: нагляден, но висит на двух крайних точках. Дисперсия усредняет квадраты отклонений от среднего. А стандартное отклонение это корень из дисперсии, поэтому оно в тех же единицах, что и сами данные, и читается легче всего: больше отклонение, сильнее расходятся ответы. Иногда рядом ставят квартили и межквартильный размах, границы, в которых лежит средняя половина наблюдений.

Зачем это нужно, видно на простом примере. Возьмите две группы с одинаковой средней оценкой 3. В первой почти все поставили тройки. Во второй половина поставила единицы, половина пятёрки. Среднее совпадает, а стандартное отклонение во второй группе куда выше, и оно сразу выдаёт раскол, который ровная средняя цифра прячет.

Квартили и перцентили

Иногда центра и стандартного отклонения мало, и хочется знать, как значения разложены по всему диапазону. Тогда ряд сортируют и режут на части. Перцентиль показывает, ниже какого значения лежит заданная доля наблюдений: 90-й перцентиль времени загрузки в 4 секунды означает, что 90% страниц открылись быстрее. Квартили это три точки, которые делят отсортированный ряд на четыре равные части: нижний квартиль отсекает 25% наименьших значений, медиана половину, верхний квартиль 75%.

Расстояние между нижним и верхним квартилем зовут межквартильным размахом, и в нём лежит средняя половина данных. Он удобнее обычного размаха, потому что не вздрагивает от одного-единственного выброса. На этих же числах держится «ящик с усами»: коробка тянется от нижнего квартиля к верхнему, черта внутри это медиана, а усы и отдельные точки за ними показывают хвосты и редкие выбросы.

Частоты и доли

Третья опора это распределение, то есть сколько раз встретилось каждое значение. Частотное распределение показывает число ответов по каждому варианту, а доли и проценты переводят эти числа в понятный масштаб: не «64 человека выбрали четвёрку», а «32% поставили четыре». Для категориальных вопросов вроде пола, города или тарифа это вообще главный инструмент, ведь среднее и медиану к ним не применить. Отсюда же берётся доля промоутеров в NPS и доля довольных в CSAT.

С процентами есть ловушка. На маленькой выборке они выглядят солиднее, чем заслуживают. «60% выбрали этот вариант» звучит весомо ровно до момента, когда выясняется, что это трое из пяти опрошенных. Так что рядом с долей всегда держите в уме, от какого числа ответов она посчитана.

Форма распределения

Показатели описывают данные числами, а форма распределения показывает их силуэт: где скапливаются ответы и куда тянутся хвосты. Именно форма подсказывает, какому показателю верить, а какой обманет. Чаще всего встречаются четыре силуэта.

Четыре частые формы распределения Симметричное Скошено вправо Скошено влево Бимодальное среднее ≈ медиана среднее > медианы среднее < медианы две группы внутри

Симметричное распределение похоже на колокол: пик в середине, хвосты ровные с обеих сторон. Среднее, медиана и мода тут почти совпадают, и среднему можно доверять. Скошенное вправо, оно же положительная асимметрия, чаще всего вылезает в деньгах и времени: большинство значений невелики, но редкие огромные тянут длинный правый хвост, и среднее уезжает вправо от медианы. Скошенное влево зеркально, хвост уходит влево, а среднее оказывается меньше медианы. Бимодальное с двумя пиками почти всегда сигнал, что в данных смешаны две разные группы, и описывать их одной средней бессмысленно: лучше разделить и посчитать по отдельности.

Силуэт можно измерить и числом. Асимметрия (skewness) показывает, в какую сторону и насколько сильно скошено распределение: около нуля симметрично, плюс это правый хвост, минус левый. Эксцесс (kurtosis) описывает хвосты и остроту пика: высокий это острая вершина и тяжёлые хвосты с частыми выбросами, низкий это пологая, ровная форма. До этих коэффициентов на практике доходят редко, но беглого взгляда на гистограмму обычно хватает, чтобы поймать перекос и не довериться среднему вслепую.

Типы данных и подходящие показатели

Какой показатель брать, зависит от типа данных перед вами. И это не придирка: посчитать «средний город» нельзя, а средний балл по шкале «плохо–отлично» формально спорен, хотя так и делают сплошь и рядом. Обычно различают три уровня.

Тип данных Пример в опросе Подходящие показатели График
Номинальные (категории без порядка)город, канал, «да/нет»мода, частоты, долистолбчатая, круговая
Порядковые (есть порядок, но интервалы неравны)«плохо–отлично», шкала Лайкертамода, медиана, частотыстолбчатая, гистограмма
Количественные (числа с равными интервалами)возраст, сумма чека, время ответасреднее, медиана, стандартное отклонение, размахгистограмма, ящик с усами

Правило простое: чем «выше» тип данных, тем больше показателей открывается. С номинальными доступны только частоты и мода. К порядковым прибавляется медиана. А количественные открывают и среднее, и разброс. Больше всего споров вокруг шкал от 1 до 5: строго говоря, это порядковые данные, и надёжнее держаться медианы и распределения, но среднее по ним на практике считают почти все, просто не забывая поглядывать на доли крайних оценок. Какие вообще бывают шкалы и форматы ответов, разобрано в материале про открытые и закрытые вопросы.

Как показывают описательные данные

Половина ценности описания в том, чтобы оно читалось с одного взгляда, поэтому график здесь не украшение, а часть анализа. Категориям подходит столбчатая или круговая диаграмма по частотам: сразу видно, какой вариант впереди. Числам нужна гистограмма: она рисует форму распределения и подсказывает, симметрично оно или скошено, один в нём пик или несколько. А когда надо сравнить разброс между группами, выручает ящик с усами (box plot), который на одной картинке держит медиану, квартили и выбросы. Обычная же таблица частот незаменима, когда цифры нужно увидеть, а заодно выгрузить или передать дальше.

Выбор графика идёт от типа данных так же, как выбор показателя: категории на столбики или круг, числа на гистограмму. И тут легко всё испортить: обрезанная у основания ось, объёмные эффекты, десяток цветов разом, и картинка уже врёт, хотя должна читаться мгновенно. Хорошая описательная диаграмма ничего не приукрашивает. Она просто делает очевидным то, что и так лежит в данных.

Как провести дескриптивный анализ: по шагам

Порядок действий почти всегда один и тот же, меняются только данные. От сырой выгрузки до пары абзацев с выводами получается пять шагов.

  1. Соберите и почистите данные. Выгрузите ответы в таблицу, уберите пустые и явно мусорные строки, проверьте, что одинаковые варианты записаны одинаково. Грязь на входе портит любые показатели.
  2. Определите тип каждой переменной. Где категории, где порядок, где числа. От этого зависит, что вообще можно считать: для канала привлечения только моду и доли, для суммы чека ещё и среднее с разбросом.
  3. Посчитайте показатели. Для каждой переменной возьмите центр, разброс и частоты. Не гонитесь за всеми коэффициентами сразу, начните с того, что коллеги реально прочитают.
  4. Постройте графики. Категории на столбики, числа на гистограмму. Силуэт распределения часто говорит больше, чем сама таблица.
  5. Опишите словами. Соберите числа в связный вывод: что типично, насколько единодушны ответы, есть ли заметная группа на краю. Ради этого всё и считалось.

Дальше можно идти вглубь: сравнивать сегменты, искать причины, проверять догадки на новой выборке. Но фундамент под всем этим закладывают именно пять шагов выше.

Пример: описательный анализ результатов опроса

Соберём всё вместе на конкретном случае. Кофейня собрала 200 ответов на опрос после визита; главный вопрос звучал так: «Насколько вы довольны?» по шкале от 1 до 5. Первым делом описание раскладывает эти ответы по частотам.

Оценка Сколько раз выбрали Доля
5, отлично7035%
4, хорошо6432%
3, нормально3015%
2, плохо2010%
1, очень плохо168%

Теперь показатели. Мода равна 5, это самая частая оценка. Медиана равна 4: выстройте все 200 ответов по порядку, и в середине окажется четвёрка. Среднее выходит 3,76, а стандартное отклонение около 1,25 при размахе 4. Отдельно полезны края: довольных с оценкой 4 или 5 набралось 67%, недовольных с 1 или 2 всего 18%.

Что из этого складывается? Среднее 3,76 само по себе звучит блёкло, ни рыба ни мясо. Но медиана 4 и мода 5 уточняют картину: типичный гость скорее доволен. А стандартное отклонение 1,25 и те самые 18% недовольных напоминают, что оценки разнятся и недовольная группа вполне ощутима, просто среднее её затирает. Вот ради этого описание и затевают. Одна цифра тут бесполезна, нужна вся картина: где центр, насколько широк разброс, как лежат ответы.

Стоит показать, откуда взялось стандартное отклонение, потому что цифра 1,25 сама по себе выглядит загадочно. Считают так: у каждой оценки берут отклонение от среднего 3,76, возводят в квадрат, усредняют по всем 200 ответам и извлекают корень. Квадрат нужен, чтобы плюсы и минусы не гасили друг друга, а корень возвращает результат в исходные баллы. Поэтому отклонение читается прямо в оценках: типичный ответ гуляет вокруг среднего примерно на балл с четвертью.

Добавим к опросу числовую переменную, средний чек, и описание сразу заиграет иначе, чем на шкале. Допустим, медиана чека вышла 480 рублей, а среднее 640. Само это расхождение уже говорит, что распределение скошено вправо: большинство гостей берут кофе с собой на скромную сумму, но редкие большие заказы на компанию тянут хвост и поднимают среднее. Стандартное отклонение в 410 рублей подтверждает, что чеки разлетаются широко. Здесь медиана честнее опишет типичного гостя, а среднее пригодится разве что для подсчёта общей выручки.

Второй вопрос, «Откуда вы узнали о нас?», даёт уже категориальные данные, и набор показателей меняется. Среднее тут не посчитать: у «соцсетей» и «друзей» нет числового порядка, между ними не существует середины. Остаются частоты и доли: 44% пришли из соцсетей, 28% по совету друзей, 18% из поиска, 10% заметили вывеску. Типичный канал, то есть мода, это соцсети. Именно мода описывает такие данные корректно; выдуманное «среднее» здесь ни при чём. Ровно то, что подсказывала таблица типов данных выше.

И так же важно, чего описание не говорит. Оно не объясняет, почему 18% недовольны; за этим придётся идти в открытый вопрос о причине или в сравнение довольных и недовольных по сегментам. И оно не разрешает молча переносить «67% довольны» на всех гостей кофейни: такой перенос уже вывод о совокупности, а там командуют количественные исследования с расчётом выборки. Описание это фундамент, на котором стоит всё остальное.

На практике всё это редко считают руками. В WebAsk описательная сводка по каждому вопросу, то есть частоты, проценты, средние и графики, собирается сама по мере поступления ответов, а ИИ-отчёт сворачивает её в короткий текст с выводами, который можно сразу нести команде.

Дескриптивный анализ в Excel и Google Sheets

Если данных немного, всё считается прямо в таблице, и функции в Excel и Google Sheets почти совпадают. Центр и разброс закрываются пятью формулами.

Показатель Функция (рус. / англ.)
СреднееСРЗНАЧ / AVERAGE
МедианаМЕДИАНА / MEDIAN
МодаМОДА / MODE
Стандартное отклонениеСТАНДОТКЛОН.В / STDEV.S
КвартильКВАРТИЛЬ / QUARTILE

Частоты по вариантам удобно собирать сводной таблицей: вопрос уходит в строки, он же в значения с подсчётом, и проценты считаются сами. Гистограмму и столбчатую диаграмму обе программы строят в пару кликов по этим же данным.

Минус ручного способа в том, что выгрузку приходится чистить и обновлять руками после каждой порции ответов. Поэтому в WebAsk описательная сводка по каждому вопросу собирается сразу: частоты, проценты, средние и графики появляются по мере того, как приходят ответы. Считать формулы самому остаётся, только когда хочется покопаться в данных поглубже.

Частые ошибки

Несколько ситуаций, где описание вводит в заблуждение, хотя посчитано всё формально верно:

  • Среднее при выбросах. Пара экстремальных значений тянет его в сторону, и цифра перестаёт описывать типичный случай; рядом всегда стоит глянуть медиану.
  • Забыли про разброс. Одинаковые средние прячут совершенно разные распределения, так что стандартное отклонение не менее важно, чем сам центр.
  • Проценты на крошечной выборке. «60%» от пяти ответов это всего трое, и выдавать такую долю за надёжную нельзя.
  • Описание выдали за причину. «Средний чек упал» это просто факт; на вопрос, почему он упал, описание ответа не даёт.
  • Вывод шагнул за пределы данных. Описание говорит только про тех, кого опросили; чтобы судить обо всех, нужна репрезентативная выборка.

Выводы

Дескриптивный анализ честно описывает собранные данные через три группы показателей: центральную тенденцию (среднее, медиана, мода), разброс (размах, дисперсия, стандартное отклонение) и распределение (частоты и доли). Он отвечает на вопрос «как выглядят данные» и не достраивает того, чего в них нет, поэтому почти всегда идёт первым шагом перед сравнением, проверкой гипотез или прогнозом. Что держать в голове: выбирать показатели под тип данных, смотреть на центр и разброс вместе и не путать описание с разбором причин.

Провести такой анализ по результатам опроса можно прямо в WebAsk: сервис сам строит распределения, считает средние и доли, рисует графики и собирает по ним отчёт. Остаётся запустить опрос и дождаться ответов.

Частые вопросы

Что такое дескриптивный анализ?

Это обобщение собранных данных в несколько понятных показателей и графиков, которые описывают, как выглядят данные: какие значения типичны, насколько они разбросаны и как распределены ответы. Он отвечает на вопрос «что есть в данных», но не объясняет причины и не переносит выводы на всю совокупность.

Чем дескриптивный анализ отличается от выводного?

Описательный анализ описывает только собранную выборку. Выводной (инференциальный) переносит выводы на всю генеральную совокупность и проверяет гипотезы с оценкой статистической значимости. Описательный почти всегда идёт первым шагом перед выводным.

Какие показатели входят в дескриптивный анализ?

Три группы: центральная тенденция (среднее, медиана, мода), разброс (размах, дисперсия, стандартное отклонение) и распределение (частоты, доли, проценты).

Когда использовать медиану вместо среднего?

Когда в данных есть выбросы или распределение скошенное. Несколько очень больших или малых значений сильно тянут среднее, а медиана к ним устойчива, поэтому для зарплат, чеков и времени ответа она честнее описывает типичное значение.

Можно ли считать среднее по шкале от 1 до 5?

Формально это порядковые данные, и строгий подход советует медиану и моду. На практике среднее по такой шкале считают часто, но смотреть на него нужно вместе с распределением и долей крайних оценок, иначе оно вводит в заблуждение.

Какой график подходит для описательного анализа?

Для категорий это столбчатая или круговая диаграмма по частотам. Для чисел гистограмма распределения и ящик с усами (box plot), который показывает медиану, квартили и выбросы.

Показывает ли дескриптивный анализ причины?

Нет. Он описывает, что произошло, но не отвечает, почему. Причины и связи покажет сравнительный или выводной анализ, а объяснения дадут открытые вопросы и качественные методы.

Что такое асимметрия распределения?

Асимметрия (skewness) показывает, в какую сторону скошено распределение. Около нуля оно симметрично, плюс означает длинный правый хвост и среднее выше медианы, минус даёт зеркальную картину. Сильная асимметрия это повод предпочесть медиану среднему.

Что показывают квартили?

Квартили делят отсортированный ряд на четыре равные части. Нижний квартиль отсекает 25% наименьших значений, медиана половину, верхний 75%. Средняя половина данных лежит между нижним и верхним квартилем, и этот межквартильный размах устойчивее обычного к выбросам.

Как сделать дескриптивный анализ в Excel?

Посчитайте показатели функциями СРЗНАЧ, МЕДИАНА, МОДА, СТАНДОТКЛОН.В и КВАРТИЛЬ, а частоты по вариантам соберите сводной таблицей. По этим данным Excel и Google Sheets строят гистограмму и столбчатую диаграмму. В сервисах опросов вроде WebAsk такая сводка считается автоматически.

3
Еще больше интересного в нашем Telegram канале!

Никакого спама, только самое актуальное