Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

IQR (Interquartile Range, интерквартильный размах)

Среднее время прохождения опроса — 4 минуты. Стандартное отклонение — 18 минут. Минимум — 30 секунд, максимум — 4 часа (кто-то оставил вкладку открытой на ночь).

Среднее и SD искажены несколькими аномальными значениями. Медиана — 3 минуты, IQR — 2 минуты. Эти два числа дают правдивую картину: основная масса респондентов укладывается в 2-4 минуты. IQR — мера разброса, которая не реагирует на выбросы и показывает, где находятся реальные данные.

Определение

IQR (Interquartile Range, интерквартильный размах) — разность между третьим (Q3) и первым (Q1) квартилями выборки. Показывает диапазон, в котором находятся центральные 50% наблюдений. В отличие от стандартного отклонения, IQR устойчив к выбросам — экстремальные значения не влияют на его величину. Используется в описательной статистике, для построения боксплотов и для формального выявления выбросов по правилу 1.5×IQR.

Что такое квартили

Квартили делят упорядоченные данные на четыре равные части:

  • Q1 (25-й перцентиль) — ниже этого значения находятся 25% наблюдений
  • Q2 (50-й перцентиль) — это медиана, ниже неё 50% наблюдений
  • Q3 (75-й перцентиль) — ниже этого значения 75% наблюдений

IQR = Q3 − Q1. То есть разность между 25-м и 75-м перцентилями. Это диапазон, в который попадают средние 50% респондентов — без нижних 25% и без верхних 25%.

Почему IQR устойчив к выбросам

Представим выборку времени прохождения опроса: 2, 3, 3, 4, 4, 5, 6, 7, 8, 240 минут. Один выброс — кто-то оставил вкладку на 4 часа.

  • Среднее: 28.2 минуты (искажено одним значением)
  • Стандартное отклонение: 74.7 (огромное из-за выброса)
  • Медиана: 4.5 минуты
  • Q1 = 3, Q3 = 7, IQR = 4 минуты

Медиана и IQR показывают правду: типичный респондент укладывается в 3-7 минут. Среднее и SD — неинформативны. Это главное преимущество IQR: он характеризует основную массу данных, а не крайние значения.

Правило 1.5×IQR для поиска выбросов

Формальный метод выявления выбросов:

  • Нижняя граница: Q1 − 1.5 × IQR
  • Верхняя граница: Q3 + 1.5 × IQR
  • Всё, что за этими границами — потенциальные выбросы

Для примера с временем: Q1 = 3, Q3 = 7, IQR = 4. Нижняя граница: 3 − 6 = −3 (отрицательное, значит, нет выбросов снизу). Верхняя: 7 + 6 = 13. Значение 240 минут сильно превышает 13 — формально выброс.

Правило 1.5×IQR — стандарт для боксплотов. Более строгая версия — 3×IQR — используется для "экстремальных" выбросов. Оба метода помогают автоматически находить аномалии в данных опросов: подозрительно быстрые или медленные прохождения, нереалистичные ответы на числовые вопросы (возраст 150 лет, доход 1 млрд рублей).

Боксплот и IQR

Боксплот (ящик с усами) — визуализация, в которой IQR играет центральную роль:

  • "Ящик" — границы от Q1 до Q3 (центральные 50%)
  • Линия внутри ящика — медиана
  • "Усы" — до 1.5×IQR от границ ящика
  • Точки за усами — выбросы

Сравнение распределений двух групп через боксплоты — быстрый способ увидеть разницу в центре (сдвиг медианы) и разброс (ширина ящика), не считая никаких статистик. Это особенно полезно при анализе данных опросов по сегментам: например, сравнить оценки удовлетворённости в разных регионах одним графиком.

IQR vs стандартное отклонение

Стандартное отклонение и IQR — обе меры разброса, но измеряют разное.

SD использует все значения в расчёте — каждое отклонение от среднего возводится в квадрат. Выбросы имеют квадратичное влияние: одно значение в 10 стандартных отклонений от среднего даёт вклад в 100 раз больше, чем типичное.

IQR использует только два значения — Q1 и Q3. Всё, что выше Q3 или ниже Q1, не влияет на величину IQR. Добавление экстремального выброса в выборку не изменит IQR.

Когда что использовать:

  • Данные близки к нормальному распределению, выбросы отсутствуют → SD + среднее
  • Распределение асимметричное или есть выбросы → медиана + IQR
  • В отчётах для общей аудитории — IQR понятнее (попадает в диапазон "медианные 50%")

Пример: IQR в анализе оценок удовлетворённости

Результаты CSAT-опроса по шкале 1-10 в двух продуктах:

Продукт A: 7, 7, 8, 8, 8, 9, 9, 9, 9, 10. Медиана = 8.5, Q1 = 8, Q3 = 9, IQR = 1.

Продукт B: 2, 4, 7, 7, 8, 8, 9, 9, 10, 10. Медиана = 8, Q1 = 7, Q3 = 9, IQR = 2.

Медианы близки: 8.5 и 8. Но IQR показывает: в продукте A основная масса клиентов укладывается в узкий диапазон 8-9 — высокая однородность. В продукте B диапазон шире: 7-9, и кроме того, есть значения 2 и 4 (потенциальные выбросы по правилу 1.5×IQR). Это означает: у продукта B есть сегмент недовольных клиентов. Для A этого сегмента нет — стабильно высокая оценка. Это прямой практический вывод для продуктовой команды.

Типичные ошибки при работе с IQR

Автоматически удалять все выбросы по правилу 1.5×IQR. Это статистическая граница, а не диагноз. Некоторые "выбросы" — реальные случаи, которые важно изучить отдельно, а не выбросить. Особенно в малых выборках: удаление 2-3 точек из 30 существенно меняет картину.

Использовать IQR для малых выборок. При n < 10 квартили считаются с большой погрешностью, и IQR становится неустойчивым. Для очень малых выборок лучше использовать все сырые значения или диапазон (max − min).

Сравнивать IQR из разных шкал. IQR = 2 на шкале 1-10 — это значительный разброс. IQR = 2 на шкале 1-100 — мизерный. Для сравнения используйте относительный показатель: IQR / медиана.

IQR в анализе опросных данных

IQR применяется для описательной статистики времени прохождения опроса, оценок по шкалам, количественных ответов (возраст, доход, частота использования). Полезен при сегментации: сравнение IQR между сегментами показывает, в каких группах ответы однородны, а в каких — сильно различаются.

Для выявления подозрительных ответов и контроля качества данных — правило 1.5×IQR помогает автоматически найти аномалии во времени прохождения, числовых ответах, количестве действий. Экспортируйте данные через data export и рассчитайте IQR в Excel функцией QUARTILE.INC.

IQR — это разброс без влияния крайностей. Когда среднее и SD врут из-за выбросов — медиана и IQR показывают реальную картину. Правило 1.5×IQR даёт формальный способ искать аномалии. Для асимметричных распределений и данных с выбросами эта пара (медиана + IQR) — стандартный выбор в описательной статистике.

Частые вопросы

Чем IQR отличается от размаха?

Размах (range) — разность между максимумом и минимумом. IQR — разность между Q3 и Q1. Размах использует крайние значения и сильно зависит от выбросов. IQR использует только центральные квартили и устойчив к выбросам. Для реальных данных IQR почти всегда информативнее размаха.

Как считать квартили в Excel?

Функция QUARTILE.INC(диапазон; 1) возвращает Q1, QUARTILE.INC(диапазон; 3) — Q3. IQR = Q3 − Q1. Альтернативно: PERCENTILE.INC(диапазон; 0.25) и PERCENTILE.INC(диапазон; 0.75).

Всегда ли значения за границами 1.5×IQR нужно удалять?

Нет. Правило 1.5×IQR — это способ пометить необычные наблюдения, а не автоматический критерий удаления. Перед удалением нужно понять природу выброса: это ошибка ввода, аномальное поведение (бот, невнимательный респондент) или реальный редкий случай. В последнем варианте удаление исказит картину, а не улучшит её.

Когда IQR лучше стандартного отклонения?

Когда данные асимметричные или содержат выбросы. Для нормально распределённых данных без выбросов SD информативнее — использует все значения. Для времени прохождения опросов, дохода, количества действий (всегда правосторонние распределения с выбросами) — IQR уместнее.

Может ли IQR быть нулевым?

Да — когда Q1 и Q3 совпадают. Это означает, что минимум половина ответов имеют одно и то же значение. Встречается в бинарных или сильно смещённых распределениях — например, если 60% респондентов выбрали "да", и Q1 = Q3 = 1. В таких случаях IQR неинформативен, и нужны другие методы описания (доли, частоты).

1