Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Inter-rater Reliability (межэкспертная надёжность, IRR)

Вы собрали 500 открытых ответов в опросе и даёте их двум аналитикам для кодирования по категориям "жалоба", "благодарность", "вопрос".

Первый аналитик находит 120 жалоб, второй — 180. Кому верить? Если их коды расходятся на 30%, то любые выводы на основе этой классификации сомнительны. Inter-rater reliability — показатель, который формально оценивает: читают ли разные эксперты одни и те же данные одинаково.

Определение

Inter-rater Reliability (межэкспертная надёжность, IRR) — степень согласованности оценок или классификаций, которые дают разные независимые эксперты (raters) по отношению к одним и тем же объектам или ответам. Используется при кодировании открытых ответов, оценке качественных данных, 360-градусной обратной связи, экспертных оценках. Высокая IRR означает, что категоризация или оценка объективна и воспроизводима, а не зависит от индивидуального восприятия конкретного эксперта.

Зачем измерять IRR

Любые данные, проходящие через субъективную оценку человека, требуют проверки: один ли и тот же результат дают разные эксперты? Без IRR вы не знаете, отражают ли коды реальную структуру данных или индивидуальные предпочтения конкретного аналитика.

Три типичных сценария, где IRR критична:

Кодирование открытых ответов. После опроса с открытыми вопросами ответы классифицируют по темам. Если коды субъективны, агрегированная статистика ("40% упомянули качество поддержки") становится ненадёжной.

Качественный анализ интервью, фокус-групп, обратной связи. Выделение тем, паттернов, инсайтов — субъективный процесс, где IRR гарантирует воспроизводимость.

Оценочные процедуры. Ассессменты, аттестации, экспертные оценки качества работы. Если разные оценщики дают разные оценки одному и тому же человеку, процесс несправедлив и неинформативен.

Как измеряется IRR

Выбор коэффициента зависит от типа данных:

Процент согласия (Percent Agreement). Самый простой — доля случаев, когда оценщики сошлись. Интуитивен, но переоценивает согласие: даже случайное совпадение включается в процент. Не рекомендуется как единственный показатель.

Cohen's kappa (κ). Для двух оценщиков и номинальных категорий. Учитывает согласие за вычетом случайных совпадений. Значения от -1 до 1:

  • κ < 0 — согласие хуже случайного (редко)
  • 0 ≤ κ < 0.4 — слабое
  • 0.4 ≤ κ < 0.6 — умеренное
  • 0.6 ≤ κ < 0.8 — существенное
  • κ ≥ 0.8 — почти полное согласие

Fleiss's kappa. Обобщение Cohen's kappa на случай трёх и более оценщиков.

Krippendorff's alpha (α). Универсальный коэффициент — работает для любого числа оценщиков, любых типов данных (номинальные, порядковые, интервальные), учитывает пропущенные оценки. Считается современным стандартом.

Intraclass Correlation Coefficient (ICC). Для количественных оценок (числовые рейтинги). Применяется в психометрии и ассессментах. Пороги аналогичны kappa.

Пример: кодирование открытых ответов об опыте обслуживания

Опрос собрал 300 открытых ответов на вопрос "Расскажите о вашем последнем опыте взаимодействия с поддержкой". Два аналитика независимо кодируют каждый ответ в одну из 5 категорий: "положительный опыт", "нейтральный", "проблема с продуктом", "проблема с сотрудником", "не про поддержку".

Результаты первого прохода:

  • Процент согласия: 78% (234 из 300 ответов классифицированы одинаково)
  • Cohen's kappa: 0.64 — существенное согласие

78% звучит неплохо, но kappa 0.64 — на границе приемлемого. Разобрали 66 спорных случаев: выявили, что аналитики расходятся в категориях "проблема с продуктом" vs "проблема с сотрудником" — границы между ними нечёткие. Обновили кодировочную инструкцию с конкретными примерами для каждой категории, провели короткий калибровочный workshop. После этого повторный замер на новой части данных: κ = 0.82 — почти полное согласие. Теперь данные можно анализировать и принимать на их основе решения.

Процедура проверки и повышения IRR

1. Разработка кодировочной схемы. Чёткие, взаимоисключающие категории с определениями и примерами. Чем яснее схема — тем выше IRR. Размытые границы между категориями — главная причина низкой согласованности.

2. Обучение оценщиков. Совместная калибровка на небольшой выборке: разбор сложных случаев, обсуждение принципов категоризации, согласование трактовок.

3. Пилотное кодирование. Оба оценщика независимо кодируют 30-50 случаев. Расчёт IRR. Если низкая — разбор расхождений, уточнение схемы, повторная калибровка.

4. Основное кодирование. После того как пилотная IRR приемлема (κ ≥ 0.7), оценщики кодируют весь массив. Часть данных (10-20%) — перекрытие обоих оценщиков для контроля стабильности.

5. Периодическая проверка. При длительной работе — переоценка IRR каждые 100-200 единиц, чтобы отловить "дрейф" в интерпретациях.

Что влияет на IRR

Чёткость категорий. Размытые или пересекающиеся категории — главная причина низкой согласованности. "Негативный опыт" и "недовольство" могут означать почти одно и то же — это создаёт постоянные расхождения.

Количество категорий. Больше категорий → ниже согласованность. 3-5 категорий обычно дают более высокую IRR, чем 15. Если нужна детальная классификация — делайте её двухуровневой: сначала базовые категории (высокая IRR), затем подкатегории внутри (более сложное согласование).

Опыт оценщиков. Новые аналитики дают более вариативные коды. Предварительная калибровка и совместное обсуждение первых случаев повышают IRR.

Сложность материала. Длинные, многотемные ответы кодируются с меньшим согласованием, чем короткие однозначные. Для сложных данных может потребоваться multi-label кодирование (несколько тегов на один ответ) вместо единственной категории.

IRR vs другие виды надёжности

IRR дополняет другие показатели надёжности:

  • IRR — согласованность между оценщиками
  • Test-retest — стабильность во времени
  • Cronbach's alpha — согласованность внутри шкалы

Для субъективных оценок IRR — критичный показатель. Для стандартизированных шкал (выбор варианта из списка) IRR менее важна — там ключевая надёжность внутренняя и временная.

Типичные ошибки при работе с IRR

Использовать только процент согласия. Для данных с неравномерным распределением категорий (90% ответов — "нейтральные") даже случайный выбор даст высокий процент согласия. Kappa корректирует это смещение и даёт более честную оценку.

Оценщики обсуждают случаи в процессе кодирования. Если аналитики в ходе работы советуются — они искусственно выравнивают коды, и IRR измеряет не независимое согласие, а коллективное обсуждение. Независимость оценок критична.

Не фиксировать кодировочную схему. Схема должна быть зафиксирована до начала кодирования и не меняться в процессе. Если категории появляются или уточняются по ходу — предыдущие закодированные случаи нужно переоценить.

Не документировать расхождения. Анализ случаев несогласия — ценная диагностика: он показывает, где схема неоднозначна, какие типы ответов системно путаются, где нужны уточнения. Без этого анализа IRR превращается в цифру без практических выводов.

IRR в исследованиях на базе опросов

В работе с опросными данными IRR применяется в основном при анализе открытых ответов и качественных исследований. Стандартная практика: два независимых аналитика кодируют выборку ответов, рассчитывается Cohen's kappa, при необходимости схема дорабатывается, и затем весь массив кодируется одним аналитиком с периодической перепроверкой на выборке.

IRR — также часть триангуляции в смешанных дизайнах исследования: когда количественные данные дополняются качественным анализом открытых ответов или интервью, надёжность кодирования последних должна быть задокументирована. Без этого выводы качественной части не могут подкреплять количественные результаты.

Inter-rater Reliability — это объективная мера того, насколько согласованы оценки разных экспертов. Без IRR любой качественный анализ остаётся в зоне "аналитик так увидел". С ней — становится воспроизводимой процедурой. Cohen's kappa от 0.7 — приемлемый порог; выше 0.8 — стандарт для серьёзных исследований. Низкая IRR — сигнал дорабатывать кодировочную схему, а не смириться с разногласиями.

Частые вопросы

Сколько оценщиков нужно для проверки IRR?

Минимум два — это классический случай для Cohen's kappa. Три и более — используется Fleiss's kappa или Krippendorff's alpha. На практике двух достаточно для большинства задач: прирост надёжности оценки при добавлении третьего оценщика невелик, а стоимость работы удваивается.

Какой порог IRR считать приемлемым?

Cohen's kappa ≥ 0.6 — минимум для исследовательских целей. ≥ 0.7 — стандартный порог для прикладного использования. ≥ 0.8 — высокая согласованность, подходит для принятия важных решений. Ниже 0.6 — схема или оценщики требуют доработки.

Что делать, если IRR низкая?

Не "усреднять" оценки, а разбирать расхождения. Проанализируйте случаи несогласия — найдёте, где схема неоднозначна или где оценщики трактуют её по-разному. Уточните определения категорий, добавьте примеры, проведите калибровочную сессию. После этого — повторный замер IRR на новой выборке.

Можно ли использовать IRR для одного оценщика?

Нет — IRR по определению требует как минимум двух независимых оценщиков. Для одного оценщика можно проверить intra-rater reliability: тот же человек кодирует те же данные повторно через время. Это проверка стабильности индивидуальной работы, не согласованности между экспертами.

Нужно ли проверять IRR при простых категориях с очевидной разметкой?

Если категории действительно очевидны (например, автоматически извлекаемые из структурированных данных) — IRR не нужна. Но если в процессе участвует человеческая интерпретация (классификация текста, оценка тональности, распознавание намерения) — IRR обязательна, даже если задача кажется простой. "Очевидность" часто оказывается субъективной.

1