Inter-rater Reliability (межэкспертная надёжность, IRR)
17 апреля 2026 Время чтения ≈ 7 мин.
Вы собрали 500 открытых ответов в опросе и даёте их двум аналитикам для кодирования по категориям "жалоба", "благодарность", "вопрос".
Первый аналитик находит 120 жалоб, второй — 180. Кому верить? Если их коды расходятся на 30%, то любые выводы на основе этой классификации сомнительны. Inter-rater reliability — показатель, который формально оценивает: читают ли разные эксперты одни и те же данные одинаково.
Определение
Inter-rater Reliability (межэкспертная надёжность, IRR) — степень согласованности оценок или классификаций, которые дают разные независимые эксперты (raters) по отношению к одним и тем же объектам или ответам. Используется при кодировании открытых ответов, оценке качественных данных, 360-градусной обратной связи, экспертных оценках. Высокая IRR означает, что категоризация или оценка объективна и воспроизводима, а не зависит от индивидуального восприятия конкретного эксперта.
Зачем измерять IRR
Любые данные, проходящие через субъективную оценку человека, требуют проверки: один ли и тот же результат дают разные эксперты? Без IRR вы не знаете, отражают ли коды реальную структуру данных или индивидуальные предпочтения конкретного аналитика.
Три типичных сценария, где IRR критична:
Кодирование открытых ответов. После опроса с открытыми вопросами ответы классифицируют по темам. Если коды субъективны, агрегированная статистика ("40% упомянули качество поддержки") становится ненадёжной.
Качественный анализ интервью, фокус-групп, обратной связи. Выделение тем, паттернов, инсайтов — субъективный процесс, где IRR гарантирует воспроизводимость.
Оценочные процедуры. Ассессменты, аттестации, экспертные оценки качества работы. Если разные оценщики дают разные оценки одному и тому же человеку, процесс несправедлив и неинформативен.
Как измеряется IRR
Выбор коэффициента зависит от типа данных:
Процент согласия (Percent Agreement). Самый простой — доля случаев, когда оценщики сошлись. Интуитивен, но переоценивает согласие: даже случайное совпадение включается в процент. Не рекомендуется как единственный показатель.
Cohen's kappa (κ). Для двух оценщиков и номинальных категорий. Учитывает согласие за вычетом случайных совпадений. Значения от -1 до 1:
- κ < 0 — согласие хуже случайного (редко)
- 0 ≤ κ < 0.4 — слабое
- 0.4 ≤ κ < 0.6 — умеренное
- 0.6 ≤ κ < 0.8 — существенное
- κ ≥ 0.8 — почти полное согласие
Fleiss's kappa. Обобщение Cohen's kappa на случай трёх и более оценщиков.
Krippendorff's alpha (α). Универсальный коэффициент — работает для любого числа оценщиков, любых типов данных (номинальные, порядковые, интервальные), учитывает пропущенные оценки. Считается современным стандартом.
Intraclass Correlation Coefficient (ICC). Для количественных оценок (числовые рейтинги). Применяется в психометрии и ассессментах. Пороги аналогичны kappa.
Пример: кодирование открытых ответов об опыте обслуживания
Опрос собрал 300 открытых ответов на вопрос "Расскажите о вашем последнем опыте взаимодействия с поддержкой". Два аналитика независимо кодируют каждый ответ в одну из 5 категорий: "положительный опыт", "нейтральный", "проблема с продуктом", "проблема с сотрудником", "не про поддержку".
Результаты первого прохода:
- Процент согласия: 78% (234 из 300 ответов классифицированы одинаково)
- Cohen's kappa: 0.64 — существенное согласие
78% звучит неплохо, но kappa 0.64 — на границе приемлемого. Разобрали 66 спорных случаев: выявили, что аналитики расходятся в категориях "проблема с продуктом" vs "проблема с сотрудником" — границы между ними нечёткие. Обновили кодировочную инструкцию с конкретными примерами для каждой категории, провели короткий калибровочный workshop. После этого повторный замер на новой части данных: κ = 0.82 — почти полное согласие. Теперь данные можно анализировать и принимать на их основе решения.
Процедура проверки и повышения IRR
1. Разработка кодировочной схемы. Чёткие, взаимоисключающие категории с определениями и примерами. Чем яснее схема — тем выше IRR. Размытые границы между категориями — главная причина низкой согласованности.
2. Обучение оценщиков. Совместная калибровка на небольшой выборке: разбор сложных случаев, обсуждение принципов категоризации, согласование трактовок.
3. Пилотное кодирование. Оба оценщика независимо кодируют 30-50 случаев. Расчёт IRR. Если низкая — разбор расхождений, уточнение схемы, повторная калибровка.
4. Основное кодирование. После того как пилотная IRR приемлема (κ ≥ 0.7), оценщики кодируют весь массив. Часть данных (10-20%) — перекрытие обоих оценщиков для контроля стабильности.
5. Периодическая проверка. При длительной работе — переоценка IRR каждые 100-200 единиц, чтобы отловить "дрейф" в интерпретациях.
Что влияет на IRR
Чёткость категорий. Размытые или пересекающиеся категории — главная причина низкой согласованности. "Негативный опыт" и "недовольство" могут означать почти одно и то же — это создаёт постоянные расхождения.
Количество категорий. Больше категорий → ниже согласованность. 3-5 категорий обычно дают более высокую IRR, чем 15. Если нужна детальная классификация — делайте её двухуровневой: сначала базовые категории (высокая IRR), затем подкатегории внутри (более сложное согласование).
Опыт оценщиков. Новые аналитики дают более вариативные коды. Предварительная калибровка и совместное обсуждение первых случаев повышают IRR.
Сложность материала. Длинные, многотемные ответы кодируются с меньшим согласованием, чем короткие однозначные. Для сложных данных может потребоваться multi-label кодирование (несколько тегов на один ответ) вместо единственной категории.
IRR vs другие виды надёжности
IRR дополняет другие показатели надёжности:
- IRR — согласованность между оценщиками
- Test-retest — стабильность во времени
- Cronbach's alpha — согласованность внутри шкалы
Для субъективных оценок IRR — критичный показатель. Для стандартизированных шкал (выбор варианта из списка) IRR менее важна — там ключевая надёжность внутренняя и временная.
Типичные ошибки при работе с IRR
Использовать только процент согласия. Для данных с неравномерным распределением категорий (90% ответов — "нейтральные") даже случайный выбор даст высокий процент согласия. Kappa корректирует это смещение и даёт более честную оценку.
Оценщики обсуждают случаи в процессе кодирования. Если аналитики в ходе работы советуются — они искусственно выравнивают коды, и IRR измеряет не независимое согласие, а коллективное обсуждение. Независимость оценок критична.
Не фиксировать кодировочную схему. Схема должна быть зафиксирована до начала кодирования и не меняться в процессе. Если категории появляются или уточняются по ходу — предыдущие закодированные случаи нужно переоценить.
Не документировать расхождения. Анализ случаев несогласия — ценная диагностика: он показывает, где схема неоднозначна, какие типы ответов системно путаются, где нужны уточнения. Без этого анализа IRR превращается в цифру без практических выводов.
IRR в исследованиях на базе опросов
В работе с опросными данными IRR применяется в основном при анализе открытых ответов и качественных исследований. Стандартная практика: два независимых аналитика кодируют выборку ответов, рассчитывается Cohen's kappa, при необходимости схема дорабатывается, и затем весь массив кодируется одним аналитиком с периодической перепроверкой на выборке.
IRR — также часть триангуляции в смешанных дизайнах исследования: когда количественные данные дополняются качественным анализом открытых ответов или интервью, надёжность кодирования последних должна быть задокументирована. Без этого выводы качественной части не могут подкреплять количественные результаты.
Inter-rater Reliability — это объективная мера того, насколько согласованы оценки разных экспертов. Без IRR любой качественный анализ остаётся в зоне "аналитик так увидел". С ней — становится воспроизводимой процедурой. Cohen's kappa от 0.7 — приемлемый порог; выше 0.8 — стандарт для серьёзных исследований. Низкая IRR — сигнал дорабатывать кодировочную схему, а не смириться с разногласиями.
Частые вопросы
Сколько оценщиков нужно для проверки IRR?
Минимум два — это классический случай для Cohen's kappa. Три и более — используется Fleiss's kappa или Krippendorff's alpha. На практике двух достаточно для большинства задач: прирост надёжности оценки при добавлении третьего оценщика невелик, а стоимость работы удваивается.
Какой порог IRR считать приемлемым?
Cohen's kappa ≥ 0.6 — минимум для исследовательских целей. ≥ 0.7 — стандартный порог для прикладного использования. ≥ 0.8 — высокая согласованность, подходит для принятия важных решений. Ниже 0.6 — схема или оценщики требуют доработки.
Что делать, если IRR низкая?
Не "усреднять" оценки, а разбирать расхождения. Проанализируйте случаи несогласия — найдёте, где схема неоднозначна или где оценщики трактуют её по-разному. Уточните определения категорий, добавьте примеры, проведите калибровочную сессию. После этого — повторный замер IRR на новой выборке.
Можно ли использовать IRR для одного оценщика?
Нет — IRR по определению требует как минимум двух независимых оценщиков. Для одного оценщика можно проверить intra-rater reliability: тот же человек кодирует те же данные повторно через время. Это проверка стабильности индивидуальной работы, не согласованности между экспертами.
Нужно ли проверять IRR при простых категориях с очевидной разметкой?
Если категории действительно очевидны (например, автоматически извлекаемые из структурированных данных) — IRR не нужна. Но если в процессе участвует человеческая интерпретация (классификация текста, оценка тональности, распознавание намерения) — IRR обязательна, даже если задача кажется простой. "Очевидность" часто оказывается субъективной.
Опубликовано 17 апреля 2026
Алексей Логинов