Inter-rater Reliability (межэкспертная надёжность, IRR)

Q: Сколько оценщиков нужно для проверки IRR?

Минимум два для Cohen's kappa. Три и более — используется Fleiss's kappa или Krippendorff's alpha. На практике двух достаточно: прирост надёжности при добавлении третьего оценщика невелик, а стоимость работы удваивается.

Q: Какой порог IRR считать приемлемым?

Cohen's kappa ≥ 0.6 — минимум для исследовательских целей. ≥ 0.7 — стандарт для прикладного использования. ≥ 0.8 — высокая согласованность, подходит для важных решений. Ниже 0.6 — схема или оценщики требуют доработки.

Q: Что делать, если IRR низкая?

Не усреднять оценки, а разбирать расхождения. Проанализируйте случаи несогласия, уточните определения категорий, добавьте примеры, проведите калибровочную сессию. После — повторный замер IRR на новой выборке.

Q: Можно ли использовать IRR для одного оценщика?

Нет — IRR требует минимум двух независимых оценщиков. Для одного можно проверить intra-rater reliability: тот же человек кодирует те же данные повторно через время. Это проверка стабильности индивидуальной работы.

Q: Нужно ли проверять IRR при простых категориях?

Если категории автоматически извлекаемые — нет. Но если в процессе участвует человеческая интерпретация (классификация текста, оценка тональности) — IRR обязательна, даже если задача кажется простой.

Алексей Логинов 17 апреля 2026 Время чтения ≈ 7 мин.

Вы собрали 500 открытых ответов в опросе и даёте их двум аналитикам для кодирования по категориям "жалоба", "благодарность", "вопрос".

Первый аналитик находит 120 жалоб, второй — 180. Кому верить? Если их коды расходятся на 30%, то любые выводы на основе этой классификации сомнительны. Inter-rater reliability — показатель, который формально оценивает: читают ли разные эксперты одни и те же данные одинаково.

Определение

Inter-rater Reliability (межэкспертная надёжность, IRR) — степень согласованности оценок или классификаций, которые дают разные независимые эксперты (raters) по отношению к одним и тем же объектам или ответам. Используется при кодировании открытых ответов, оценке качественных данных, 360-градусной обратной связи, экспертных оценках. Высокая IRR означает, что категоризация или оценка объективна и воспроизводима, а не зависит от индивидуального восприятия конкретного эксперта.

Зачем измерять IRR

Любые данные, проходящие через субъективную оценку человека, требуют проверки: один ли и тот же результат дают разные эксперты? Без IRR вы не знаете, отражают ли коды реальную структуру данных или индивидуальные предпочтения конкретного аналитика.

Три типичных сценария, где IRR критична:

Кодирование открытых ответов. После опроса с открытыми вопросами ответы классифицируют по темам. Если коды субъективны, агрегированная статистика ("40% упомянули качество поддержки") становится ненадёжной.

Качественный анализ интервью, фокус-групп, обратной связи. Выделение тем, паттернов, инсайтов — субъективный процесс, где IRR гарантирует воспроизводимость.

Оценочные процедуры. Ассессменты, аттестации, экспертные оценки качества работы. Если разные оценщики дают разные оценки одному и тому же человеку, процесс несправедлив и неинформативен.

Как измеряется IRR

Выбор коэффициента зависит от типа данных:

Процент согласия (Percent Agreement). Самый простой — доля случаев, когда оценщики сошлись. Интуитивен, но переоценивает согласие: даже случайное совпадение включается в процент. Не рекомендуется как единственный показатель.

Cohen's kappa (κ). Для двух оценщиков и номинальных категорий. Учитывает согласие за вычетом случайных совпадений. Значения от -1 до 1:

κ < 0 — согласие хуже случайного (редко)
0 ≤ κ < 0.4 — слабое
0.4 ≤ κ < 0.6 — умеренное
0.6 ≤ κ < 0.8 — существенное
κ ≥ 0.8 — почти полное согласие

Fleiss's kappa. Обобщение Cohen's kappa на случай трёх и более оценщиков.

Krippendorff's alpha (α). Универсальный коэффициент — работает для любого числа оценщиков, любых типов данных (номинальные, порядковые, интервальные), учитывает пропущенные оценки. Считается современным стандартом.

Intraclass Correlation Coefficient (ICC). Для количественных оценок (числовые рейтинги). Применяется в психометрии и ассессментах. Пороги аналогичны kappa.

Пример: кодирование открытых ответов об опыте обслуживания

Опрос собрал 300 открытых ответов на вопрос "Расскажите о вашем последнем опыте взаимодействия с поддержкой". Два аналитика независимо кодируют каждый ответ в одну из 5 категорий: "положительный опыт", "нейтральный", "проблема с продуктом", "проблема с сотрудником", "не про поддержку".

Результаты первого прохода:

Процент согласия: 78% (234 из 300 ответов классифицированы одинаково)
Cohen's kappa: 0.64 — существенное согласие

78% звучит неплохо, но kappa 0.64 — на границе приемлемого. Разобрали 66 спорных случаев: выявили, что аналитики расходятся в категориях "проблема с продуктом" vs "проблема с сотрудником" — границы между ними нечёткие. Обновили кодировочную инструкцию с конкретными примерами для каждой категории, провели короткий калибровочный workshop. После этого повторный замер на новой части данных: κ = 0.82 — почти полное согласие. Теперь данные можно анализировать и принимать на их основе решения.

Процедура проверки и повышения IRR

1. Разработка кодировочной схемы. Чёткие, взаимоисключающие категории с определениями и примерами. Чем яснее схема — тем выше IRR. Размытые границы между категориями — главная причина низкой согласованности.

2. Обучение оценщиков. Совместная калибровка на небольшой выборке: разбор сложных случаев, обсуждение принципов категоризации, согласование трактовок.

3. Пилотное кодирование. Оба оценщика независимо кодируют 30-50 случаев. Расчёт IRR. Если низкая — разбор расхождений, уточнение схемы, повторная калибровка.

4. Основное кодирование. После того как пилотная IRR приемлема (κ ≥ 0.7), оценщики кодируют весь массив. Часть данных (10-20%) — перекрытие обоих оценщиков для контроля стабильности.

5. Периодическая проверка. При длительной работе — переоценка IRR каждые 100-200 единиц, чтобы отловить "дрейф" в интерпретациях.

Что влияет на IRR

Чёткость категорий. Размытые или пересекающиеся категории — главная причина низкой согласованности. "Негативный опыт" и "недовольство" могут означать почти одно и то же — это создаёт постоянные расхождения.

Количество категорий. Больше категорий → ниже согласованность. 3-5 категорий обычно дают более высокую IRR, чем 15. Если нужна детальная классификация — делайте её двухуровневой: сначала базовые категории (высокая IRR), затем подкатегории внутри (более сложное согласование).

Опыт оценщиков. Новые аналитики дают более вариативные коды. Предварительная калибровка и совместное обсуждение первых случаев повышают IRR.

Сложность материала. Длинные, многотемные ответы кодируются с меньшим согласованием, чем короткие однозначные. Для сложных данных может потребоваться multi-label кодирование (несколько тегов на один ответ) вместо единственной категории.

IRR vs другие виды надёжности

IRR дополняет другие показатели надёжности:

IRR — согласованность между оценщиками
Test-retest — стабильность во времени
Cronbach's alpha — согласованность внутри шкалы

Для субъективных оценок IRR — критичный показатель. Для стандартизированных шкал (выбор варианта из списка) IRR менее важна — там ключевая надёжность внутренняя и временная.

Типичные ошибки при работе с IRR

Использовать только процент согласия. Для данных с неравномерным распределением категорий (90% ответов — "нейтральные") даже случайный выбор даст высокий процент согласия. Kappa корректирует это смещение и даёт более честную оценку.

Оценщики обсуждают случаи в процессе кодирования. Если аналитики в ходе работы советуются — они искусственно выравнивают коды, и IRR измеряет не независимое согласие, а коллективное обсуждение. Независимость оценок критична.

Не фиксировать кодировочную схему. Схема должна быть зафиксирована до начала кодирования и не меняться в процессе. Если категории появляются или уточняются по ходу — предыдущие закодированные случаи нужно переоценить.

Не документировать расхождения. Анализ случаев несогласия — ценная диагностика: он показывает, где схема неоднозначна, какие типы ответов системно путаются, где нужны уточнения. Без этого анализа IRR превращается в цифру без практических выводов.

IRR в исследованиях на базе опросов

В работе с опросными данными IRR применяется в основном при анализе открытых ответов и качественных исследований. Стандартная практика: два независимых аналитика кодируют выборку ответов, рассчитывается Cohen's kappa, при необходимости схема дорабатывается, и затем весь массив кодируется одним аналитиком с периодической перепроверкой на выборке.

IRR — также часть триангуляции в смешанных дизайнах исследования: когда количественные данные дополняются качественным анализом открытых ответов или интервью, надёжность кодирования последних должна быть задокументирована. Без этого выводы качественной части не могут подкреплять количественные результаты.

Inter-rater Reliability — это объективная мера того, насколько согласованы оценки разных экспертов. Без IRR любой качественный анализ остаётся в зоне "аналитик так увидел". С ней — становится воспроизводимой процедурой. Cohen's kappa от 0.7 — приемлемый порог; выше 0.8 — стандарт для серьёзных исследований. Низкая IRR — сигнал дорабатывать кодировочную схему, а не смириться с разногласиями.

Частые вопросы

Сколько оценщиков нужно для проверки IRR?

Минимум два — это классический случай для Cohen's kappa. Три и более — используется Fleiss's kappa или Krippendorff's alpha. На практике двух достаточно для большинства задач: прирост надёжности оценки при добавлении третьего оценщика невелик, а стоимость работы удваивается.

Какой порог IRR считать приемлемым?

Cohen's kappa ≥ 0.6 — минимум для исследовательских целей. ≥ 0.7 — стандартный порог для прикладного использования. ≥ 0.8 — высокая согласованность, подходит для принятия важных решений. Ниже 0.6 — схема или оценщики требуют доработки.

Что делать, если IRR низкая?

Не "усреднять" оценки, а разбирать расхождения. Проанализируйте случаи несогласия — найдёте, где схема неоднозначна или где оценщики трактуют её по-разному. Уточните определения категорий, добавьте примеры, проведите калибровочную сессию. После этого — повторный замер IRR на новой выборке.

Можно ли использовать IRR для одного оценщика?

Нет — IRR по определению требует как минимум двух независимых оценщиков. Для одного оценщика можно проверить intra-rater reliability: тот же человек кодирует те же данные повторно через время. Это проверка стабильности индивидуальной работы, не согласованности между экспертами.

Нужно ли проверять IRR при простых категориях с очевидной разметкой?

Если категории действительно очевидны (например, автоматически извлекаемые из структурированных данных) — IRR не нужна. Но если в процессе участвует человеческая интерпретация (классификация текста, оценка тональности, распознавание намерения) — IRR обязательна, даже если задача кажется простой. "Очевидность" часто оказывается субъективной.

Опубликовано 17 апреля 2026

Каждое мнение важно

Inter-rater Reliability (межэкспертная надёжность, IRR)

Определение

Зачем измерять IRR

Как измеряется IRR

Пример: кодирование открытых ответов об опыте обслуживания

Процедура проверки и повышения IRR

Что влияет на IRR

IRR vs другие виды надёжности

Типичные ошибки при работе с IRR

IRR в исследованиях на базе опросов

Частые вопросы

Сколько оценщиков нужно для проверки IRR?

Какой порог IRR считать приемлемым?

Что делать, если IRR низкая?

Можно ли использовать IRR для одного оценщика?

Нужно ли проверять IRR при простых категориях с очевидной разметкой?

Похожие материалы

In-depth Interviews: глубинные интервью

IQS: внутренние показатели качества

IQR (Interquartile Range, интерквартильный размах)

Iframe (inline frame)

Ищут чаще всего

Анкета: виды, методы и проведение

Респондент

NPS: индекс лояльности клиентов

Experimental Research: экспериментальное исследование

Стандартное отклонение (Standard Deviation, SD)

SUS: юзабилити продукта