Содержание

Каждое мнение важно

Создайте опрос и превратите обратную связь в источник роста

Создать сейчас
Лого WebAsk

Двумерный анализ: что это, примеры, методы и подходы проведения

Полезные статьи
Двумерный анализ: что это, примеры, методы и подходы проведения

Двумерный анализ – это один из статистических подходов, который позволяет выявить связи и влияния между двумя разными величинами или переменными (признаками).

В отличие от сравнительного анализа, где два объекта могут исследоваться и сравниваться по заранее определённому списку свойств, двумерный анализ позволяет находить сложные закономерности, которые на первый взгляд могут быть неочевидными. А помогают в этом сильные математические модели и статистика.

В данном материале расскажем о двумерном анализе, существующих подходах и инструментах для его проведения, опишем общие шаги и ограничения.

Что такое двумерный анализ

Двумерный анализ (англ. bivariate analysis) — это метод статистического исследования, направленный на изучение взаимосвязей между двумя переменными, признаками, показателями или метриками, которые соотносятся с одним объектом, процессом или явлением.

Двумерный анализ является подвидом многомерного анализа, но в отличие от последнего фокусируется на поиске связей только между парными характеристиками или свойствами. Альтернатива – одномерный анализ, который не исследует никаких связей, а только изучает отдельно взятые характеристики и свойства объекта.

Цели и задачи двумерного анализа

С целями всё ясно – поиск связей и взаимного влияния. Это напрямую следует из определения. Но вот задачи двумерного анализа следует детализировать поподробнее:

  1. Подтвердить или опровергнуть наличие связи. Иногда достаточно простого ответа в формате «есть/нет».
  2. Определить характер и направленность связи. Например, влияние может быть сильным, слабым или средним, линейным или нелинейным, может иметь положительную или отрицательную (прямую или обратную) направленность.
  3. Проверить наиболее вероятные гипотезы о характере связи.
  4. По возможности построить достоверную математическую модель, описывающую взаимное влияние факторов / свойств, чтобы на её основе можно было прогнозировать будущие изменения и значения.

Примеры применения

Предметные примеры, в которых будет оправдано использование двумерного анализа:

  • Проверка силы взаимного влияния между затратами в интернет-рекламу и количеством заказов в онлайн-магазине.
  • Выявление зависимости между количеством учебных часов и успеваемостью студентов ВУЗов, профтехучилищ, школ.
  • Поиск связи и силы влияния между среднесуточной температурой и продажей мороженого (как наиболее яркий пример сезонности спроса).
  • Выявление связи между стажем работы и уровнем заработной платы узкого специалиста.
  • Проверка влияния дозы лекарства на получаемый терапевтический эффект.
  • И т.п.

Наиболее распространённые подходы к проведению двумерного анализа

Для проведения двумерного анализа могут использоваться разные подходы и методы исследований. Выбор конкретного варианта будет зависеть от типа данных, целей исследования, требуемой глубины, точности и достоверности. В связи с этим, желательно изначально выстроить наиболее вероятную гипотезу (правдоподобную модель, которая может лежать в основе связей между двумя факторами), а затем проверить или опровергнуть её исследованием.

Итак, для построения гипотез можно использовать следующие подходы:

1. Описательный подход

Его цель – описать связь между переменными. В качестве инструментов могут подойти накопленная статистика показателей в привязке ко времени, а также удобные средства визуализации данных: диаграммы рассеяния, таблицы сопряжённости и т.п. На основе таких данных можно посчитать коэффициент корреляции.

2. Инференциальный (выводной) подход

Его цель – сделать выводы о генеральной совокупности на основе выборки. Соответственно, в качестве инструментов в основном будут использоваться статистические тесты и доверительные интервалы.

3. Предсказательный подход

Здесь исследователю нужно выявить характер зависимости между величинами и на основе предположения выстроить адекватную математическую модель. А затем в ходе исследования подтвердить или опровергнуть свою гипотезу. В качестве инструментов могут подойти регрессионный анализ, кривые подгонки и т.п.

4. Диагностический подход

Когда у вас на руках в наличии рабочая модель, но есть сомнения в её качестве, можно провести исследование для её проверки на качество и отклонения. На роль инструментов могут подойти графики остатков, тесты на гомоскедастичность, проверки на нормальность ошибок.

Методы и инструменты двумерного анализа

В этом разделе собрали наиболее предметные методики, на основе которых могут выявляться и рассчитываться зависимости между двумя переменными. Это лишь часть из потенциально применимых инструментов. В реальности методов анализа и математических подходов значительно больше.

Методы для анализа связей двух количественных переменных

  • Корреляционный анализ. Позволяет оценить силу и направление линейной связи. Для поиска корреляции можно использовать такие методы, как коэффициент корреляции Пирсона (для нормально распределённых данных), Спирмена (оценивает связь с монотонной функцией), Кендалла (устойчив к выбросам, поэтому чаще всего используется для больших объёмов данных с одинаковыми значениями) или ранговые корреляции (подходят для нелинейных монотонных связей).
  • Регрессионный анализ. Позволяет не только оценить силу связи, но и попробовать построить её математическую модель. Для этих задач могут подойти: простая линейная регрессия (на основе уравнения вида Y = a + b*X) или непараметрическая регрессия (например, LOESS, используется, когда связь нелинейна и её вид неизвестен, сглаживает данные, показывая общий тренд).

Методы для анализа двух качественных (категориальных) переменных

  • Анализ таблиц сопряженности (кросс-таблиц). Это сводная частотная таблица, в которую заносятся распределения двух признаков, критериев или свойств.
  • Проверка гипотез о независимости. Используется для подтверждения или опровержения факта существования зависимости между двумя факторами. Для этих задач могут подойти: критерий согласия Пирсона (хи-квадрат, позволяет проверить статистически значимую связь между переменными), точный критерий Фишера (используется при малых ожидаемых частотах в таблице 2x2).
  • Измерение силы связи (коэффициенты). Уже более сложные математические подходы, которые помогают найти силу и направление связи, например, коэффициент Крамера (для номинальных переменных), коэффициент Гамма, Сомерса или Кендалла (для порядковых переменных).

Методы для анализа смешанной пары: количественная и категориальная

  • Сравнение средних значений по группам. Это когда категориальная переменная определяет группы, а количественная измеряемый показатель. Могут подойти методы: t-критерий Стьюдента для двух независимых групп (сравнивает средние в двух группах), односторонний дисперсионный анализ (ANOVA, используется для сравнения средних в трёх и более группах, если ANOVA обнаруживает различия, проводят пост-хок тесты – Тьюки, Шеффе), непараметрические аналоги (при нарушении предпосылок, U-критерий Манна-Уитни, критерий Краскела-Уоллиса).
  • Графический анализ и описательные статистики. Подойдут наиболее распространённые методы для работы с таблицами и для визуализации данных: расчёт и сравнение среднего, медианы, дисперсии по каждой группе, визуализация Box Plot (ящик с усами, максимально компактно показывает медиану, квартили, разброс и выбросы по группам).

Читайте также: Какие методы исследования бывают.

Общие этапы и шаги проведения двумерного анализа

Как можно было заметить, подходов и инструментов для проведения двумерного анализа более чем достаточно. Но как раз из-за этого возникает другая проблема: какой из подходов выбрать, чтобы результаты получились максимально достоверными и значимыми?

Мы предлагаем последовательно пройти по следующим шагам:

Шаг 1. Формулирование цели исследования и построение первичной гипотезы

Цель анализа напрямую влияет на подход к исследованию, а также на набор совместимых инструментов. Уже на первом шаге нужно сформулировать и предположить зависимость между двумя переменными. Но пока это должна быть лишь аналитическая или статистическая гипотеза о наличии, направлении и характере связи.

Шаг 2. Выбор переменных и определение их ролей / типов

Напомним, двумерный анализ работает только с двумя переменными: признаками, свойствами, характеристиками и т.п. Вам нужно отсечь все остальные переменные и сфокусировать свои усилия только на двух конкретных.

Для выбранных признаков уточняется их тип (количественные они, категориальные, порядковые или номинальные), а также роль. Роль может быть факторная (независимая) и результативная (зависимая).

Шаг 3. Подготовка и стандартизация данных

Если данных ещё нет, то нужно провести исследование. В этом вам могут помочь конструкторы опросов, полевое анкетирование, интервью и т.п. Как провести маркетинговое исследование.

Далее проверяется полнота и корректность данных, выявляются пропуски, выбросы и аномалии. При необходимости выполняется кодирование категорий, расчёт, нормализация и группировка значений.

Читайте также: Как респонденты искажают свои ответы.

Шаг 4. Проведение первичного (описательного) анализа

Лучше всего для этой задачи подходят таблицы и простейшие способы визуализации: диаграммы и графики, медианы и прочее. Так вы сможете получить общее представление об исследуемых характеристиках, признаках или свойствах объекта.

Уже здесь могут быть выявлены простейшие связи и зависимости.

Шаг 5. Выбор конкретного подхода и метода двумерного анализа

Метод подбирается исходя из типов переменных и целей исследования. Например: корреляционный, регрессионный, сравнительный, комбинированный и т.п. Список наиболее распространённых инструментов мы привели выше.

Логика выбора может опираться на факт выявления зависимости при первичном анализе:

  • Если нужно проверить наличие связи, то лучше всего подойдут инструменты для проверки гипотез.
  • Если связь есть и осталось определить её характер и силу, то используйте методы расчёта корреляций.
  • Если важно построить модель зависимости, то лучше других подойдёт регрессионный анализ.

Шаг 6. Непосредственный расчёт и проведение анализа

Проводимые вычисления будут напрямую связаны с выбранным методом: коэффициенты корреляции, параметры регрессии, средние значения по группам, статистические критерии значимости и т.п.

Шаг 7. Проверка достоверности результатов

Для оценки надёжности выявленных связей могут подойти доверительные интервалы и статистические тесты. Плюс желательно проверить, является ли обнаруженная зависимость случайной.

Шаг 8. Визуализация и интерпретация результатов, подведение итогов

Формируются графики, таблицы и краткие пояснения, обеспечивающие наглядность и удобство восприятия результатов. Сами результаты анализа переводятся в содержательные выводы – описывается характер и сила взаимосвязи, даются заключения об их практическом значении, а также об ограничениях полученных данных.

Ограничения и нюансы, о которых важно знать

  • Двумерный анализ работает только с двумя переменными или факторами. Соответственно, он не учитывает влияние других факторов, даже если они есть и чётко прослеживается их влияние на объект исследования.
  • Связь, выявленная на основе статистики, не всегда соответствует реальности. Она вполне может быть опосредованной или вообще отсутствовать.
  • Качество и правильность выборки обязательно влияют на достоверность и адекватность данных. Любые дефекты (выбросы, смещения и т.п.) могут приводить к неправильной трактовке зависимостей.
  • Нелинейные зависимости предельно тяжело выявить. Это чем-то напоминает реверс-инжиниринг. Лучше всего двумерный анализ работает только с линейными зависимостями.
  • Результаты анализа напрямую зависят от выбранного метода и подхода.

Итоги и рекомендации

Несмотря на то, что двумерный анализ работает всего с двумя переменными, для его проведения может быть использовано огромное количество разных подходов. Они отличаются между собой сложностью расчётов, достоверностью, точностью и другими параметрами. Отдельные методики могут потребовать глубоких познаний в математике и специальных программных решений.

При этом анализ всё равно не будет давать полной картины зависимостей, а при нерепрезентативной выборке ещё и выводы могут получиться ошибочными. Тем не менее, двумерный анализ остаётся одним из самых востребованных аналитических инструментов, которые помогают в работе маркетологов, при принятии управленческих решений в бизнесе, а также в других задачах.

Какой бы метод анализа вы ни выбрали, WebAsk может предложить вам удобную платформу для сбора данных: конструктор онлайн-опросов и анкет, оценка знаний с подсчётом баллов, сбор обратной связи и пр. У нас есть готовая панель респондентов с настраиваемым таргетингом.

5
Еще больше интересного в нашем Telegram канале!

Никакого спама, только самое актуальное