Ложная корреляция

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).

Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.

Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье. Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон. Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

ковариации

Переменные могут быть связаны линейным отношением. Это отношение, которое последовательно аддитивно для двух выборок данных

Это соотношение можно суммировать между двумя переменными, называемыми ковариацией. Он рассчитывается как среднее произведение между значениями из каждого образца, где значения были отцентрированы (их среднее значение вычтено).

Расчет выборочной ковариации выглядит следующим образом:

Использование среднего значения в расчете указывает на необходимость того, чтобы каждая выборка данных имела гауссово или гауссовидное распределение.

Знак ковариации можно интерпретировать как изменение двух переменных в одном и том же направлении (положительное) или в разных направлениях (отрицательное). Величина ковариации не легко интерпретируется. Нулевое значение ковариации указывает, что обе переменные полностью независимы.

СОУ ()Функция NumPy может использоваться для вычисления ковариационной матрицы между двумя или более переменными.

Главная диагональ матрицы содержит ковариацию между каждой переменной и самой собой. Другие значения в матрице представляют ковариацию между двумя переменными; в этом случае два оставшихся значения одинаковы, учитывая, что мы рассчитываем ковариацию только для двух переменных.

Мы можем вычислить ковариационную матрицу для двух переменных в нашей тестовой задаче.

Полный пример приведен ниже.

Ковариационная и ковариационная матрицы широко используются в статистике и многомерном анализе для характеристики отношений между двумя или более переменными.

При выполнении примера вычисляется и печатается ковариационная матрица.

Поскольку набор данных был задуман для каждой переменной, взятой из гауссовского распределения, а переменные линейно коррелированы, ковариация является разумным методом для описания взаимосвязи.

Ковариация между двумя переменными составляет 389,75. Мы можем видеть, что это положительно, предполагая, что переменные изменяются в том же направлении, что и мы ожидаем.

Проблема с ковариацией как статистического инструмента заключается в том, что ее сложно интерпретировать. Это приводит нас к коэффициенту корреляции Пирсона дальше.

Парная корреляция

Этот термин употребляется для обозначения взаимоотношений между двумя определенными величинами. Известно, что расходы на рекламу в США в значительной мере влияют на объем ВВП этой страны. Коэффициент корреляции между данными величинами по итогам наблюдений, продолжавшихся в течение 20 лет, составляет 0,9699.

Более «приземленный» пример – связь между посещаемостью страницы онлайн-магазина и объемом его продаж.

И уж, конечно, вряд ли кто-нибудь станет отрицать наличие зависимости, существующей между температурой воздуха и продажами пива или мороженого.

Корреляция – это взаимозависимость двух величин; коэффициент корреляции – это объективный показатель, определяющий степень этой взаимозависимости. Коэффициент корреляции может быть и положительным, и отрицательным. Что касается ценных бумаг, то они крайне редко бывают абсолютно коррелированными.

Наши группы:

Какая связь между коэффициентом корреляции и ковариацией?

Мы уже знаем, что такое ковариация и откуда берется формула ковариации. Если мы знаем взаимосвязь между ковариацией двух переменных X и Y и нуля, мы можем сделать вывод, являются ли X и Y коррелированными положительно, отрицательно или некоррелированными. Тогда возникает вопрос: отражает ли величина ковариации степень корреляции? То есть, если ковариация равна 100, обязательно ли она сильнее, чем положительная корреляция с ковариацией 10?

Взгляните на пример ниже!

Переменные X1 и Y1:

X1 =

Y1 =

Переменные X2 и Y2:

X2 =

Y2 =

Диаграммы совместного распределения X1, Y1 и X2, Y2 следующие:

Очевидно, из рисунка видно, что X1, Y1 и X2, Y2 все положительно коррелируют, и степень положительной корреляции между X1 и Y1, очевидно, больше, чем у X2 и Y2. Затем мы вычисляем ковариацию двух графиков, чтобы увидеть, так ли это.

Cov(X1,Y1) = 37.5526

Cov(X2,Y2) = 3730.26

авария! Ковариация X2 и Y2 в 100 раз больше, чем ковариация X1 и Y1. Не похоже, что чем больше ковариация, тем выше степень положительной корреляции. Это, в конце концов, почему?

Фактически, причина такой ситуации в том, что величины числовых изменений в двух ситуациях различаются (или различаются размеры). При вычислении ковариации мы не учитывали разницу в амплитуде различных переменных, и не существует единого стандарта измерения при сравнении ковариации.

Следовательно, чтобы устранить этот эффект, чтобы точно получить степень сходства между переменными, нам необходимо разделить ковариацию на стандартное отклонение соответствующих переменных. Таким образом получается выражение коэффициента корреляции:

ρ

=

C

o

v

(

X

,

Y

)

σ

X

σ

Y

\rho=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}
ρ=σX​σY​Cov(X,Y)​

Можно видеть, что коэффициент корреляции делится на стандартное отклонение переменных X и Y на основе ковариации. Формула для расчета стандартного отклонения:

σ

X

=

1

N

1

i

=

1

N

(

X

i

X

ˉ

i

)

2

\sigma_X=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar X_i)^2}
σX​=N−11​i=1∑N​(Xi​−Xˉi​)2​

σ

Y

=

1

N

1

i

=

1

N

(

Y

i

Y

ˉ

i

)

2

\sigma_Y=\sqrt{\frac{1}{N-1}\sum_{i=1}^N(Y_i-\bar Y_i)^2}
σY​=N−11​i=1∑N​(Yi​−Yˉi​)2​

Почему деление на стандартное отклонение соответствующих переменных устраняет влияние амплитуды? Это связано с тем, что само стандартное отклонение отражает степень изменения амплитуды переменной.Деление на стандартное отклонение может просто компенсировать его и стандартизировать ковариацию. Таким образом, диапазон коэффициента корреляции нормализуется до .

Затем мы вычислим коэффициенты корреляции X1, Y1 и X2, Y2 в приведенном выше примере.

ρ(X1,Y1) = 0.9939

ρ(X2,Y2) = 0.9180

Итак, мы получаем, что коэффициент корреляции между X1 и Y1 больше, чем коэффициент корреляции между X2 и Y2. Это соответствует реальной ситуации. Другими словами, исходя из коэффициента корреляции, мы можем определить степень корреляции между двумя переменными и сделать следующие выводы:

  • Коэффициент корреляции больше нуля, это означает, что две переменные положительно коррелированы, и чем больше коэффициент корреляции, тем выше положительная корреляция;

  • Коэффициент корреляции меньше нуля, это означает, что две переменные имеют отрицательную корреляцию, и чем меньше коэффициент корреляции, тем выше отрицательная корреляция;

  • Коэффициент корреляции равен нулю, что означает, что две переменные не коррелированы.

Оглядываясь назад на взаимосвязь между ковариацией и коэффициентом корреляции, можно сказать, что коэффициент корреляции — это стандартизированная и нормализованная форма ковариации, которая устраняет влияние различных измерений и изменений амплитуды. В практических приложениях более научным и точным является использование коэффициента корреляции при сравнении корреляции между различными переменными

Но у ковариации есть приложения во многих областях машинного обучения, и это очень важно! В будущем мы будем постепенно объяснять вам другие применения ковариации Red Stone!

Рекомендации:

Расчет коэффициента корреляции

Теперь давайте попробуем посчитать коэффициент корреляции на конкретном примере. Имеем таблицу, в которой помесячно расписана в отдельных колонках затрата на рекламу и величина продаж. Нам предстоит выяснить степень зависимости количества продаж от суммы денежных средств, которая была потрачена на рекламу.

Способ 1: определение корреляции через Мастер функций

Одним из способов, с помощью которого можно провести корреляционный анализ, является использование функции КОРРЕЛ. Сама функция имеет общий вид КОРРЕЛ(массив1;массив2).

  1. Выделяем ячейку, в которой должен выводиться результат расчета. Кликаем по кнопке «Вставить функцию», которая размещается слева от строки формул.
  2. В списке, который представлен в окне Мастера функций, ищем и выделяем функцию КОРРЕЛ. Жмем на кнопку «OK».
  3. Открывается окно аргументов функции. В поле «Массив1» вводим координаты диапазона ячеек одного из значений, зависимость которого следует определить. В нашем случае это будут значения в колонке «Величина продаж». Для того, чтобы внести адрес массива в поле, просто выделяем все ячейки с данными в вышеуказанном столбце.

    В поле «Массив2» нужно внести координаты второго столбца. У нас это затраты на рекламу. Точно так же, как и в предыдущем случае, заносим данные в поле.

    Жмем на кнопку «OK».

Как видим, коэффициент корреляции в виде числа появляется в заранее выбранной нами ячейке. В данном случае он равен 0,97, что является очень высоким признаком зависимости одной величины от другой.

Способ 2: вычисление корреляции с помощью пакета анализа

Кроме того, корреляцию можно вычислить с помощью одного из инструментов, который представлен в пакете анализа. Но прежде нам нужно этот инструмент активировать.

  1. Переходим во вкладку «Файл».
  2. В открывшемся окне перемещаемся в раздел «Параметры».
  3. Далее переходим в пункт «Надстройки».
  4. В нижней части следующего окна в разделе «Управление» переставляем переключатель в позицию «Надстройки Excel», если он находится в другом положении. Жмем на кнопку «OK».
  5. В окне надстроек устанавливаем галочку около пункта «Пакет анализа». Жмем на кнопку «OK».
  6. После этого пакет анализа активирован. Переходим во вкладку «Данные». Как видим, тут на ленте появляется новый блок инструментов – «Анализ». Жмем на кнопку «Анализ данных», которая расположена в нем.
  7. Открывается список с различными вариантами анализа данных. Выбираем пункт «Корреляция». Кликаем по кнопке «OK».
  8. Открывается окно с параметрами корреляционного анализа. В отличие от предыдущего способа, в поле «Входной интервал» мы вводим интервал не каждого столбца отдельно, а всех столбцов, которые участвуют в анализе. В нашем случае это данные в столбцах «Затраты на рекламу» и «Величина продаж».

    Параметр «Группирование» оставляем без изменений – «По столбцам», так как у нас группы данных разбиты именно на два столбца. Если бы они были разбиты построчно, то тогда следовало бы переставить переключатель в позицию «По строкам».

    В параметрах вывода по умолчанию установлен пункт «Новый рабочий лист», то есть, данные будут выводиться на другом листе. Можно изменить место, переставив переключатель. Это может быть текущий лист (тогда вы должны будете указать координаты ячеек вывода информации) или новая рабочая книга (файл).

    Когда все настройки установлены, жмем на кнопку «OK».

Так как место вывода результатов анализа было оставлено по умолчанию, мы перемещаемся на новый лист. Как видим, тут указан коэффициент корреляции. Естественно, он тот же, что и при использовании первого способа – 0,97. Это объясняется тем, что оба варианта выполняют одни и те же вычисления, просто произвести их можно разными способами.

Как видим, приложение Эксель предлагает сразу два способа корреляционного анализа. Результат вычислений, если вы все сделаете правильно, будет полностью идентичным. Но, каждый пользователь может выбрать более удобный для него вариант осуществления расчета.

Примеры расчета хи-квадрата Пирсона

Пример 1:

Необходимо определить наличие влияния предшествующей степени нарушения кровообращения на исход комиссуротомии (хирургическое разделение спаек при стенозе клапанного отверстия сердца). Пациенты поступали на комиссуротомию с различными исходными уровнями нарушения кровообращения. После комиссуротомии пациенты были выписаны с различными исходами операции.

Таблица: наблюдаемые (Observed) частоты распределения влияния степени нарушения кровообращения на результаты операции комиссуротомии

Степень нарушения кровообращения Всего больных Выписан с хорошим результатом операции Выписан с удовлетворительным результатом операции Выписан с ухудшением
II 30 20 8 2
III 80 43 20 17
IV 60 10 40 10
Всего 170 73 68 29
H0-гипотеза 100% 43% 40% 17%

Расчет ожидаемых (Expected) величин (на основании групповых частот)

Второй этап

Сопоставление наблюдаемых и ожидаемых частот с нахождением их разницы (O-E)

Степень нарушения кровообращения Выписан с хорошим результатом операции Выписан с удовлетворительным результатом операции Выписан с ухудшением
II +7 -4 -3
III +9 -12 +3
IV -16 +16
Всего

Третий этап

Рассчитываем сумму отношений квадрата разности значений и делим ожидаемые данные (хи-квадрат) (O-E)2/E

Степень нарушения кровообращения Выписан с хорошим результатом операции Выписан с удовлетворительным результатом операции Выписан с ухудшением
II 49/13=3,77 16/12=1,33 9/5=1,80
III 81/34=2,38 144/32=4,50 9/14=0,64
IV 256/26=9,85 256/24=10,66 0/10*=0,10
Всего 16 16,49 2,54

как видно из данной таблицы одно из ожидаемых значений равно 0, в данном случае будет подставлена 1, корректнее применить точный критерий Фишера (см. Условия применения хи-квадрата Пирсона)

Четвертый этап

Необходимо соотнести полученное значение хи-квадрата с критическим значением хи-квадрата.Возникает вопрос, откуда брать критическое значение? Критическое значение хи-квадрата, как и для большинства, статистических критериев зависит от степени свободы и уровня достоверности (alpha), который Вы выбираете.В нашем случае, наше количество степеней свободы равно (3-1)*(3-1)=4, уровень значимости, который мы хотим соблюсти равен 0,05Обратимся к таблице критических значение хи-квадрата:

  • Xи-квадрат (для d.f.=4 p=0.05) = 9.488
  • Xи-квадрат (для d.f.=4 p=0.01) = 13.27735,03 > 13,277;
  • p<0,01

Пример корректной интерпретации: Предшествующая степень нарушения кровообращения влияет на исход комиссуротомии (однако! Мы не можем говорить о направленности связи, то есть: улучшает-ухудшает сказать не можем), оптимально указать степень свободы, точное значение хи-квадрата, если есть возможность рассчитать точное значение достоверности, то так же стоит указать и его или остановиться на критическом значении достоверности (p<0,05 или p<0,01 и так далее).В нашем случае:d.f.=4, x2=35,03, p< 0.01Пример 2: Вернемся к нашему примеру с влиянием курения на развитие артериальной гипертензии:Исходная четырехпольная таблица:

Повышенное АД АД в пределах норма Всего
«Курильщики» 40 30 70
«Не курят» 32 48 80
Всего 72 78 150

Для четырехпольных таблиц существует упрощенная формула расчета значения хи-квадрата:

Исход + Исход 0 Всего
Фактор + a b a+b
Фактор 0 c d c+d
Всего a+c b+d N
  • x2= (40х48 – 32х30)х150 / (70)(80)(72)(78) = (1920 – 960)2х150/31449600 = 138240000/31449600 = 4,395
  • Сравним полученное значение хи-квадрата с критическим значением (для степени свободы 1, и уровнем значимости 3,841)

Правильная интерпретация: Курение оказывает влияние на формирование повышенного артериального давления df=1, x2= 4,395, p<0,05

Корреляционный анализ

Корреляционный анализ — это метод статистической обработки данных, который измеряет степень взаимосвязи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто используется термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием); он используется для определения необходимости включения определенных факторов в уравнение множественной регрессии, а также для оценки полученного уравнения регрессии на предмет соблюдения выявленных взаимосвязей (с помощью коэффициента детерминации).

Ограничения корреляционного анализа:
Его можно использовать, когда имеется достаточное количество наблюдений, подлежащих изучению. На практике считается, что число наблюдений должно быть как минимум в 5-6 раз больше числа факторов (существует также рекомендация использовать пропорцию, которая не менее чем в 10 раз превышает число факторов). Когда число наблюдений превышает число факторов в десять раз, вступает в силу закон больших чисел, который обеспечивает взаимное затухание случайных флуктуаций.

Необходимо, чтобы совокупность значений всех характеристик факторов и исходов подчинялась многомерному нормальному распределению. Если объем совокупности недостаточен для формального теста на нормальное распределение, закон распределения определяется визуально с помощью корреляционного графика. Если существует линейная тенденция в расположении точек в этом поле, то можно предположить, что все исходные данные подчиняются закону нормального распределения.

Начальный набор значений должен быть качественно однородным.
Корреляция как таковая не означает, что переменная предшествует или вызывает изменение, или что переменные причинно связаны друг с другом, а не с третьим фактором.

Область применения
Этот метод статистической обработки данных очень популярен в экономике, астрофизике и общественных науках (особенно психологии и социологии), хотя сфера применения коэффициентов корреляции очень широка: контроль качества промышленной продукции, металлургия, агрохимия, гидробиология, биометрия и так далее. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода объясняется двумя причинами: Коэффициенты корреляции относительно легко вычисляются, и их применение не требует специальной математической подготовки. Простота применения коэффициента в сочетании с легкостью его интерпретации привели к его широкому использованию в области анализа статистических данных.

Корреляционный анализ для двух случайных переменных состоит из:

Построение корреляционного поля и составление корреляционной таблицы;
Вычисление коэффициентов корреляции выборок и корреляционных связей.
Проверка статистической гипотезы о значимости ассоциации.

Основной целью корреляционного анализа является выявление взаимосвязи между двумя или более исследуемыми переменными, которая рассматривается как общая, связанная вариация двух исследуемых характеристик. Эта изменчивость имеет три основные характеристики: Форма, направление и сила.

Значения коэффициента корреляции

Охарактеризовать силу корреляционной связи можно прибегнув к шкале Челдока, в которой определенному числовому значению соответствует качественная характеристика.

  • 0-0,3 – корреляционная связь очень слабая;
  • 0,3-0,5 – слабая;
  • 0,5-0,7 – средней силы;
  • 0,7-0,9 – высокая;
  • 0,9-1 – очень высокая сила корреляции.

Шкала может использоваться и для отрицательной корреляции. В этом случае качественные характеристики заменяются на противоположные.

Можно воспользоваться упрощенной шкалой Челдока, в которой выделяется всего 3 градации силы корреляционной связи:

  • очень сильная – показатели ±0,7 — ±1;
  • средняя – показатели ±0,3 — ±0,699;
  • очень слабая – показатели 0 — ±0,299.

Данный статистический показатель позволяет не только проверить предположение о существовании линейной взаимосвязи между признаками, но и установить ее силу.

История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон.

Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой – определяются при помощи регрессионного анализа.
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа.
  4. Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов

Корреляционная плеяда

Метод корреляционных плеяд предназначен для нахождения таких групп параметров или объектов — «плеяд» — если корреляционная связь, т.е. сумма модулей коэффициентов корреляции между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из различных групп (межплеменных) невелико. Согласно определенному правилу на матрице корреляции, объекты образуют граф рисунка, который затем подразделяется на подграфы с помощью различных техник. Элементы, соответствующие каждому из подграфов, образуют плеяду.

Таким образом, корреляционная плеяда — это фигура, состоящая из вершин и соединяющих их линий. Вершины соответствуют параметрам и обычно обозначаются цифрами — номерами параметров. Линии соответствуют статистически значимым ассоциациям и графически показывают знак, а иногда и уровень уровень значимости взаимосвязи. Корреляционный набор может содержать все статистически значимые отношения корреляционной матрицы (иногда называемой корреляционным графом) или только их значимая часть (например, соответствующая фактору по результатам факторного анализа).

Правила построения корреляционных сеток: Когда число наблюдений превышает число факторов в десять раз, вступает в силу закон больших чисел, который обеспечивает взаимное ослабление случайных флуктуаций.

Необходимо, чтобы совокупность значений всех характеристик факторов и исходов подчинялась многомерному нормальному распределению. Если популяция недостаточна для формального теста на нормальное распределение, закон распределения определяется визуально с помощью корреляционной диаграммы. Если существует линейная тенденция в расположении точек на этом графике, то можно предположить, что все исходные данные подчиняются закону нормального распределения.

Начальный набор значений должен быть качественно однородным.
Корреляция как таковая не означает, что переменная предшествует или вызывает изменение, или что переменные причинно связаны друг с другом, а не с третьим фактором.

Существует несколько правил построения корреляции
плеяды.

поскольку в корреляционных исследованиях присутствие корреляции показывает только взаимосвязь изучаемых параметров, но не причинно-следственную зависимость, то не рекомендуется использовать односторонние стрелки, указывающие направление корреляции, при построении корреляционных плеяд. Либо используются двусторонние стрелки, или простые соединительные линии.
прямые и обратные зависимости обозначаются (маркируются) различными графическими свойствами линий: Например, прямые линии обозначаются сплошной линией, обратные линии — пунктирной.
корреляционный анализ может включать достаточно большое количество параметров, между которыми может возникнуть большое количество взаимосвязей, между которыми может возникнуть большое количество отношений

Для того чтобы фигура, отражающая эти отношения была читаема, важно расположение элементов корреляционного дерева относительно друг друга

Как правило, параметр с наибольшим количеством значимых связей помещается в центр корреляционного дерева, а параметры со спорадическими связями — на периферию

Иногда исследователю важно сосредоточиться на корреляции только одного параметра. Затем он помещается в центр фигуры, а связанные с ним параметры располагаются вокруг него (игнорируя существующие связи между другими параметрами)

Во многих случаях (и особенно в сравнительных исследованиях) факты дают информацию не только о наличии ассоциаций, но и об их отсутствии. Картина становится наиболее ясной, когда изображаются все измерения, участвующие в исследовании, даже если между многими из них может не быть никаких связей.

Взаимосвязь явлений в природе и обществе

Впервые термин «корреляция» был использован в палеонтологии – изучении ископаемых животных. Находя похожие части скелетов динозавров, ученые могли обосновать принадлежность их к одному виду. Схожие биологические останки в горных породах в Азии и Африке позволили сделать вывод о формировании этих слоев в один геологический период.

Например, есть убеждение, что полные люди добры и великодушны. Современная психология не может найти прямой логической связи темперамента и физиологии. Можно сделать два предположения:

  • человек с философским и гуманным складом ума находит удовольствие в еде, а не в том, чтобы пакостить окружающим;
  • человек с хорошим аппетитом сосредоточен на питании, а не на том, чтобы строить козни.

Статистик не ставит себе задачу: выяснить, какое из предположений правильное? Он лишь постарается проверить, верное ли утверждение в принципе. Позднее, возможно, физиолог изучит функции печени и сделает вывод о ее влиянии на гормональный фон и образование жиров в организме. Гормоны ответят за хорошее настроение, а отложение жиров – за внешний облик. Причина же будет лежать в области генетики.

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
Мake-up course
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: