Безусловно, существуют и некоторые универсальные вещи, которые радуют большинство котиков, что сильно упрощает нам жизнь. И в этой главе мы рассмотрим один из методов, который позволяет их выявить, — корреляционный анализ.
Предположим, мы решили проверить, связаны ли между собой котиковое счастье и размер ежедневных котиковых порций. Если обильная еда делает котиков счастливыми, то эта взаимосвязь будет отражаться вот таким графиком.
Это так называемая линейная положительная связь. Противоположная (хотя и маловероятная) ситуация — котики являются приверженцами оздоровительных голоданий, и чем больше порции им предлагают, тем более несчастными они становятся.
Такая связь называется линейной отрицательной. Наконец, может получиться так, что котикам вообще не важно, насколько большие у них порции, главное, чтоб еда была вкусной. В этом случае мы наблюдаем отсутствие связи (или нулевую связь), которая отображается вот таким вот графиком.
Однако в реальной жизни мы очень редко можем наблюдать подобные случаи: как правило, у нас возникает что-нибудь такое.
И поэтому мы нуждаемся в некоторой мере, которая позволила бы нам, во-первых, оценить, насколько сильно связаны между собой счастье и количество доступной еды, а во-вторых, является ли эта связь положительной или отрицательной.
Для вычисления такой меры воспользуемся хитрым способом. Для начала представим, что у нас наблюдается линейная положительная связь. Теперь посчитаем средние арифметические по размеру порций и уровню счастья, а затем возьмем эти показатели в качестве нулевых точек отсчета для нашего графика. После этого мы можем увидеть, что часть котиков более счастлива и получает больше еды, чем в среднем, а остальные — менее счастливы и получают меньше еды, чем средний котик.
Отклонения от среднего по обеим величинам у первых, зажиточных котиков будут положительными числами, а у вторых — отрицательными. Однако если вы возьмете любого из них (назовем его Барсиком) и перемножите его отклонения между собой, то вы получите положительное число. В том числе и потому, что минус на минус дает плюс.
Теперь представим обратную ситуацию: чем больше порции, тем менее счастливыми становятся котики (типичного представителя этой группы мы назовем Мурзиком). В этом случае мы также наблюдаем разделение на две группы: несчастных обжор и счастливых голодающих. Но и у тех, и у других знак одного отклонения будет положительным, а знак другого — отрицательным. А как мы знаем, произведение положительного и отрицательного чисел дает отрицательное число.
Иными словами, знак, который получается при перемножении отклонений, может служить индикатором того, является ли наш котик Барсиком, который становится счастливее при увеличении порций, либо Мурзиком, которому еда отвратительна. Осталось только понять, кто из них делает больший вклад в наблюдаемые данные, что достигается простым суммированием полученных произведений. Если при результате стоит плюс, то победили Барсики и связь положительная. Если минус — то преобладают Мурзики и связь отрицательная. Если же ответ близок к нулю, объявляется боевая ничья и признается отсутствие связи.
Далее с помощью некоторых нехитрых преобразований этот результат приводят в нужную размерность, получив так называемый коэффициент корреляции Пирсона. Он может изменяться в пределах от -1 до 1, где -1 — отрицательная связь, +1 — положительная связь, а 0 — отсутствие всякой связи.
Нулевая гипотеза такого коэффициента — связи нет, альтернативная — связь есть (не важно, положительная или отрицательная). Если коэффициент корреляции достаточно большой по модулю, то нулевая гипотеза отвергается в пользу альтернативной.
Основная проблема r Пирсона как параметрического критерия (т. е. использующего в расчетной формуле средние значения) заключается в том, что он очень не любит выбросы и ненормальные распределения. Поэтому у него есть непараметрический аналог — коэффициент корреляции Спирмена.
Чтобы его вычислить, упорядочим наших котиков от самого счастливого до самого несчастного и присвоим им ранги. Затем мы перераспределим их от самого переедающего до самого голодного и присвоим им ранги уже по этому признаку. Если результаты обоих ранжирований будут совпадать между собой, то мы можем констатировать положительную связь, если же они будут диаметрально противоположными — отрицательную.