Статистика и котики - Страница 5


К оглавлению

5


Перво-наперво необходимо получить таблицу теоретических частот. Для этого для каждой ячейки подсчитывается теоретическая частота по такой формуле.



Следующим шагом мы смотрим, насколько сильно различаются между собой соответствующие ячейки в наших таблицах. Делается это вот так.



Квадрат в числителе этой формулы убирает знак, а знаменатель приводит Хи-квадрат в нужную размерность. Заметим, что если теоретическая частота равна эмпирической, то, применив эту формулу, мы получим 0.

Последним шагом мы складываем все получившиеся значения. Это и будет Хи-квадрат Пирсона. Чем он больше, тем сильнее отличаются песики от котиков.



Помимо всего вышеперечисленного существуют и другие статистические критерии, которые позволяют нам определить, чем песики отличаются от котиков. Они, как правило, имеют разные механизмы вычисления и требования к данным. Но вне зависимости от того, каким критерием вы воспользовались, мало просто его вычислить. Необходимо еще и уметь его интерпретировать. И этому вопросу будет посвящена следующая глава.


НЕМАЛОВАЖНО ЗНАТЬ

Загадочные степени свободы


Многих изучающих статистику ставит в тупик понятие «степень свободы», которое часто встречается в учебниках.

Предположим вы знаете, что сумма размеров всех ваших котиков равна 75 см, но не знаете величину каждого конкретного котика. Эти величины будут неизвестны ровно до тех пор, пока вы не начнете их измерять.



Представим, что вы узнали размер первого котика и он оказался равен 20 см. После несложных вычислений можно убедиться, что сумма размеров оставшихся котиков будет 55 см. При этом их конкретные размеры до сих пор неизвестны.



Измерим второго котика. Он оказался равен 25 см. Что мы можем сказать о размере третьего? А то, что он перестал быть неизвестным — теперь мы можем его вычислить. И действительно, вычтя из общей суммы размеры первого и второго котика мы получаем размер третьего.



Число степеней свободы — это то количество котиков, которое мы должны измерить, чтобы однозначно узнать размер всех котиков при известном среднем или дисперсии. Если у вас только одна котиковая выборка, то это количество котиков минус единица.

Если к ним добавляются еще и выборка пёсиков (например, при вычислении t-критерия Стьюдента), то общее количество степеней свободы — это просто сумма степеней свободы котиков и пёсиков. Или по-другому — общее количество животных вычесть двойку.



Истоки этого понятия — в самых основах теории вероятности и математической статистики, которые выходят за пределы нашей книги. С практической же точки зрения, знание о степенях свободы нужно при работе с таблицами критических значений и расчёте p-уровня значимости, о которых вы узнаете из следующей главы.

Глава 4.
Как понять, что песики отличаются от котиков
или p-уровень значимости

Предположим, что вы вычислили t-критерий Стьюдента. Или U-критерий Манна-Уитни. Или какой-нибудь другой. Как же по нему понять, действительно ли песики и котики различаются по размеру? Чтобы это выяснить, статистики используют весьма нетривиальный подход.

Во-первых, они делают предположение, что котики и песики, как биологические, виды абсолютно не отличаются друг от друга. Это предположение называется нулевой гипотезой.



Следующим шагом они вычисляют вероятность того, что две случайно выбранные группы котиков и песиков дадут значение критерия большее или равное тому, которое мы получили (чаще всего без учета его знака). Эта вероятность называется p-уровнем значимости.

Если p-уровень значимости меньше 5% (чаще записывается как 0,05), то нулевая гипотеза отвергается и принимается гипотеза о том, что котики и песики все-таки различаются. Такая гипотеза называется альтернативной.



Если же p-уровень значимости больше 0,05, то нулевая гипотеза не отвергается.



Однако то, что она не отвергается, еще не значит, что она верна. Это означает только то, что в данном опыте мы не обнаружили значимых различий.

В специальных статистических программах p-уровень значимости вычисляется автоматически, и нам достаточно просто найти его в соответствующей таблице. Однако, если у вас таких программ нет, то вам придется пользоваться таблицами критических значений.

5