научная статья по теме УСЛОВИЯ ПРИМЕНИМОСТИ КРИТЕРИЕВ СТЪЮДЕНТА И МАННА-УИТНИ Психология

Текст научной статьи на тему «УСЛОВИЯ ПРИМЕНИМОСТИ КРИТЕРИЕВ СТЪЮДЕНТА И МАННА-УИТНИ»

ПСИХОЛОГИЧЕСКИЙ ЖУРНАЛ, 2011, том 32, № 1, с. 97-110

МАТЕМАТИЧЕСКАЯ ПСИХОЛОГИЯ

УСЛОВИЯ ПРИМЕНИМОСТИ КРИТЕРИЕВ СТЬЮДЕНТА

И МАННА-УИТНИ

© 2011 г. А. А. Корнеев*, А. Н. Кричевец**

* Кандидат психологических наук, младший научный сотрудник, факультет психологии МГУ имени М.В. Ломоносова, Москва; e-mail: korneeff@gmail.com Кандидат физико-математических наук, доктор философских наук, профессор, там же;

e-mail: ankrich@mail.ru.

Исследуются условия применимости критериев Стьюдента и Манна-Уитни - наиболее распространенных методов оценки сдвига центральных тенденций выборок. Последствия нарушений данных условий оцениваются методом Монте-Карло, т.е. моделированием случайных величин с соответствующими распределениями, формированием выборок с помощью их испытаний и оценки частот ошибок первого рода при использовании критериев. Даны рекомендации по выбору подходящего критерия.

Ключевые слова: статистические методы, условия применимости, критерий Стьюдента, критерий Манна-Уитни.

Наиболее часто встречающаяся в психологических исследованиях задача проверки статистических гипотез - это сравнение центральных тенденций двух независимых выборок. Наиболее часто встречающиеся методы ее решения - критерий Стьюдента (¿-критерий) и непараметрический метод Манна-Уитни. Несмотря на то, что все пособия, учебники и справочники, ориентированные на психологов, описывают оба метода, рекомендации к употреблению того или другого довольно сильно разнятся. В любом руководстве читатель найдет упоминание о том, что ¿-критерий применим для нормально распределенных выборок, но почти нигде не упоминаются условия применимости критерия Манна-Уитни. Судя по распространенной рекомендации (сначала проверить подходящим методом, можно ли считать распределение тестируемых выборок нормальным1, в случае положительного ответа применить критерий Стьюдента, в случае отрицательного - критерий Манна-Уитни), последний считается применимым при любых обстоятельствах (свободным от распределения, как иногда пишут [4, с. 68]), но это совсем не так.

1 Некоторые авторы рекомендуют прямую проверку соответ-

ствия эмпирического распределения нормальному закону [1, 9], другие указывают, что наибольшую опасность представляет асимметрия [14], а также асимметрия и эксцесс вместе [5, 7, 9, 10].

В данной работе были поставлены следующие задачи:

1. Проанализировать логическую структуру проверок распределения, независимо от того, что и как проверяется;

2. Обсудить условия применимости критериев Стьюдента и Манна-Уитни. Сравнить, какие из параметров распределений и как влияют на вероятности ошибок первого рода для обоих критериев;

3. Обсудить понятие центральной тенденции в свете полученных результатов;

4. Предложить практические рекомендации по выбору критерия.

МЕТОДИКА

Техническим инструментом для нашего исследования служит программа, написанная в системе MatLab, которая позволяет порождать пары выборок, имеющих произвольный объем и распределения. Таким образом, мы сможем обрабатывать наиболее яркие примеры методом Монте-Карло, т.е., в данном случае, генерируя достаточное количество выборок с заданными параметрами и проверяя, насколько частоты попадания результатов в критическую область обсуждаемого критерия близки к теоретически ожидаемым частотам.

Мы проверяем частоты для наиболее употребительных в психологических исследованиях уровней значимости - 0.05 и 0.01. Нарушения условий применимости критериев для меньших значений могут влиять существенно иным образом2. Для психологов же наибольший интерес представляют именно эти значения, поскольку на этом уровне и происходит принятие решений об успешности/неуспешности исследования.

РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

1. Логическая структура проверок нормальности

Рассмотрим пример: биномиально распределенная случайная величина с вероятностью успеха p = 0.5 и количеством испытаний, равным 5 (эксцесс распределения приблизительно равен -0.4).

На рис. 1 представлено теоретическое распределение данной случайной величины вместе с кривой нормального распределения, имеющей такие же математическое ожидание и дисперсию. Выборочные гистограммы при больших размерах выборки будут практически повторять эту диаграмму распределения. Однако тот факт, что случайная величина может принимать только целые значения от нуля до пяти, в конце концов приведет к тому, что разность между непрерывной теоретической функцией нормального распределения и ступенчатой функцией накопленных частот, ступеньки которой не становятся меньше при увеличении выборки, станет для критерия Колмогорова-Смирнова все более "заметной".

Мы смоделировали выборки из испытаний данной случайной величины с помощью стандартной функции пакета SPSS. При размере выборки, равном 12, проверка нормальности критерием Колмогорова-Смирнова (SPSS) дает уровень значимости 0.163, что обычно считается свидетельством высокого сходства тестируемого распределения с нормальным. При увеличении размера выборки до 15 указанный уровень значимости становится равным 0.1. Дальнейшее увеличение приводит к быстрому уменьшению уровня значимости: при n = 25 p = 0.011, а при n = 50 p становится меньше 0.001, и гипотеза нормальности должна быть отвергнута.

0.3125

0.15625 <

0.03125

Рис. 1. Диаграмма распределения биномиальной случайной величины (5 испытаний, вероятность успеха равна 0.5).

Вторая половина задачи - проверка возможности использования ¿-критерия и критерия Манна-Уитни для оценки гипотез о равенстве средних значений двух выборок из испытаний данной биномиальной случайной величины. Мы решали ее методом Монте-Карло по следующей схеме:

1) Генерируются две (псевдо)случайные выборки, проводится их сравнение по критерию Манна-Уитни и ¿-критерию и определяется уровень значимости различия выборок; результат запоминается;

2) Эксперимент повторяется 1000 раз. Вычисляется частота попадания статистики Манна-Уитни и ¿-статистики в зону выше соответствующего верхнего 0.05-квантиля (0.01-квантиля) и ниже соответствующего нижнего 0.05-квантиля (0.01-квантиля) и берется их среднее арифметическое3. Такая серия повторяется 10 раз (результаты в первых 10 строках табл. 1).

Затем вычисляется среднее арифметическое 10 результатов (среднее по столбцу) и стандартное отклонение (последние две строки табл. 1). Таким образом, итогом является среднее количество попаданий в критическую область - область отвержения нулевой гипотезы. Для уровня 0.05 ожидается, что количество попаданий составит 50 из тысячи, для 0.01-10 из тысячи. Мы приводим также для сравнения результаты аналогичной проверки критерия Манна-Уитни. Для малых выборок вычисление статистики проводилось нашей собственной программой, затем результат сравнивался с табличными квантилями, для выборок (п = 50) использовалась аппрокси-

2 Исследование в более узкой области, но с большей точностью и для всех уровней значимости проведено, например, в работе [6]. Там же анализируется мощность критериев, которая в нашей статье не рассматривается.

3 Усредняя частоты попадания в верхние и нижние критические области, мы несколько увеличивали точность при том же количестве экспериментов.

Таблица 1. Результаты сравнения случайных биномиальных выборок (п = 10) по двум критериям

Номер экспе- Манна- -Уитни t-критерий

римента p < .05 p < .01 p < .05 p < .01

1 38 9 56 13

2 40 4 50 7

3 40 8 63 16

4 32 6 55 12

5 36 7 48 11

6 32 5 47 8

7 33 6 49 9

8 37 4 49 7

9 40 9 61 13

10 34 3 52 6

Среднее 36.2 6.1 53 10.2

Ст. отклон. 3.29 2.13 5.58 3.29

мация системы ЫшЬаЬ4. Вычисляемое стандартное отклонение позволяет при необходимости оценить доверительный интервал. Если в испытаниях частота попадания в 5%-ю критическую область оказывается, например, 100 из 1000, то это означает, что вероятность ошибки первого рода для подобных распределений на самом деле равна примерно 0.1, и достоверность выводов сильно завышается.

В нашем случае проверка показывает, что уже сравнение двух выборок по 10 испытаний в каждой дает частоты ошибок первого рода, вполне согласующиеся с априорными оценками, сделанными по распределению Стьюдента. Увеличение размера выборок, разумеется, не ухудшает соответствие. В табл. 2 приводятся только средние значения 10 экспериментов по 1000 сравнений и в скобках соответствующее стандартное отклоне-ние5.

4 Стоит отметить здесь и далее систематическую переоценку вероятности ошибки первого рода тестом Манна-Уитни на малых выборках. Однако она не так велика, как может показаться. В таблицах распределения Манна-Уитни для двух одинаковых выборок (п = 10) приведен 0.05-квантиль 27 и 0.01-квантиль 19. Оценка по Монте-Карло показывает, что точное значение уровня значимости для граничного значения 27 составляет примерно 0.044 (а не 0.05), а для граничного значения 19 - примерно 0.0094 (а не 0.01). Если таблица содержит квантили фиксированного уровня значимости для дискретного распределения, то подобные неточности неизбежны. Иногда точные вероятности вписывают в клетки таблицы мелким шрифтом, но таких таблиц для распределения Манна-Уитни нам найти не удалось, поэтому мы и прибегли здесь к методу Монте-Карло. Если учесть сказанное, то тест Манна-Уитни демонстрирует для выборок с п = 10 менее значительное отклонение.

5 Далее почти все таблицы будут содержать только средние и

стандартные отклонения.

Таблица 2. Результаты сравнения случайных биномиальных выборок (п1 = 20, п2 = 50) по двум критериям

Размер выборки Манна -Уитни t-критерий

p < .05 p < .01 p < .05 p < .01

20 50 41.2 (3.39) 40.1 (2.64) 6.7 (2.39) 7.7 (1.56) 51.1 (5.36) 46.1 (5.27) 10.3 (3.80) 9.6 (2.76)

В итоге мы получаем логическую проблему: при увеличении объема выборки применение t-критерия становится все более точным [13, с. 380], а проверка нормальности все более уверенно нам это применение запрещает.

Этот парадокс присущ логической схеме проверки, а вовсе не конкретному примеру, связанному с нормальностью распределения. Парадоксальность ситуации может быть преодолена, например, разработкой таблицы, в которой для каждого размера выборки n указывался бы свой уровень значимости, на котором следуе

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком