ПСИХОЛОГИЧЕСКИЙ ЖУРНАЛ, 2011, том 32, № 1, с. 97-110
МАТЕМАТИЧЕСКАЯ ПСИХОЛОГИЯ
УСЛОВИЯ ПРИМЕНИМОСТИ КРИТЕРИЕВ СТЬЮДЕНТА
И МАННА-УИТНИ
© 2011 г. А. А. Корнеев*, А. Н. Кричевец**
* Кандидат психологических наук, младший научный сотрудник, факультет психологии МГУ имени М.В. Ломоносова, Москва; e-mail: korneeff@gmail.com Кандидат физико-математических наук, доктор философских наук, профессор, там же;
e-mail: ankrich@mail.ru.
Исследуются условия применимости критериев Стьюдента и Манна-Уитни - наиболее распространенных методов оценки сдвига центральных тенденций выборок. Последствия нарушений данных условий оцениваются методом Монте-Карло, т.е. моделированием случайных величин с соответствующими распределениями, формированием выборок с помощью их испытаний и оценки частот ошибок первого рода при использовании критериев. Даны рекомендации по выбору подходящего критерия.
Ключевые слова: статистические методы, условия применимости, критерий Стьюдента, критерий Манна-Уитни.
Наиболее часто встречающаяся в психологических исследованиях задача проверки статистических гипотез - это сравнение центральных тенденций двух независимых выборок. Наиболее часто встречающиеся методы ее решения - критерий Стьюдента (¿-критерий) и непараметрический метод Манна-Уитни. Несмотря на то, что все пособия, учебники и справочники, ориентированные на психологов, описывают оба метода, рекомендации к употреблению того или другого довольно сильно разнятся. В любом руководстве читатель найдет упоминание о том, что ¿-критерий применим для нормально распределенных выборок, но почти нигде не упоминаются условия применимости критерия Манна-Уитни. Судя по распространенной рекомендации (сначала проверить подходящим методом, можно ли считать распределение тестируемых выборок нормальным1, в случае положительного ответа применить критерий Стьюдента, в случае отрицательного - критерий Манна-Уитни), последний считается применимым при любых обстоятельствах (свободным от распределения, как иногда пишут [4, с. 68]), но это совсем не так.
1 Некоторые авторы рекомендуют прямую проверку соответ-
ствия эмпирического распределения нормальному закону [1, 9], другие указывают, что наибольшую опасность представляет асимметрия [14], а также асимметрия и эксцесс вместе [5, 7, 9, 10].
В данной работе были поставлены следующие задачи:
1. Проанализировать логическую структуру проверок распределения, независимо от того, что и как проверяется;
2. Обсудить условия применимости критериев Стьюдента и Манна-Уитни. Сравнить, какие из параметров распределений и как влияют на вероятности ошибок первого рода для обоих критериев;
3. Обсудить понятие центральной тенденции в свете полученных результатов;
4. Предложить практические рекомендации по выбору критерия.
МЕТОДИКА
Техническим инструментом для нашего исследования служит программа, написанная в системе MatLab, которая позволяет порождать пары выборок, имеющих произвольный объем и распределения. Таким образом, мы сможем обрабатывать наиболее яркие примеры методом Монте-Карло, т.е., в данном случае, генерируя достаточное количество выборок с заданными параметрами и проверяя, насколько частоты попадания результатов в критическую область обсуждаемого критерия близки к теоретически ожидаемым частотам.
Мы проверяем частоты для наиболее употребительных в психологических исследованиях уровней значимости - 0.05 и 0.01. Нарушения условий применимости критериев для меньших значений могут влиять существенно иным образом2. Для психологов же наибольший интерес представляют именно эти значения, поскольку на этом уровне и происходит принятие решений об успешности/неуспешности исследования.
РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ
1. Логическая структура проверок нормальности
Рассмотрим пример: биномиально распределенная случайная величина с вероятностью успеха p = 0.5 и количеством испытаний, равным 5 (эксцесс распределения приблизительно равен -0.4).
На рис. 1 представлено теоретическое распределение данной случайной величины вместе с кривой нормального распределения, имеющей такие же математическое ожидание и дисперсию. Выборочные гистограммы при больших размерах выборки будут практически повторять эту диаграмму распределения. Однако тот факт, что случайная величина может принимать только целые значения от нуля до пяти, в конце концов приведет к тому, что разность между непрерывной теоретической функцией нормального распределения и ступенчатой функцией накопленных частот, ступеньки которой не становятся меньше при увеличении выборки, станет для критерия Колмогорова-Смирнова все более "заметной".
Мы смоделировали выборки из испытаний данной случайной величины с помощью стандартной функции пакета SPSS. При размере выборки, равном 12, проверка нормальности критерием Колмогорова-Смирнова (SPSS) дает уровень значимости 0.163, что обычно считается свидетельством высокого сходства тестируемого распределения с нормальным. При увеличении размера выборки до 15 указанный уровень значимости становится равным 0.1. Дальнейшее увеличение приводит к быстрому уменьшению уровня значимости: при n = 25 p = 0.011, а при n = 50 p становится меньше 0.001, и гипотеза нормальности должна быть отвергнута.
0.3125
0.15625 <
0.03125
Рис. 1. Диаграмма распределения биномиальной случайной величины (5 испытаний, вероятность успеха равна 0.5).
Вторая половина задачи - проверка возможности использования ¿-критерия и критерия Манна-Уитни для оценки гипотез о равенстве средних значений двух выборок из испытаний данной биномиальной случайной величины. Мы решали ее методом Монте-Карло по следующей схеме:
1) Генерируются две (псевдо)случайные выборки, проводится их сравнение по критерию Манна-Уитни и ¿-критерию и определяется уровень значимости различия выборок; результат запоминается;
2) Эксперимент повторяется 1000 раз. Вычисляется частота попадания статистики Манна-Уитни и ¿-статистики в зону выше соответствующего верхнего 0.05-квантиля (0.01-квантиля) и ниже соответствующего нижнего 0.05-квантиля (0.01-квантиля) и берется их среднее арифметическое3. Такая серия повторяется 10 раз (результаты в первых 10 строках табл. 1).
Затем вычисляется среднее арифметическое 10 результатов (среднее по столбцу) и стандартное отклонение (последние две строки табл. 1). Таким образом, итогом является среднее количество попаданий в критическую область - область отвержения нулевой гипотезы. Для уровня 0.05 ожидается, что количество попаданий составит 50 из тысячи, для 0.01-10 из тысячи. Мы приводим также для сравнения результаты аналогичной проверки критерия Манна-Уитни. Для малых выборок вычисление статистики проводилось нашей собственной программой, затем результат сравнивался с табличными квантилями, для выборок (п = 50) использовалась аппрокси-
2 Исследование в более узкой области, но с большей точностью и для всех уровней значимости проведено, например, в работе [6]. Там же анализируется мощность критериев, которая в нашей статье не рассматривается.
3 Усредняя частоты попадания в верхние и нижние критические области, мы несколько увеличивали точность при том же количестве экспериментов.
Таблица 1. Результаты сравнения случайных биномиальных выборок (п = 10) по двум критериям
Номер экспе- Манна- -Уитни t-критерий
римента p < .05 p < .01 p < .05 p < .01
1 38 9 56 13
2 40 4 50 7
3 40 8 63 16
4 32 6 55 12
5 36 7 48 11
6 32 5 47 8
7 33 6 49 9
8 37 4 49 7
9 40 9 61 13
10 34 3 52 6
Среднее 36.2 6.1 53 10.2
Ст. отклон. 3.29 2.13 5.58 3.29
мация системы ЫшЬаЬ4. Вычисляемое стандартное отклонение позволяет при необходимости оценить доверительный интервал. Если в испытаниях частота попадания в 5%-ю критическую область оказывается, например, 100 из 1000, то это означает, что вероятность ошибки первого рода для подобных распределений на самом деле равна примерно 0.1, и достоверность выводов сильно завышается.
В нашем случае проверка показывает, что уже сравнение двух выборок по 10 испытаний в каждой дает частоты ошибок первого рода, вполне согласующиеся с априорными оценками, сделанными по распределению Стьюдента. Увеличение размера выборок, разумеется, не ухудшает соответствие. В табл. 2 приводятся только средние значения 10 экспериментов по 1000 сравнений и в скобках соответствующее стандартное отклоне-ние5.
4 Стоит отметить здесь и далее систематическую переоценку вероятности ошибки первого рода тестом Манна-Уитни на малых выборках. Однако она не так велика, как может показаться. В таблицах распределения Манна-Уитни для двух одинаковых выборок (п = 10) приведен 0.05-квантиль 27 и 0.01-квантиль 19. Оценка по Монте-Карло показывает, что точное значение уровня значимости для граничного значения 27 составляет примерно 0.044 (а не 0.05), а для граничного значения 19 - примерно 0.0094 (а не 0.01). Если таблица содержит квантили фиксированного уровня значимости для дискретного распределения, то подобные неточности неизбежны. Иногда точные вероятности вписывают в клетки таблицы мелким шрифтом, но таких таблиц для распределения Манна-Уитни нам найти не удалось, поэтому мы и прибегли здесь к методу Монте-Карло. Если учесть сказанное, то тест Манна-Уитни демонстрирует для выборок с п = 10 менее значительное отклонение.
5 Далее почти все таблицы будут содержать только средние и
стандартные отклонения.
Таблица 2. Результаты сравнения случайных биномиальных выборок (п1 = 20, п2 = 50) по двум критериям
Размер выборки Манна -Уитни t-критерий
p < .05 p < .01 p < .05 p < .01
20 50 41.2 (3.39) 40.1 (2.64) 6.7 (2.39) 7.7 (1.56) 51.1 (5.36) 46.1 (5.27) 10.3 (3.80) 9.6 (2.76)
В итоге мы получаем логическую проблему: при увеличении объема выборки применение t-критерия становится все более точным [13, с. 380], а проверка нормальности все более уверенно нам это применение запрещает.
Этот парадокс присущ логической схеме проверки, а вовсе не конкретному примеру, связанному с нормальностью распределения. Парадоксальность ситуации может быть преодолена, например, разработкой таблицы, в которой для каждого размера выборки n указывался бы свой уровень значимости, на котором следуе
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.