научная статья по теме КРИТЕРИИ СОГЛАСИЯ ТИПА ХИ-КВАДРАТ ПРИ ПРОВЕРКЕ НОРМАЛЬНОСТИ Метрология

Текст научной статьи на тему «КРИТЕРИИ СОГЛАСИЯ ТИПА ХИ-КВАДРАТ ПРИ ПРОВЕРКЕ НОРМАЛЬНОСТИ»

ОБЩИЕ ВОПРОСЫ МЕТРОЛОГИИ И ИЗМЕРИТЕЛЬНОЙ ТЕХНИКИ

Рассмотрено применение критерия х2 Пирсона для проверки гипотезы о принадлежности выборки нормальному закону. Построены таблицы процентных точек и модели предельных распределений статистики. Получены оценки мощности критериев х2 Пирсона и Никулина—Рао—Робсона относительно ряда конкурирующих гипотез. Приведены результаты сравнительного анализа мощности множества критериев нормальности.

Ключевые слова: критерий Пирсона, критерий Никулина—Рао—Робсона, мощность критерия.

The application of the chi-squared Pearson test in testing the hypothesis of normality has been considered. Tables of percentage points and approximations of the limiting statistic distributions have been obtained. The power of the Pearson and Nikulin—Rao—Robson chi-squared tests has been estimated for various pairs of competing hypotheses. The comparative analysis of normality tests in terms of power has been presented.

Key words: Pearson test, Nikulin—Rao—Robson test, test power.

Предпосылкой применения многих классических методов и критериев проверки статистических гипотез является предположение о принадлежности анализируемых случайных величин нормальному закону. Только при выполнении этого предположения обеспечивается корректность формирования статистического вывода с использованием соответствующего критерия.

Для проверки гипотезы о принадлежности выборки нормальному закону можно использовать три группы критериев. Особенности применения, достоинства и недостатки специальных критериев Шапиро—Уилка, Эппса—Палли, Фро-сини, Хегази—Грина, Шпигельхальтера, Гири и Дэвида—Хартли—Пирсона подробно обсуждаются в [1—4]. Вопросы применения непараметрических критериев согласия Колмогорова, Крамера—Мизеса—Смирнова, Андерсона—Дарлинга, Купера, Ватсона при проверке сложных гипотез наиболее полно изложены в [3, 5], в частности, при проверке нормальности отдельно рассмотрены в [4]. Критерий Колмогорова для проверки нормальности впервые был применен в [6], критерии Крамера—Мизеса—Смирнова и Андерсона—Дарлинга в этих же целях — в [7], Купера и Ватсона — в [8—10], критерии Жанга — в [11 ]. Некоторые недостатки последних отмечены в [4].

Для проверки гипотезы о принадлежности анализируемой выборки нормальному закону традиционно используют критерии согласия типа х2. Применение критерия х2 Пирсона при проверке сложных гипотез (в том числе при проверке нормальности) предусматривает оценивание неизвестных параметров закона по группированным данным, так как в случае вычисления оценок по негруппированной выборке распределения статистик критерия существенно отличаются от х2-распределений. Именно по этой причине был предложен ряд модифицированных критериев согласия типа х2, наиболее известный из них — критерий Никулина—Рао— Робсона [12—14].

519.24

Критерии согласия типа хи-квадрат при проверке нормальности

Б. Ю. ЛЕМЕШКО

Новосибирский государственный технический университет, Новосибирск, Россия, e-mail: Lemeshko@ami.nstu.ru

Ниже показана возможность применения критерия х2 Пирсона для проверки нормальности с оцениванием параметров по негруппированным данным и методами статистического моделирования исследована мощность критериев типа х2 относительно некоторых конкурирующих законов. При исследовании распределений статистик количество испытаний методом Монте-Карло задавали 106, что обеспечивает погрешность оценивания функций распределения вероятностей порядка ±10-3.

Критерий согласия х2 Пирсона. Процедура проверки гипотез с использованием критериев типа х2 предусматривает группирование исходной выборки Х1, Х2, ..., Хп объемом п. Область определения случайной величины разбивают на к непересекающихся интервалов граничными точками

Хо < Х1 < ... < Хк-1 < Хк,

где х0, хк — нижняя и верхняя границы области определения случайной величины. В соответствии с заданным разбиением подсчитывают количество наблюдений п, попавших в /-й интервал, и вероятности попадания в интервал

х/

Р/ (9) = | ^(х, 9)бк., соответствующие теоретическому зако-

х/ -1

к

ну с функцией плотности f (х, 9), при этом п = ^П/,

/=1

к

^ Р/ (9) = 1. В основе статистик, используемых в критериях

/=1

согласия типа х2, лежит измерение отклонений /п от Р/ (9).

Статистику критерия согласия х2 Пирсона вычисляют по формуле

Х 2 _ „V.! Х п _ ' Х P (9)

I _ 1 |

(1)

При справедливости простой проверяемой гипотезы Н0 (когда известны все параметры теоретического закона) и

п ^ ~ эта статистика подчиняется х2 -распределению с

г = к - 1 степенями свободы. Плотность х2 -распределения описывается соотношением

д (s) = sг / 2-1 е-5 / 2/ [2г/ 2 Г (г / 2)],

где Г () — гамма-функция Эйлера.

Проверяемую гипотезу Н0 не отклоняют, если достигнутый уровень значимости превышает заданный уровень значимости а, т. е. выполняется неравенство

Р{х2 > х2*}_-^- I^/2-1е-^2ds>а,

I п п ] 2Г/2 Г (г/2) -2.

хп

где х2 — статистика, вычисленная в соответствии с (1).

В случае проверки сложной гипотезы и справедливости Н0 при условии, что оценки параметров находятся в результате минимизации статистики х2 по этой же выборке, эта

статистика асимптотически подчиняется х2 -распределению с числом степеней свободы г = к - т - 1, где т — число оцененных параметров. Статистика х2 имеет то же распределение, если в качестве метода оценивания выбирают метод максимального правдоподобия и оценки вычисляют по сгруппированным данным в результате максимизации по 9 функции правдоподобия:

L(9) _ тПРП (9),

I _ 1

(2)

"I

где у — некоторая константа; р (9) _ | f (х, 9)бх — завися-

х/ -1

щая от 9 вероятность попадания наблюдения в 1-й интервал. Это же справедливо для любых методов оценивания по группированным данным, приводящим к асимптотически эффективным оценкам.

При проверке согласия с нормальным законом и оценивании вектора параметров 9т _ (Д,с) по группированной

выборке минимизацией статистики х2 или максимизацией

по функции правдоподобия (2) вероятности попадания в интервал вычисляют в соответствии с соотношением

р (9) _ 1 I е-'2/2 бх,

у12к .

ч -1

где ti _ (х, -Д)/ с. Проверяемую гипотезу Н0 не отклоняют, если достигнутый уровень значимости р{2 > х2*|, вычисляемый по соответствующему х2 -распределению, превышает заданный уровень значимости а или если значение статистики х2* меньше критического х2а, определяемого из уравнения

1 Г „г/2-1-^/2

2г/2Г(г/2) 2

хг, а

е ds _а.

При вычислении оценок максимального правдоподобия (ОМП) по негруппированным данным эта же статистика распределена как сумма независимых слагаемых

2 т 2

Х2-т-1 + Xх 1 ' где ..., £,т — стандартные нормальные

] _ 1

случайные величины, независимые одна от другой и от

Х2-т-1; ..., Хт — некоторые числа между 0 и 1 [15], представляющие корни уравнения

1(1 - X) J(9) - иг(е> I = о.

Здесь J(9) — информационная матрица Фишера по негруп-пированным наблюдениям с элементами

^(9/, 91) _ |

&(х,9) дГ(х,9) 69/ д91

1 (x, 9) Лс;

Jr(9) — информационная матрица по группированным наблюдениям,

Л (9) _ (9) УТр (9)/ р (9).

I _ 1

Другими словами, распределение статистики (1) при использовании ОМП по негруппированным данным неизвестно и зависит, в частности, от способа группирования [16].

При проверке нормальности с оцениванием по выборке ОМП параметров д, с по негруппированным данным можно воспользоваться приведенными табл. 1, 2 асимптотически оптимального группирования (АОГ). При этом минимизируются потери в информации Фишера о параметрах закона, связанные с группированием [3], а критерий х2 Пирсона имеет максимальную мощность относительно очень близких конкурирующих гипотез [3].

В табл. 1 граничные точки интервалов i _ 1, (к-1) приведены в виде, инвариантном относительно параметров д, с нормального закона. При вычислении статистики (1) границы х, разделяющие интервалы при данном к, находят по значениям взятым из соответствующей строки таблицы:

X/ _ сti + (11, где Д, с — ОМП параметров, найденные по данной выборке. Затем подсчитывают число наблюдений п, попавших в каждый интервал. Вероятности попадания в интервал при вычислении значения статистики (1 ) берут из соответствующей строки табл. 2.

I

■8 С

3

I

о-

I

эг л

I

с §

р>

гчэ о

О!

Таблица 1

Оптимальные граничные точки интервалов группирования при проверке простых и сложных гипотез по критериям типа %2 (при оценивании и соответствующие значения относительной асимптотической информации А

к и '2 'з и Ч ч Ч к 'в 'ю 'и '12 '13 '14 А

3 -1,1106 1,1106 - - - - - - - - - - - - 0,4065

4 -1,3834 0,0 1,3834 - - - - - - - - - - - 0,5527

5 -1,6961 -0,6894 0,6894 1,6961 - - - - - - - - - - 0,6826

6 -1,8817 -0,9970 0,0 0,9970 1,8817 - - - - - - - - - 0,7557

7 -2,0600 -1,2647 -0,4918 0,4918 1,2647 2,0600 - - - - - - - - 0,8103

8 -2,1954 -1,4552 -0,7863 0,0 0,7863 1,4552 2,1954 - - - - - - - 0,8474

9 -2,3188 -1,6218 -1,0223 -0,3828 0,3828 1,0223 1,6218 2,3188 - - - - - - 0,8753

10 -2,4225 -1,7578 -1,2046 -0,6497 0,0 0,6497 1,2046 1,7578 2,4225 - - - - - 0,8960

11 -2,5167 -1,8784 -1,3602 -0,8621 -0,3143 0,3143 0,8621 1,3602 1,8784 2,5167 - - - - 0,9121

12 -2,5993 -1,9028 -1,4914 -1,0331 -0,5334 0,0 0,5334 1,0331 1,4914 1,9028 2,5993 - - - 0,9247

13 -2,6746 -2,0762 -1,6068 -1,1784 -0,7465 -0,2669 0,2669 0,7465 1,1784 1,6068 2,0762 2,6746 - - 0,9348

14 -2,7436 -2,1609 -1,7092 -1,3042 -0,9065 -0,4818 0,0 0,4818 0,9065 1,3042 1,7092 2,1609 2,7436 - 0,9430

15 -2,8069 -2,2378 -1,8011 -1,4150 -1,0435 -0,6590 -0,2325 0,2325 0,6590 1,0435 1,4150 1,8011 2,2378 2,8069 0,9498

О

о\ £

с ф

с» о

о о сг

ф I

О с\> с с

Таблица 2

Оптимальные вероятности (частоты) при проверке простых и сложных гипотез по критериям типа %2 (при оценивании а) и соответствующие значения относительной асимптотической информации А

к Р1 Р2 Рз РА Р5 Рв Р7 Рв РЭ Рц Р12 Р13 Р14 р15 А

3 0,1334 0,7332 0,1334 - - - - - - - - - - - - 0,4065

4 0,0833 0,4167 0,4167 0,0833 - - - - - - - - - - - 0,5527

5 0,0449 0,2004 0,5094 0,2004 0,0449 - - - - - - - - - - 0,6826

6 0,0299 0,1295 0,3406 0,3406 0,1295 0,0299 - - - - - - - - - 0,7557

7 0,0197 0,0833 0,2084 0,3772 0,2084 0,0833 0,0197 - - - - - - - - 0,8103

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком