УДК 622.028+550.34
РОБАСТНЫЙ МЕТОД ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ
ДАННЫХ
В удобном для использования виде представлен робастный метод обработки экспериментальных данных. Приведен подробный алгоритм расчетов и даны примеры, указывающие на необходимость применения метода при неуверенности в том, что выборки взяты из нормального закона распределения.
При проведении различных натурных испытаний исследователь получает результаты измерений и часто сталкивается с невозможностью повторения эксперимента. И нередко в этом случае имеет малую выборку экспериментальных данных, которую не удается обработать обычными статистическими методами, тем более доказать ее принадлежность тому или иному распределению. В [1] была сделана попытка применить статистический метод обнаружения тренда параметров потока сигналов акустической эмиссии (АЭ) применительно к задаче контроля изменения напряженно-деформированного состояния массива горных пород (МГП). Сущность этого метода состоит в том, что по независимым выборкам одинакового объема оценивается среднее (математическое ожидание) случайных ошибок измерений и с помощью стандартного парного критерия принимается решение о существовании тренда. Если оценки средних различаются значимо, то это свидетельствует о том, что различие вызвано не случайными, а систематическими причинами, то есть произошло изменение напряженно-динамического состояния МГП. Однако критерий чувствителен к отклонению от нормальности ошибок измерений особенно тогда, когда сравниваются оценки дисперсий [2]. Их приходится сравнивать для того, чтобы из двух форм /''-критерия сравнения оценок средних выбрать ту, которую нужно применять для решения поставленной задачи.
Цель настоящей работы — изложить критерий сравнения средних устойчивых к отклонениям от нормальности ошибок измерений в случае малых выборок.
Ниже речь пойдет о выборках, объем которых не меньше четырех и не более десяти. Нижняя граница продиктована требованием к многократным наблюдениям, а верхняя — невозможностью проверки гипотезы о согласии результатов наблюдений с нормальным распределением. Имеется ввиду критерий Р. Мизеса —Н.В. Смирнова, %2-критерий К. Пирсона и критерий А.Н. Колмогорова.
Воспроизведем вкратце основные положения метода, изложенные в [1]. Оценки средних сравниваются с использованием ^-критерия
если оценки дисперсий (выборочные дисперсии) Ц, £); различаются незначимо, то есть выполняются неравенства:
И.А. Кривошеее, Г. А. Иванов
Ц+Я,
(1)
з*
-2и^а(л-1,л-1), 4> А, (2)
д.
где л-объем выборки с номерами /, _/'; X,-, х) — оценки средних (средние арифметические значения), вычисляемые по выборкам; £>,, вычисляются по известным формулам.
Если (1) не выполняется, то оценки средних различаются значимо, то есть различие вызвано не случайными, а систематическими факторами. При выполнении (2) считается, что выборочные дисперсии различаются незначимо. Другими словами, принимается гипотеза о равенстве дисперсий. Если (2) не выполняется, то вместо (1) применяется /•'-критерий с другой статистикой
П (*/ ~ 0, + 0]-28ч
(3)
где
" 1 к=1
В указанных выше неравенствах а — это принятый уровень значимости, а правые части неравенств — верхние а-пределы /-'-распределений с указанными числами степеней свободы V,, \2 (табличные значения) в (3)
V, = 1, V, = п - 1.
В [3] получен и исследован робастный (устойчивый к отклонениям от нормальности) критерий сравнения оценок средних, то есть критерий проверки гипотезы равенства средних. Приведем этот критерий в удобной для практического применения форме [4]:
— \2
</•,(<*, ¿(и-1)), (5)
О
— \2
где У у = д", - х/, б=--выборочная дисперсия; 5 = V (У* - У Л
(»-!) 4=1
остаточная сумма квадратов; УА. = х1к-х]к. Корректирующий степень свободы фактор с1 вычисляется по формуле
/1(1-7)
Ъ = Ь2 - 3, (7)
Ь2 = (п + 2)7, (8)
Робастный метод обработки.
37
Т= 7Т1 у- (9)
X*
V ¿=1 У
Заметим, что в [4] используется г-статистика. Если возвести ее в квадрат, то получается статистика, имеющая /-"-распределение. В (6) у2 — оценка эксцесса распределения, причем М (у2) = 0, если ошибки измерений имеют нормальное распределение. Значит для нормальных выборок, согласно (6), с! будет примерно равно единице. Сказанное следует из того, что М (/?2) = 3 [3].
Теперь перейдем к вопросу об уровне значимости. Обычно на практике применяют следующие уровни значимости: 0,01; 0,05; 0,1. Чаще всего используется уровень значимости а = 0,05. И все же возникает вопрос, какой уровень значимости применять в случае малых выборок. В [5] отмечено, что уровень значимости должен монотонно убывать при увеличении объема выборки. С этой точки зрения в случае малых выборок предпочтение нужно отдать уровню значимости а = 0,1. Кстати, в [2] рекомендуется именно этот уровень значимости использовать для малых выборок. Здесь мы будем следовать этой рекомендации. Важно подчеркнуть, что в критериях (3) и (5), несмотря на различия форм, используется одна и та же статистика. В этом можно убедиться без вычислен]«"!, положив В (5) = I .
Для примера были взяты экспериментальные данные акустического прозвучивания контролируемого блока массива горных пород. Прозвучи-вание велось в двух различных направлениях. Выбор направлений исходил из возможности установки датчиков (возможности доступа) так, чтобы трасса прозвучивания проходила по возможно большему диаметру контролируемого блока. Этот блок находился рядом с отрабатываемым, и поэтому важно отследить изменение его физического состояния на ранних стадиях для выявления прогностических параметров. Выбранные направления (трассы) акустического прозвучивания не были взаимно перпендикулярны, и поэтому задача сводилась к идентификации контроля. То есть, по этим двум выборкам требуется проверить гипотезу о равенстве средних (математических ожиданий) принятых акустических сигналов по двум трассам, выбранным для контроля изменения напряженно-деформированного состояния массива горных пород. При прозвучивании массива в качестве излучающего сигнала была использована серия, состоящая из нескольких пачек равномерных импульсов. Такой сигнал, пройдя контролируемый участок горного массива, будет иметь в своем спектре особенности, то есть характерные изменения амплитуд отдельных гармоник. Каждый раз сигнал, прошедший контролируемый участок, фиксирует в своем спектре различные изменения спектральных составляющих, что соответствует физическим изменениям состояния горного массива. Для достижения высокой чувствительности контроля необходимо оценивать дисперсию амплитуд в спектре сигнала [6]. Оценки дисперсий амплитуд выбранной гармоники принятого сигнала по двум трассам приведены в табл. 1.
Пойдем стандартным путем. В табл. 2 представлены остатки е и их квадраты е2 для двух выборок (средние арифметические значения выборок соответственно равны x^ = 20,4 и х2 = 21,4).
Используя табл. 2, получим численные значения остаточных сумм квадратов и выборочных дисперсий, которые соответственно равны
5, = 2,7; 52 = 1,7; Д = 0,675; Д = 0,425; Д/Д = 1,5882. Примем уровень значимости а = 0,1. В нашем случае п = 5, так что п - 1 = 4. Из таблицы распределений имеем 7()1(4,4) = 4,1072. Так как 1,5882 < 4,1072, то выборочные дисперсии различаются незначимо. Поэтому применяем 7-крите-рий (1). Значение статистики равно
Д + Д
Из таблицы Р-распределений находим ^0 ,(1,8) = 3,4579. Поскольку 4,7619 > 3,4579, то гипотеза равенства средних отвергается (оценки средних различаются значимо). Правильный ли сделан вывод? — Таков вопрос. Чтобы ответить на него, обратимся к робастному /-"-критерию (5).
Таблица 1
к 1 2 3 4 5
............ 21,5 20,0 20,0 21,0 19,5
Д-1............ 21.0 22,0 20,5 21,5 22,0
Из табл. 1 легко получаем следующие значения Ук - хи-х2к: У, = 0,5; У2 = -2; У3 = -0,5; У4 = -0,5; У5 = -2,5; так что У12 = -1. Численные значения остатков и их квадратов представлены в табл. 3.
Таблица 2
к I 2 3 4 5
е,.... 1,1 -0,4 -0,4 0,6 -0,9
ее.... 1,21 0,16 0,16 0,36 0,81
е-,.... -0,4 0,6 -0,9 0,1 0,6
с,2 0,16 0,36 0,81 0,01 0,36
Используя последнюю строку табл. 3, получаем остаточную сумму квадратов, которая равна Я = 2,25 + 1 + 0,25 + 0,25 + 2,25 = 6. Выборочная дисперсия равна б = 1,5. Численное значение статистики равно
п(¥п)2
4 = 3,3333. По значениям Ук составляем табл. 4. О
Таблица 3
к 1 2 3 4 5
е..... 1,5 -1 0,5 0,5 -1,5
1 2,25 1 0,25 0,25 2,25
Используя (9), получаем Т = 0,4566. Вычисление по формуле (8) дает Ь2 = 3,1962, а пспользуя (7), получаем у2 = Ь2 - 3 = 0,1962. Подставив в (6) численные значения для у2, п, Т, получим й = 1,072. Для чисел степеней свободы имеем с1 = 1,072; У2 = 4,288, так что можно с пренебрежимо малой ошибкой считать, что V, = 1,1; \2 = 4,3. По таблицам /^-распреде-лений [4] находим, что /^,(1,4) = 4,5448, ^о ,(1,2 4,4) = 4,2565. Отсюда без вычислений ясно: 4,2565 < /^опО Л 4,3) < 4,5448. Но численное значение
Робастный метод обработки.
39
статистики в (5) равно 3,3333, следовательно, 3,3333 < /^ОД 4,3). Таким образом, гипотеза равенства средних не отвергается.
Таблица 4
к 1 2 3 4 5
У2.......... 0,25 4 0,25 0,25 6,25
У4.......... 0,0625 16 0,0625 0,0625 39,0625
Данные другого примера (см. табл. 5) взяты из эксперимента по установлении связи между сигналами АЭ и механическими характеристиками материалов при деформации на примере образца из АМЦ.
Таблица 5
120 125 125 125 130
130 120 130 120 130
3
120 125 120 120 125
125
124 123
125 127
126 125 124 130 122
6
117 125 120 121
118
7
8
127
128 126 126 128
120 122 118
132 130
9
125 120 130 125 125
10
120 125 125 100 125
11
125
126 126
127
128
12
129
129
130 128 125
13
130 128 127 140 146
В этом случае образец нагружали (растягивали) и фиксировали интенсивность, то есть количество сигналов АЭ в единицу времени. Информативные параметры потока были выбраны так же, как и в [1], математическое ожидание (среднее значение) ц и дисперсия О сигналов
Таблица 6
I \ 1 2 3 4 5 6 7 8 9 10 11 12 13
1 2 0,118
3 2,251 2,133
4 0,014 0,247 4,041
5 0,699 0,944 0,737
6 5,189 4,23
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.