научная статья по теме РОБАСТНЫЙ МЕТОД ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства

Текст научной статьи на тему «РОБАСТНЫЙ МЕТОД ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ»

УДК 622.028+550.34

РОБАСТНЫЙ МЕТОД ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ

ДАННЫХ

В удобном для использования виде представлен робастный метод обработки экспериментальных данных. Приведен подробный алгоритм расчетов и даны примеры, указывающие на необходимость применения метода при неуверенности в том, что выборки взяты из нормального закона распределения.

При проведении различных натурных испытаний исследователь получает результаты измерений и часто сталкивается с невозможностью повторения эксперимента. И нередко в этом случае имеет малую выборку экспериментальных данных, которую не удается обработать обычными статистическими методами, тем более доказать ее принадлежность тому или иному распределению. В [1] была сделана попытка применить статистический метод обнаружения тренда параметров потока сигналов акустической эмиссии (АЭ) применительно к задаче контроля изменения напряженно-деформированного состояния массива горных пород (МГП). Сущность этого метода состоит в том, что по независимым выборкам одинакового объема оценивается среднее (математическое ожидание) случайных ошибок измерений и с помощью стандартного парного критерия принимается решение о существовании тренда. Если оценки средних различаются значимо, то это свидетельствует о том, что различие вызвано не случайными, а систематическими причинами, то есть произошло изменение напряженно-динамического состояния МГП. Однако критерий чувствителен к отклонению от нормальности ошибок измерений особенно тогда, когда сравниваются оценки дисперсий [2]. Их приходится сравнивать для того, чтобы из двух форм /''-критерия сравнения оценок средних выбрать ту, которую нужно применять для решения поставленной задачи.

Цель настоящей работы — изложить критерий сравнения средних устойчивых к отклонениям от нормальности ошибок измерений в случае малых выборок.

Ниже речь пойдет о выборках, объем которых не меньше четырех и не более десяти. Нижняя граница продиктована требованием к многократным наблюдениям, а верхняя — невозможностью проверки гипотезы о согласии результатов наблюдений с нормальным распределением. Имеется ввиду критерий Р. Мизеса —Н.В. Смирнова, %2-критерий К. Пирсона и критерий А.Н. Колмогорова.

Воспроизведем вкратце основные положения метода, изложенные в [1]. Оценки средних сравниваются с использованием ^-критерия

если оценки дисперсий (выборочные дисперсии) Ц, £); различаются незначимо, то есть выполняются неравенства:

И.А. Кривошеее, Г. А. Иванов

Ц+Я,

(1)

з*

-2и^а(л-1,л-1), 4> А, (2)

д.

где л-объем выборки с номерами /, _/'; X,-, х) — оценки средних (средние арифметические значения), вычисляемые по выборкам; £>,, вычисляются по известным формулам.

Если (1) не выполняется, то оценки средних различаются значимо, то есть различие вызвано не случайными, а систематическими факторами. При выполнении (2) считается, что выборочные дисперсии различаются незначимо. Другими словами, принимается гипотеза о равенстве дисперсий. Если (2) не выполняется, то вместо (1) применяется /•'-критерий с другой статистикой

П (*/ ~ 0, + 0]-28ч

(3)

где

" 1 к=1

В указанных выше неравенствах а — это принятый уровень значимости, а правые части неравенств — верхние а-пределы /-'-распределений с указанными числами степеней свободы V,, \2 (табличные значения) в (3)

V, = 1, V, = п - 1.

В [3] получен и исследован робастный (устойчивый к отклонениям от нормальности) критерий сравнения оценок средних, то есть критерий проверки гипотезы равенства средних. Приведем этот критерий в удобной для практического применения форме [4]:

— \2

</•,(<*, ¿(и-1)), (5)

О

— \2

где У у = д", - х/, б=--выборочная дисперсия; 5 = V (У* - У Л

(»-!) 4=1

остаточная сумма квадратов; УА. = х1к-х]к. Корректирующий степень свободы фактор с1 вычисляется по формуле

/1(1-7)

Ъ = Ь2 - 3, (7)

Ь2 = (п + 2)7, (8)

Робастный метод обработки.

37

Т= 7Т1 у- (9)

X*

V ¿=1 У

Заметим, что в [4] используется г-статистика. Если возвести ее в квадрат, то получается статистика, имеющая /-"-распределение. В (6) у2 — оценка эксцесса распределения, причем М (у2) = 0, если ошибки измерений имеют нормальное распределение. Значит для нормальных выборок, согласно (6), с! будет примерно равно единице. Сказанное следует из того, что М (/?2) = 3 [3].

Теперь перейдем к вопросу об уровне значимости. Обычно на практике применяют следующие уровни значимости: 0,01; 0,05; 0,1. Чаще всего используется уровень значимости а = 0,05. И все же возникает вопрос, какой уровень значимости применять в случае малых выборок. В [5] отмечено, что уровень значимости должен монотонно убывать при увеличении объема выборки. С этой точки зрения в случае малых выборок предпочтение нужно отдать уровню значимости а = 0,1. Кстати, в [2] рекомендуется именно этот уровень значимости использовать для малых выборок. Здесь мы будем следовать этой рекомендации. Важно подчеркнуть, что в критериях (3) и (5), несмотря на различия форм, используется одна и та же статистика. В этом можно убедиться без вычислен]«"!, положив В (5) = I .

Для примера были взяты экспериментальные данные акустического прозвучивания контролируемого блока массива горных пород. Прозвучи-вание велось в двух различных направлениях. Выбор направлений исходил из возможности установки датчиков (возможности доступа) так, чтобы трасса прозвучивания проходила по возможно большему диаметру контролируемого блока. Этот блок находился рядом с отрабатываемым, и поэтому важно отследить изменение его физического состояния на ранних стадиях для выявления прогностических параметров. Выбранные направления (трассы) акустического прозвучивания не были взаимно перпендикулярны, и поэтому задача сводилась к идентификации контроля. То есть, по этим двум выборкам требуется проверить гипотезу о равенстве средних (математических ожиданий) принятых акустических сигналов по двум трассам, выбранным для контроля изменения напряженно-деформированного состояния массива горных пород. При прозвучивании массива в качестве излучающего сигнала была использована серия, состоящая из нескольких пачек равномерных импульсов. Такой сигнал, пройдя контролируемый участок горного массива, будет иметь в своем спектре особенности, то есть характерные изменения амплитуд отдельных гармоник. Каждый раз сигнал, прошедший контролируемый участок, фиксирует в своем спектре различные изменения спектральных составляющих, что соответствует физическим изменениям состояния горного массива. Для достижения высокой чувствительности контроля необходимо оценивать дисперсию амплитуд в спектре сигнала [6]. Оценки дисперсий амплитуд выбранной гармоники принятого сигнала по двум трассам приведены в табл. 1.

Пойдем стандартным путем. В табл. 2 представлены остатки е и их квадраты е2 для двух выборок (средние арифметические значения выборок соответственно равны x^ = 20,4 и х2 = 21,4).

Используя табл. 2, получим численные значения остаточных сумм квадратов и выборочных дисперсий, которые соответственно равны

5, = 2,7; 52 = 1,7; Д = 0,675; Д = 0,425; Д/Д = 1,5882. Примем уровень значимости а = 0,1. В нашем случае п = 5, так что п - 1 = 4. Из таблицы распределений имеем 7()1(4,4) = 4,1072. Так как 1,5882 < 4,1072, то выборочные дисперсии различаются незначимо. Поэтому применяем 7-крите-рий (1). Значение статистики равно

Д + Д

Из таблицы Р-распределений находим ^0 ,(1,8) = 3,4579. Поскольку 4,7619 > 3,4579, то гипотеза равенства средних отвергается (оценки средних различаются значимо). Правильный ли сделан вывод? — Таков вопрос. Чтобы ответить на него, обратимся к робастному /-"-критерию (5).

Таблица 1

к 1 2 3 4 5

............ 21,5 20,0 20,0 21,0 19,5

Д-1............ 21.0 22,0 20,5 21,5 22,0

Из табл. 1 легко получаем следующие значения Ук - хи-х2к: У, = 0,5; У2 = -2; У3 = -0,5; У4 = -0,5; У5 = -2,5; так что У12 = -1. Численные значения остатков и их квадратов представлены в табл. 3.

Таблица 2

к I 2 3 4 5

е,.... 1,1 -0,4 -0,4 0,6 -0,9

ее.... 1,21 0,16 0,16 0,36 0,81

е-,.... -0,4 0,6 -0,9 0,1 0,6

с,2 0,16 0,36 0,81 0,01 0,36

Используя последнюю строку табл. 3, получаем остаточную сумму квадратов, которая равна Я = 2,25 + 1 + 0,25 + 0,25 + 2,25 = 6. Выборочная дисперсия равна б = 1,5. Численное значение статистики равно

п(¥п)2

4 = 3,3333. По значениям Ук составляем табл. 4. О

Таблица 3

к 1 2 3 4 5

е..... 1,5 -1 0,5 0,5 -1,5

1 2,25 1 0,25 0,25 2,25

Используя (9), получаем Т = 0,4566. Вычисление по формуле (8) дает Ь2 = 3,1962, а пспользуя (7), получаем у2 = Ь2 - 3 = 0,1962. Подставив в (6) численные значения для у2, п, Т, получим й = 1,072. Для чисел степеней свободы имеем с1 = 1,072; У2 = 4,288, так что можно с пренебрежимо малой ошибкой считать, что V, = 1,1; \2 = 4,3. По таблицам /^-распреде-лений [4] находим, что /^,(1,4) = 4,5448, ^о ,(1,2 4,4) = 4,2565. Отсюда без вычислений ясно: 4,2565 < /^опО Л 4,3) < 4,5448. Но численное значение

Робастный метод обработки.

39

статистики в (5) равно 3,3333, следовательно, 3,3333 < /^ОД 4,3). Таким образом, гипотеза равенства средних не отвергается.

Таблица 4

к 1 2 3 4 5

У2.......... 0,25 4 0,25 0,25 6,25

У4.......... 0,0625 16 0,0625 0,0625 39,0625

Данные другого примера (см. табл. 5) взяты из эксперимента по установлении связи между сигналами АЭ и механическими характеристиками материалов при деформации на примере образца из АМЦ.

Таблица 5

120 125 125 125 130

130 120 130 120 130

3

120 125 120 120 125

125

124 123

125 127

126 125 124 130 122

6

117 125 120 121

118

7

8

127

128 126 126 128

120 122 118

132 130

9

125 120 130 125 125

10

120 125 125 100 125

11

125

126 126

127

128

12

129

129

130 128 125

13

130 128 127 140 146

В этом случае образец нагружали (растягивали) и фиксировали интенсивность, то есть количество сигналов АЭ в единицу времени. Информативные параметры потока были выбраны так же, как и в [1], математическое ожидание (среднее значение) ц и дисперсия О сигналов

Таблица 6

I \ 1 2 3 4 5 6 7 8 9 10 11 12 13

1 2 0,118

3 2,251 2,133

4 0,014 0,247 4,041

5 0,699 0,944 0,737

6 5,189 4,23

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком