научная статья по теме ОПТИМАЛЬНЫЙ ВЫБОР КОЛИЧЕСТВА ИНТЕРВАЛОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ИЗМЕНЕНИЯ ОДНОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ПРИ ОЦЕНИВАНИИ ПЛОТНОСТИ ВЕРОЯТНОСТИ Метрология

Текст научной статьи на тему «ОПТИМАЛЬНЫЙ ВЫБОР КОЛИЧЕСТВА ИНТЕРВАЛОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ИЗМЕНЕНИЯ ОДНОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ПРИ ОЦЕНИВАНИИ ПЛОТНОСТИ ВЕРОЯТНОСТИ»

исследования по анализу распределений, или ориентироваться на оценки сверху (2), (6) и (8).

Л и т е р а т у р а

1. Руководство по выражению неопределенности измерения / Пер. с англ., под ред. В. А. Слаева. СПб.: ВНИИМ, 1999.

2. РМГ 43—2001. ГСИ. Применение Руководства ИСО по выражению неопределенности измерений.

3. Рубичев Н. А., Рябцев Г. Г. Типовые ошибки применения статистических методов обработки измерительной информации и способы их устранения // Метрология. 2012. № 6. С. 3—16.

4. Вентцель Е. С. Теория в ероятностей. М.: ГИФМЛ, 1958.

5. РМГ 91—2009. ГСИ. Совместное использование понятий «погрешность измерения» и «неопределенность измерения». Общие принципы.

Дата принятия 24.04.2013 г.

519.24

Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности

А. В. ЛАПКО, В. А. ЛАПКО

Институт вычислительного моделирования СО РАН, Красноярск, Россия,

e-mail: lapko@icm.krasn.ru

Исследованы асимптотические свойства регрессионной оценки плотности вероятности, синтез которой предполагает декомпозицию статистических данных. На этой основе определена зависимость количества интервалов дискретизации от объема исходной информации.

Ключевые слова: плотность вероятности, декомпозиция исходных данных, непараметрическая статистика, регрессионная оценка, асимптотические свойства, количество интервалов дискретизации.

The asymptotic properties of the regression estimator of the probability density the synthesis of which assumes the decomposition of statistical data are examined. On this basis the dependence of number of sampling intervals from the volume of original data is determined.

Key words: probability density, initial data decomposition, nonparametric statistic, regression estimator, asymptotic properties, number of sampling intervals.

Выбор количества интервалов дискретизации области изменения значений случайной величины является одной из задач математической статистики. Рассмотрим ее решение с позиций оптимизации структуры регрессионной оценки плотности вероятности.

Пусть х', / = 1, п — выборка из п независимых наблюдений одномерной случайной величины х с неизвестной плотностью вероятности р(х), которая допускает разложение в ряд Тейлора.

Для условий выборок большого объема п в [1, 2] предложена методика синтеза регрессионной оценки плотности вероятности, которая основана на декомпозиции исходных статистических данных и последующем анализе характеристик получаемых множеств случайных величин. Развитие результатов этих исследований приведено в [3].

Разобьем область определения р(х) на N непересекающихся интервалов длиной 2р и сформируем множества случайных величин X1, 1 = 1, N. В качестве характеристик XI при-

мем частоту Р1 попадания случайной величины х ву-й интервал и его центр г1. На основе полученной информации составим статистическую выборку Ц = (г^, ру = Ру / (2р), у = 1, м),

где центры г введенных интервалов имеют равномерный закон распределения р0(г) = (2р^-1, а объем полученной выборки N может быть значительно меньше объема п исходных статистических данных.

Приближением по эмпирическим данным искомой плотности вероятности р(х) возьмем непараметрическую оценку условного математического ожидания [3]:

р (X) = С-1£р1 ф((X - 21) / С), (1)

где Ф(и) — ядерная функция, удовлетворяющая условиям [4, 5]:

Ф (и) = Ф (-и), 0 <Ф (и) <~;

/Ф(и)си = 1, |и2Ф(и)Си = 1;

|итФ(и)(Сипри 0<т.

Для упрощения записи бесконечные пределы интегрирования здесь и далее опускаем.

Нетрудно убедиться, что регрессионная оценка плотности ~(х) является нормированной функцией, т. е. удовлетворяет основному свойству плотности вероятности.

Коэффициенты размытости с = с(М) ядерных функций в статистике (1) убывают с ростом количества N интервалов дискретизации области определения плотности вероятности. Их оптимальное значение, минимизирующее асимптотическое выражение среднего квадратического отклонения (СКО) погрешности аппроксимации

(2д/(№))|р2(х)(Сх /ф2(и)с(и + (с4 /4)/(р(2)(х))2Сх

определяется формулой [3]:

^2Д||Ф(и)||2||р(х)||2) ДР2(х)||

с =

1/5

(2)

где ||Ф(и)||2 = /ф2(и)ди; ||р(х)||2 =/р2(х)сСх; р(2)(х) =

/(р(2)( х ))2 Сх; р(2)(х)

вторая производная плотности ве-

роятности р(х) от х; Д — длина интервала изменения значений случайной величины х.

Ниже на основе результатов исследования асимптотических свойств регрессионной оценки плотности вероятности определим аналитическую зависимость количества N интервалов дискретизации от объема исходных статистических данных и характеристик анализируемой плотности вероятности.

Асимптотические свойства регрессионной оценки плотности вероятности. Представим модификацию регрессионной оценки плотности вероятности (1 ) в виде

N п

р(х) = (пс)-1 x еЛ - 2)/р]ф[(х - 2'')

= 1 ] = 1

где индикаторная функция

(3)

[ - 2'' )/р

1, если х'' -2 <Р; 0, если х'' ->р,

определяет принадлежность элементов выборки V = (ху, у = 1, п) интервалам (2' ±р), '' = 1, N.

В отличие от (1) в ее модификации (3) в явном виде присутствуют параметры процедуры дискретизации р, N и объем п исходных статистических данных. Поэтому в резуль-

тате анализа (3) можно получить соответствующее ей асимптотическое СКО (с, Ы), зависящее от коэффициента размытости ядерных функций регрессионной оценки плотности и количества интервалов N дискретизации области изменения случайной величины. Подставив в (с, N оптимальное значение с из (2), получим выражение W2(N), минимизация которого по N даст аналитическую зависимость количества интервалов дискретизации от объема п исходных статистических данных.

Следуя предложенной схеме, вычисляем

„ N п г/ . Л , (р (X)) = (пс)-1 x е//Й (х' - 2')/р

м

' = 1 ! = 1

X р (х') Сх' Ф (х - 2)/с р0 (2') 02 =

= (Nc-1) // Й [(V- t)/р]р(V)сМФ [(х - t)/с]ро (t)Л, (4)

где М — математическое ожидание; р0(?) = (2pN)-1 — плотность вероятности распределения центров интервалов дискретизации.

Тогда (4) запишем в виде

М (р (х)) = (2рс)-1 // Й [(V- t)/р]р(V) о^Ф [(х - t)/с] Л. (5)

Проведем в (5) замену переменных V = ри + ? = х - ш, и, разложив функцию р(х - сж + ри) в ряд Тейлора в точке х, получим

М(р (х)) « 0,5//h(и)Ф(ш) х

р(х) + (Ри-с^)р(1)(х) + (ви)2 р(2)(х)

СиСж.

Отсюда с учетом свойств ядерной Ф(ж) и индикаторной й(и) = 1 для и е [-1; 1] функций запишем асимптотическое выражение

М(р(х)) ~р(х) + [(р2/3 + с2)

р(2)(х).

(6)

Определим асимптотические свойства СКО: М (р (х) - р(х))2 = М (р 2(х)) - 2р(х) М (р (х)) + р2 (х). (7)

Следуя ранее использованной технологии преобразований, сформируем асимптотическое выражение

М

(р2(х)) » (2Р/с)р2(х)||Ф(и)||2 + р2(х) +

р (х) р(2)( х) (р2/3 + с2) + (р(2) (х ))2 с4/4 + + (^ / (пс)) р( х )|| Ф(и )||2.

(8)

С учетом (6) при достаточно больших объемах статистических данных второе слагаемое выражения (7) запишем как

-2р1(х)М(р(х)) » -2р2(х)-р(х)р(2)(х)(р2/3 + с2) +

+ 0 (р4) + 0 (с2р2). (9)

Тогда, подставив результаты (8), (9) в (7), получим асимптотическое выражение для СКО

М (р (х) - р( х ))2 ~

Отсюда оптимальное значение

(2Рр2(х)/с) || Ф(и)||2-

Зависимости количества N интервалов дискретизации области изменения значений случайной величины от объема п исходных статистических данных. Кривые 1—4 соответствуют результату (12), полученному для плотностей вероятности р1 (х);

1 = 1,4; кривые 4—6 рассчитаны по формулам из [6]

(Ы/(пс)) || Ф(и)||2р(х)-

(р(2)( х ))2

с4 /4.

(10)

Из анализа (10) следует, что при выполнении условий р/с ^ 0, в ^ 0, с ^ 0 и М(пс) ^ 0 (либо псв ^ <») при п ^ ^ оценка плотности вероятности (3) обладает свойством сходимости в СКО, а с учетом ее асимптотической несмещенности (6) является состоятельной.

Анализ аппроксимационных свойств регрессионной оценки плотности вероятности. На основе результатов исследования асимптотических свойств р (х) (3) определим оптимальное количество интервалов дискретизации области изменения значений одномерной случайной величины х.

Подставим оптимальное значение коэффициента размытости (2) ядерных функций регрессионной оценки плотности вероятности (1 ) в критерий

1/к2 (с, N = (д / (№)) ||р(х)||21| Ф(и) ||2 + (ы/ (пс))\\ Ф(и) 112 +

(с4 /4)||(р(2)(х)|

который получен путем интегрирования (10) и замены значения в на Д/(2^.

В результате найдем

^2{Ы) = ,,3,„, 24 ' 26'5 ы4 '5

д||ф (и)||2 ||р(х)||2

1/5

||р(2)( х )||'

N

6/5

11ф(и )||

2 ^ р(2)( х )|

|2 ^

1/5

2Д|| р (х )||2

(11)

Для определения оптимального количества N интервалов дискретизации области изменения значений случайной величины, минимизирующего асимптотическую (при п ^ погрешность аппроксимации, продифференцируем правую часть критерия (11) по N и приравняем к нулю полученное выражение

(6 / 5)|[||ф(и)||2 ] II р(2)(х)|

2Ы9 Д

Р (х )||'

1/5

Ы2/ п-Д| |р (х)| |2] = 0.

N =^Д| |р (х )|р п

(12)

определяется видом восстанавливаемой плотности вероятности, областью ее определения и объемом исходных статистических данных. Полученная закономерность является объективной, так как не зависит от вида ядерных функций оценки плотности вероятности (3). Заметим, что выражение (12) не содержит информации о производных р(х), поэтому появляется возможность использовать его при выборе количества интервалов дискретизации для широкого класса плотностей вероятностей.

Зависимость (12) по виду близка формуле Гаеде

N = л[п,

(13)

причем для равномерной плотности вероятности р(х) значения количества интервалов дискретизации, вычисленные по (12), (13) совпадают, так как в этих условиях произведение

Д|| Р (х)||2 = 1.

Проанализируем зависимость N от объема исходных статистических данных, соответствующую результату (12), полученному для ряда плотностей вероятности:

х2 / 2);

Рз (х)

Р1( х) = (2п)-1/2ехр ( р2(х) = 2х V хе [0; 1];

Г3(1 - х2 / 5)/(4л/б) V |х|<>/б; 0, V |х| >"Уб;

р4 (х) = 1 V хе [0; 1].

При малых значениях п количество N интервалов дискретизации, полученных в соответствии с (12) и по известным формулам Старджесса, Брукса и Каррузера, Гаеде [6], сопоставимы (см. рисунок).

С ростом объема п исходных статистических данных наблюдается более значител

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком