научная статья по теме СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ДИСКРЕТИЗАЦИИ ИНТЕРВАЛА ИЗМЕНЕНИЯ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ПРИ СИНТЕЗЕ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ Метрология

Текст научной статьи на тему «СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МЕТОДОВ ДИСКРЕТИЗАЦИИ ИНТЕРВАЛА ИЗМЕНЕНИЯ ЗНАЧЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ ПРИ СИНТЕЗЕ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ»

ОБЩИЕ ВОПРОСЫ МЕТРОЛОГИИ И ИЗМЕРИТЕЛЬНОЙ ТЕХНИКИ

519.24

Сравнение эффективности методов дискретизации интервала изменения значений случайной величины при синтезе непараметрической оценки

плотности вероятности

А. В. ЛАПКО*, В. А. ЛАПКО**

* Институт вычислительного моделирования СО РАН, Красноярск, Россия ** Сибирский государственный аэрокосмический университет им. ак. М. Ф. Решетнева,

Красноярск, Россия, e-mail: lapko@icm.krasn.ru

Исследованы аппроксимационные свойства непараметрической оценки плотности вероятности при различных методах дискретизации области определения. Оценены показатели эффективности этих методов.

Ключевые слова: непараметрическая оценка плотности вероятности, аппроксимационные свойства, методы дискретизации, нормальный закон распределения.

The approximation properties of nonparametric estimation of probability density for various applicable domain discretization methods have been studied. The indicators of the methods effectiveness have been estimated.

Key words: nonparametric estimation of probability density, approximation properties, discretization methods, normal distribution law.

Вычислительная эффективность непараметрических алгоритмов обработки информации определяется объемом статистических данных и снижается по мере его увеличения. В таких условиях целесообразно использовать принципы декомпозиции исходных статистических данных по их объему и технологию параллельных вычислений. Предложена и исследована смесь непараметрических оценок плотностей вероятности для одномерных и многомерных случайных величин [1, 2]. Показано, что она имеет значительно меньшую дисперсию по сравнению с традиционной непараметрической оценкой плотности вероятности типа Розенблатта—Пар-зена [3]. При этом сокращение времени вычислений сопоставимо с количеством составляющих смеси непараметрических оценок плотностей вероятности.

Полученные результаты обобщены при оценивании решающей функции в задаче распознавания образов в условиях больших выборок. Разработаны двухуровневые непараметрические системы для решения двух- и многоальтернативных задач классификации, установлены асимптотические свойства оценок уравнений разделяющих поверхностей для одномерного и многомерного случаев [4—8]. Избежать проблемы больших выборок можно, использовав непараметрическую оценку плотности вероятности, синтез которой основан на сжатии исходных статистических данных [9—11 ]. Из условия минимума асимптотического выражения ее среднего квадратического отклонения (СКО) определена процедура оптимального выбора количества интервалов дискретизации области изменения значений случайной величины [12].

Ниже на основе анализа аппроксимационных свойств непараметрической оценки плотности вероятности проведено сравнение наиболее распространенных процедур дискретизации интервала изменения значений случайной величины с нормальным законом распределения (НЗР).

Синтез непараметрической оценки плотности вероятности. Пусть имеется выборка V = (х', /' = 1, п) из п независимых значений одномерной случайной величины х с неизвестной плотностью вероятности р(х). Разобьем область определения р(х) на N непересекающихся интервалов длиной

2р и сформируем множества случайных величин Ху , у = 1, N.

В качестве характеристик X примем частоту Р1 попадания случайной величины х ву-й интервал и его центр ^ . На основе полученной информации определим массив данных

V1 = , ру = Ру/(2Р), у = 1, м), составленный из центров введенных интервалов и соответствующих значений оценок

р1 плотности вероятности. Объем N полученных данных может быть значительно меньше объема п исходной статистической информации.

В качестве приближения по эмпирическим данным V1 искомой плотности вероятности р(х) примем ее непараметрическую оценку [11]:

Р( X) = 1 £ Р1 ф[(х - 21 )/с|, (1)

у = 1

где ядерные функции Ф(и) удовлетворяют условиям: Ф (и) = Ф (-и), 0 <Ф (и)

|Ф (и) сСи = 1, | и 2Ф (и) сСи = 1.

Синтез непараметрической оценки плотности вероятности (1) осуществим на основе ядерных функций В. А. Епанеч-никова [13]:

Ф (и) =

э/(^Тб) - 3иУ(20л/б) V Н <-Уб,

V |и| >л/б.

Коэффициенты размытости с ядерных функций в (1) характеризуют область их определения.

Нетрудно убедиться, что непараметрическая оценка

плотности р(х) является нормированной функцией, т. е. удовлетворяет основному свойству плотности вероятности.

Непараметрическая оценка плотности вероятности р( х) обладает свойствами асимптотической сходимости к р(х) [11 ]. Из условия минимума асимптотического выражения СКО

р (х) от р(х) получим процедуру оптимального выбора количества интервалов дискретизации [12]:

N = /д|| р (х)||' п ,

(2)

определяемую видом восстанавливаемой плотности вероятности, областью ее определения Д и объемом п исходных

II |2 +Г 2

статистических данных. Здесь ||р(х)|| = ] р (х)сСх. Полученная закономерность является объективной, так как не зависит от вида ядерных функций непараметрической оценки плотности вероятности (1).

Анализ аппроксимационных свойств непараметрической оценки плотности вероятности. Исследуем зависимость аппроксимационных свойств непараметрической оценки плотности вероятности (1 ) от методов дискретизации области изменения значений одномерной случайной величины х

и объема п исходных статистических данных V =(х', /' = 1, п).

Восстановим плотность вероятности случайной величины с НЗР:

р (х) = (2п)-1/2 ехр (- х2 / 2).

Для выбора количества интервалов дискретизации области изменения значений случайной величины используем (2), а также формулы: Старджесса N = 1од2п + 1; Брукса и Каррузера N = 5 1дп;

Хайнкольда и Гаеде N = ; И. У. Алексеевой N = 4 ,

где %=1/ л/3 — контрэксцесс НЗР.

При использовании (2) имеем ^Д||р(х)||2 = 1,3.

В данных условиях качество восстановления р(х) определим статистическими оценками критериев:

№1 = М |р (х) - р (х)|; №2 = М (р (х) - р (х))2;

1 = М (р (х) - р (х))2 - (М (р (х) - р (х)))2,

которые являются смещением, СКО и дисперсией регрессионной оценки плотности вероятности р(х), соответственно. Здесь М — математическое ожидание.

Для оценивания Ир 112 в виде средних используем контрольную выборку значений случайной величины х объемом

пк = 200. По полученным значениям Ц,, И~2 вычислим оценку 1Л~3.

При одних и тех же объемах п статистических данных V многократно (т = 100) определим значения || 1, ||2, I3,

У = 1, т, которые в дальнейшем усредним = — ^ 1/КV,

У = 1

V = 1, Э и сопоставим со значением п (см. рисунок).

Количественные оценки показателей эффективности применения сравниваемых формул дискретизации области изменения значений случайной величины с НЗР приведены в табл. 1—3.

Т а б л и ц а 1

Статистические оценки смещения И^ регрессионной оценки плотности вероятности (1)

Оценка 1| по формулам дискретизации

п Старджесса Брукса и Каррузера Хайнкольда и Гаеде И. У. Алексеевой Оптимальный выбор количества интервалов

50 0,01262 0,01165 0,01262 0,01802 0,01062

100 0,00759 0,00643 0,00643 0,00844 0,00522

150 0,00586 0,00463 0,00426 0,00586 0,00330

200 0,00423 0,00359 0,00308 0,00423 0,00247

250 0,00383 0,00329 0,00235 0,00353 0,00199

300 0,00317 0,00293 0,00187 0,00309 0,00146

350 0,00301 0,00241 0,00163 0,00256 0,00130

400 0,00248 0,00212 0,00130 0,00242 0,00101

450 0,00224 0,00196 0,00115 0,00200 0,00089

500 0,00204 0,00188 0,00103 0,00196 0,00083

Т а б л и ц а 2

Статистические оценки СКО W2 регрессионной оценки плотности вероятности (1)

Оценка W2 по формулам дискретизации

n Оптималь-

Старджесса Брукса и Каррузера Хайнкольда и Гаеде И. У. Алексеевой ный выбор количества интервалов

50 0,00310 0,00298 0,00310 0,00430 0,00271

100 0,00241 0,00201 0,00201 0,00271 0,00157

150 0,00240 0,00177 0,00162 0,00240 0,00130

200 0,00188 0,00150 0,00128 0,00188 0,00101

250 0,00196 0,00158 0,00112 0,00173 0,00094

300 0,00192 0,00158 0,00100 0,00170 0,00081

350 0,00183 0,00131 0,00082 0,00138 0,00064

400 0,00153 0,00123 0,00072 0,00144 0,00057

450 0,00151 0,00120 0,00068 0,00126 0,00052

500 0,00151 0,00128 0,00066 0,00133 0,00051

Т а б л и ц а 3

Статистические оценки дисперсии Wз регрессионной оценки плотности вероятности (1)

Оценка W3 по формулам дискретизации

n Оптималь-

Старджесса Брукса и Каррузера Хайнкольда и Гаеде И. У. Алексеевой ный выбор количества интервалов

50 0,00289 0,00281 0,00289 0,00393 0,00257

100 0,00234 0,00195 0,00195 0,00263 0,00153

1 50 0,00236 0,00174 0,00159 0,00236 0,00128

200 0,00186 0,00148 0,00127 0,00186 0,00100

250 0,00194 0,00156 0,00111 0,00172 0,00093

300 0,00191 0,00157 0,00100 0,00169 0,00080

350 0,00182 0,00131 0,00082 0,00137 0,00063

400 0,00152 0,00122 0,00072 0,00143 0,00057

450 0,00150 0,00120 0,00068 0,00126 0,00052

500 0,00150 0,00128 0,00066 0,00132 0,00051

п < 200 (см. рисунок). При п > 200 применение формул Старджесса, Брукса и Каррузера и И. У. Алексеевой позволяет получить близкие значения показателей №1, №2, №3, определяющих аппроксимационные свойства непараметрической оценки плотности вероятности (см. табл. 1—3). При п < 100 использование формулы И. У. Алексеевой для выбора количества интервалов дискретизации N нецелесообразно, а результативность формул Старджесса, Брукса и Каррузера и Хайнкольда и Гаеде сопоставима (см. табл. 1—3).

Выводы. Методика синтеза непараметрической оценки плотности вероятности (1 ) предполагает использование процедуры дискретизации области изменения значений случайной величины. Поэтому появляется возможность оценить эффективность различных формул дискретизации и на этой основе осуществить их анализ.

При восстановлении плотности вероятности случайной величины с НЗР целесообразно использовать формулы оптимального выбора количества интервалов и Хайнкольда и Гаеде, менее предпочтительны формулы Старджесса и И. У. Алексеевой. Формула дискретизации Брукса и Каррузе-ра по своей эффективности занимает промежуточное положение.

Полученные результаты имеют важное значение при проверке гипотез о распределениях случайных величин, для построения алгоритма обработки данных в разных устройствах при работе с изображениями.

Л и т е р а т у р а

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком