научная статья по теме АНАЛИЗ ЗАВИСИМОСТИ АППРОКСИМАЦИОННЫХ СВОЙСТВ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ ОТ МЕТОДОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ОПРЕДЕЛЕНИЯ Метрология

Текст научной статьи на тему «АНАЛИЗ ЗАВИСИМОСТИ АППРОКСИМАЦИОННЫХ СВОЙСТВ НЕПАРАМЕТРИЧЕСКОЙ ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ ОТ МЕТОДОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ОПРЕДЕЛЕНИЯ»

Л и т е р а т у р а

1. Ленг К. Астрофизические формулы. В 2-х ч астях. М.: Мир, 1978.

2. Riess A. G. e. a. Observational evidence from supernovae for an accelerating universe and a cosmological constant // Astron. J. 1998. V. 116. P. 1009—1038.

3. Perlmutter S. e. a. Measurements of Q and Л from 42 high-redshift supernovae // Astrophys. J. 1999. V. 517. P. 565—586.

4. Эльясберг П. E. Измерительная информация: сколько ее нужно? Как ее обрабатывать? М.: Наука, 1983.

5. Хампель Ф. и др. Робастность в статистике. Подход на основе функций влияния. М.: Мир, 1989.

6. Fischer R. A. Theory of statistical estimation // Proc. Cambridge Phil. Soc. 1925. V. 22. N. 5. P. 700—725.

7. Математическая энциклопедия. Т. 2. М.: Советская энциклопедия, 1979. С. 656.

8. Tonry J. L. e. a. Cosmological results from high-z supernovae // Astrophys. J. 2003. V. 594. P. 1—24.

9. Branch D., Tammann G. A. Type la supernovae as standard candles // Annual Reviews Astronomy & Astrophysics. 1992. V. 30. P. 359—389.

10. Hicken M. e. a. Improved dark energy constraints from ~100 new CfA supernova type la light curves // Astrophys. J. 2009. V. 700. P. 1097—1140.

11. Шмидт Б. П. Ускоренное расширение Вселенной по наблюдениям далеких сверхновых // УФН. 2013. Т. 183. № 10. С. 1078—1089.

12. Левин С. Ф. Оптимальная интерполяционная фильтрация статистических характеристик случайных функций в детерминированной версии метода Монте—Карло и закон красного смещения. М.: АН СССР, Научный совет по комплексной проблеме «Кибернетика», 1980.

13. Р 50.2.004—2000. ГСИ. Определение характеристик математических моделей зависимостей между физическими величинами при решении измерительных задач. Основные положения.

14. Larson D. e. a. 7 year WMAP observations: power spectra and WMAP-derived parameters // Astrophys. J. Suppl. Ser. 2011. № 192.

Дата принятия 18.12.2014 г.

ОБЩИЕ ВОПРОСЫ МЕТРОЛОГИИ И ИЗМЕРИТЕЛЬНОЙ ТЕХНИКИ

519.24

Анализ зависимости аппроксимационных свойств непараметрической оценки плотности вероятности от методов дискретизации области определения

А. В. ЛАПКО1- 2, В. А. ЛАПКО1- 2

1 Институт вычислительного моделирования СО РАН,

Красноярск, Россия

2 Сибирский государственный аэрокосмический университет им. акад. М. Ф. Решетнева, Красноярск, Россия, e-mail: lapko@icm.krasn.ru

Предложена методика сравнения эффективности процедур дискретизации интервала значений случайной величины при оценивании плотности вероятности. В качестве критерия эффективности использовано асимптотическое выражение среднего квадратического отклонения регрессионной оценки плотности вероятности.

Кпючевые слова: плотность вероятности, непараметрическая оценка, аппроксимационные свойства, количество интервалов дискретизации, правило Хайнкольда—Гаеде, правило Брукса и Каррузера, правило Стар-джесса, правило Фридмана и Диакониса, правило Скотта.

The comparison procedure for the effectiveness of methods for discretization of the interval of values of a random variable at probability density estimation has been saggested. As an efficiency criterion the asymptotic expression of standard deviation of regression model of probability density has been used.

Key words: probability density, nonparametric estimation, approximation properties, number of sampling intervals, Heinhold—Gaede rule, Brooks—Carruthers rule, Sturges rule, Freedman—Diaconis rule, Scott rule.

Данный материал развивает и обобщает результаты исследований по оцениванию эффективности формул дискретизации, изложенные в [1].

Пусть х1, ! = 1, п — выборка из п независимых наблюдений одномерной случайной величины х с неизвестной плот-

ностью вероятности р(х), которая ограничена и непрерывна со всеми производными до второго порядка включительно.

Для условий выборок большого объема п в [2] предложена и в [3, 4] развита методика синтеза непараметрической оценки плотности вероятности, основанная на сжатии исходных статистических данных.

Разобьем область определения р(х) на N непересекающихся интервалов длиной 2р и сформируем множества случайных величин X1,1 = 1, N. В качестве характеристик XI примем частоту Р1 попадания случайной величины х в 1-й интервал и его центр г1. На основе полученной информации

определим массив данных VI =

VI = (г', у' = Р'/(2р), у = 1, ы),

со-

ставленный из центров г1 введенных интервалов и соответствующих им значений оценок у1 плотности вероятности. В качестве приближения по эмпирическим данным V1 искомой плотности вероятности р(х) примем статистику [3]:

- N _. Г/ Л "

р(X) = с-1 X Р1 Ф (х - г1) / с 1=1

(1)

где ядерные функции Ф(и) удовлетворяют условиям [5, 6]:

Ф(и) = Ф(-и), 0 < Ф(и) < |Ф(и)¿и = 1, |и2Ф(и)¿и = 1;

|итФ(и)¿ипри 0<т<~.

W2(N)=

ч1/5

||Ф(и )||21 ||р(2)( XI

А р( X )||'

2М4

4/5

п (д|| Р( х )||2

1/5

(3)

Здесь ||р(х)||2 = |р2(х)¿х; ||р(2)(х)||2 = |(р2(х))2Йх; Ф(и)||2 =

= |Ф2(х)¿х; р(2)(х) — вторая производная р(х) по х; А — длина интервала значений случайной величины; М — математическое ожидание.

Из условия минимума асимптотического выражения СКО (3) получена процедура оптимального выбора количества интервалов дискретизации

N = д[А|Iр(х)|| п,

(4)

Здесь и далее бесконечные пределы интегрирования опускаем.

Коэффициенты размытости с = с(^ ядерных функций в (1) характеризуют области их определения. Аппроксимацион-ные свойства непараметрической оценки плотности вероятности (1 ) зависят от особенностей процедуры дискретизации области определения р(х).

Ниже на основе результатов анализа аппроксимацион-ных свойств непараметрической оценки плотности вероятности осуществлено сравнение и системный анализ дискретизации интервала значений одномерной случайной величины.

Выбор оптимального количества интервалов дискретизации области значений случайной величины. П редста-вим непараметрическую оценку плотности вероятности (1) в виде

р(х) = (ПС)-1 X ((х1 -2'■ )/р)ф(|

/=11=1

где индикаторные функции

х - г

(2)

'((хУ - 2' )/в

1, если |ху' - г' <Р;

0, если х7' - г' >р

определяют принадлежность элементов выборки V =

= (х', у' = 1, п) интервалам (г/ +Р), / = 1, N. В отличие от (1),

в ее модификации (2) присутствуют в явном виде парамет-

ры процедуры дискретизации р, N и объем п исходных статистических данных. В [7] выведено асимптотическое выражение среднего квадратического отклонения (СКО)

М | (р( х) - р( х ))2 ¿х непараметрической оценки р( х) (2) от восстанавливаемой плотности вероятности р(х):

определяемая видом восстанавливаемой плотности вероятности, областью определения А и объемом п исходных статистических данных.

Анализ аппроксимационных свойств р(х). Зависимость аппроксимационных свойств непараметрической оценки плотности вероятности (2) от ряда методов дискретизации области значений одномерной случайной величины х проанализировали по данным вычислительных экспериментов [1 ]. В отличие от данного направления исследований, оценим эффективность широкого круга методов дискретизации с помощью критерия (3), что позволит осуществить их объективную систематизацию.

Пусть восстанавливаемая плотность вероятности случайной величины х имеет нормальный закон распределения (НЗР) с нулевым математическим ожиданием и СКО о = 1:

Тогда

р(х)=Аехр № I.

||р(х)||2 = ^; ||р(2)(х( = ^

(5)

а случайная величина А = 6 с вероятностью 0,997.

Для выбора количества интервалов дискретизации области значений случайной величины используют (4), а также формулы:

Фридмана и Диакониса N = АJ(2IQR п-1/3) [8], (6)

где IQR — квартильный размах, определяемый разностью между третьим и первым квартилями распределения случайной величины;

Хайнхольда и Гаеде N = -Уп [9]; Брукса и Каррузера N = 51д п; Таушанова и Тоневой N = 41д п; Скотта N = А/ (3,49о п-1/3) [ 10];

(7)

(8) (9)

(10)

х

х

+

И. У. Алексеевой N = 41д-^, X а10'

где %=1 / л/3 — контрэксцесс НЗР (5); Старджесса N = 1од2 п+1.

( 11 )

(12)

При использовании (4) в задаче оценивания (5) коэффи-

циент /а| | р(х )|р = 1,3.

В качестве ядерной функции Ф(и) используем оптимальное ядро Епанечникова [6]:

фи ) =

для которого

-3---, если |u|<V5;

4V5 20V5

0, если |u|>-J5,

11ф(и f=535-

Выражение (3) запишем в виде

w2_

_ _3_ ( 2 10115N4

1/5

9

2урк

N2

При увеличении объема пе [100, 500] исходных статистических данных применение исследуемых методов дискретизации интервала значений случайной величины приводит к уменьшению 1/К2 (табл. 1). Наблюдаемое улучшение аппрок-симационных свойств р(х) можно объяснить увеличением объема N массива данных У1, используемого при построении непараметрической оценки плотности вероятности (табл. 2), что согласуется с условиями ее асимптотической сходимости [3, 11 ].

Исследуемые формулы дискретизации области значений случайной величины условно можно разбить на две группы по значениям СКО аппроксимации р( х). Первую группу составляют формулы (4), (6)—(8), использование которых позволяет получить меньшую погрешность аппроксимации плотности вероятности по сравнению с (9)—(12). Применение формулы (4) при выборе количества N интервалов дискретизации более предпочтительно по сравнению с другими, так как она получена на основе минимизации асимптотического выражения СКО (3).

Т а б л и ц а 1

Значения критерия качества оценивания плотности вероятности, соответствующего конкретным объемам п исходных данных и формулам дискретизации

Формулы дискретизации

n Оптимальный выбор количества интервалов Фридмана и Диакониса Хайнхольда и Гаеде Брукса и Каррузера Таушанова и Тоневой Скотта И. У. Алексеевой Старджесса

100 0,109 0,112 0,112 0,112 0,121 0,121 0,128 0,121

150 0,093 0,096 0,096 0,099 0,106 0,106 0,113 0,113

200 0,083 0,087 0,085 0,090 0,102 0,097 0,102 0,102

250 0,076 0,081 0,078 0,086 0,093 0,089 0,093 0,099

300 0,070 0,076 0,073 0,083 0,091 0,083 0,091 0,097

350 0,066 0,071 0,068 0,078 0,090 0,081 0,085 0,096

400 0,063 0,069 0,065 0,076 0,089 0,076 0,084 0,089

450 0,060 0,066 0,062 0,075 0,083 0,075 0,083 0,088

500 0,057 0,063 0,059 0,074 0,082 0,071 0,078 0,087

Т а б л и ц а 2

Зависимость количества интервалов М, на которые разбивается область значений случайной величины,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком