научная статья по теме АНАЛИЗ СВОЙСТВ ВЫБОРА ОПТИМАЛЬНОГО КОЛИЧЕСТВА ИНТЕРВАЛОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ОПРЕДЕЛЕНИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ Метрология

Текст научной статьи на тему «АНАЛИЗ СВОЙСТВ ВЫБОРА ОПТИМАЛЬНОГО КОЛИЧЕСТВА ИНТЕРВАЛОВ ДИСКРЕТИЗАЦИИ ОБЛАСТИ ОПРЕДЕЛЕНИЯ ПЛОТНОСТИ ВЕРОЯТНОСТИ»

потезу о виде распределений неисключенных систематических погрешностей {w (ДСИСТХ(- )}}= 1.

Л и т е р а т у р а

1. BIPM. [Офиц. сайт]. http://www.bipm.org/ (дата обращения 18.02.2014 г.).

2. Report on CIPM key comparison of the second phase multiples and submultiples of the kilogram (CCM.M-K5). [Электрон. версия] http://kcdb.bipm.org/appendixb/appbresults/ ccm.m-k5/ccm.m-k5_Hnal_report.pdf (дата обращения 18.02.2014 г.).

3. Чуновкина А. Г. Оценивание данных ключевых сличений национальных эталонов. СПб.: НПО «Профессионал», 2009.

4. Цветков Э. И. Анализ результатов сличения двух эталонов // Измерительная техника. 2013. № 4. С. 11 —14; Tsvet-kov E. I. Analysis of the results of a comparison of two standards // Measurement Techniques. 2013. V. 56. N. 4. P. 368—371.

5. Сулоева E. С. Возможности имитационного моделирования при сличении двух эталонов // Вестник СЗО МА. 2012. Вып. 27. С. 55—64.

6. Сулоева E. С. Исследование вероятностей ошибок первого и второго рода от состава априорных знаний и устанавливаемых условий // Вестник СЗО МА. 2012. Вып. 28. С. 48—51.

7. Сулоева E. С. Особенности принятия решения о годности сличаемых эталонов при стандартном составе априорных знаний // Изв. ВолгГТУ. Серия электроника, измерительная техника, радиотехника и связь. 201 3. № 23. С. 78—81 .

Дата принятия 18.04.2014 г.

519.24

Анализ свойств выбора оптимального количества интервалов дискретизации области определения плотности вероятности

А. В. ЛАПКО*, В. А. ЛАПКО**

* Институт вычислительного моделирования СО РАН, Красноярск, Россия ** Сибирский государственный аэрокосмический университет им. ак. М. Ф. Решетнева,

Красноярск, Россия, e-mail: lapko@icm.krasn.ru

Исследован выбор оптимального количества интервалов дискретизации области определения плотности вероятности в зависимости от коэффициента контрэксцесса. Установлены количественные зависимости между коэффициентами дискретизации и контрэксцесса для симметричных и несимметричных законов распределения. Проведен анализ их особенностей для различных условий использования.

Ключевые слова: плотность вероятности, непараметрическая оценка, дискретизация, коэффициенты эксцесса, контрэксцесса, асимметрии.

The properties of optimal selection of quantity of discretization intervals of domain of probability density have been studied. The quantitative dependences between the coefficients of discretization procedures and antikurtosis coefficients for symmetric and asymmetric distribution laws have been determined. The analysis of their features for different usage conditions has been carried out.

Key words: probability density, nonparametric estimation, discretization procedure, kurtosis coefficient, antikurtosis coefficient, assimetry coefficient.

Выбор оптимального количества интервалов дискретизации области значений случайной величины х зависит от вида плотности вероятности р(х) [1], поэтому в условиях априорной неопределености о виде р(х) возникает задача уточнения процедуры дискретизации на основании параметров закона распределения случайной величины.

Пусть имеется выборка V = (х', / = 1,п) из п независимых значений одномерной случайной величины х с неизвестной плотностью вероятности р(х). Разобьем область определения р(х) на N непересекающихся интервалов длиной 2р, и

сформируем множества случайных величин Ху, у = 1, N. В

качестве характеристик Ху примем частоту ру попадания случайной величины х ву-й интервал и его центр На осно-

ве полученной информации определим массив данных V, = = (гу, ру = Ру / (2Р), у = 1, ы), составленный из центров г> интервалов и соответствующих им значений оценок ру плотности вероятности.

В качестве приближения по эмпирическим данным V, плотности вероятности р(х) примем ее непараметрическую оценку [2, 3]:

л N -■ Г/ л p(x) = c-1 1Ф (x-z1 )

(1)

где положительные и нормированные ядерные функции Ф[(х - ^ )/с] удовлетворяют условию симметричности относительно значений [4, 5].

Коэффициенты размытости с в выражении (1) характеризуют область определения ядерных функций. Их оптимальный выбор осуществляется из условия минимума относительной ошибки аппроксимации

— 1 Ы м = 1У

где р

С)

N

= С

У Р1 Ф

1=1 1 * *

Р /(2Р))- ~ (г*)

С - *1)/

Из условия минимума асимптотического выражения среднего квадратического отклонения р(х) от р(х) получим процедуру выбора оптимального количества интервалов дискретизации [1]:

N = к4п, к= ^||р(х)||2, (2)

где ||р(х)||2 = |р2(х)дх; Д — длина интервала области оп-

—^

ределения р(х).

Процедура дискретизации (2) определяется видом восстанавливаемой плотности вероятности, областью ее определения и объемом п исходных статистических данных.

Структура зависимости количества N интервалов дискретизации от п (2) близка к формуле Хайнхольда—Гаеде [6].

В условиях неполной информации о виде плотности вероятности определение к в выражении (2) возможно оцениванием функционала ||р(х)||2 либо зависимости к от количественных характеристик закона распределения случайной величины [7, 8].

В данной работе установлена и исследована зависимость между коэффициентами дискретизации и контрэксцесса закона распределения случайной величины.

Влияние вида плотности вероятности на значения оптимального количества интервалов дискретизации. Определим значения к=^/д||р(х)||2 для ряда законов распределения случайных величин. Полученные результаты сравним с коэффициентами эксцесса, контрэксцесса и асимметрии [9].

Контрэксцесс определяется выражением

X

= V я.

где п — параметр эксцесса, определяемый как п = ц^/о4, о — среднее квадратическое отклонение, ц4 — четвертый центральный момент случайной величины х.

Значение коэффициента асимметрии рассчитывается как отношение центрального момента третьего порядка ц3 к среднему квадратическому отклонению о в третьей степени:

Тз = ^з/о3.

При вычислении к, %, у3 границы а, Ь области определе-

ь

ния р(х) находят из условия | р( х) дх = 0,997, позволяющего

избежать проблемы вычисления к при бесконечной области определения р(х), и создающего объективную основу сравнения коэффициентов к, %, у3 законов распределения.

В качестве примера вычислим к для равномерного закона распределения:

р(х) = 1/(Ь - а) V хе [а, Ь].

(3)

В этих условиях Д = Ь - а, а ||р(х)||2 = (Ь - а)-1. Отсюда следует, что для случайной величины х с плотностью вероятности (3) к = 1 и не зависит от параметров р(х). Установленная закономерность свойственна и другим законам распределения, к которым относятся плотности вероятности типа Гаусса, Лапласа и ряда других (см. табл. 1).

Т а б л и ц а 1

Значения коэффициентов эксцесса, контрэксцесса и к для симметричных законов распределения случайных величин

Вид распределения Коэфициенты

эксцесса контрэксцесса к

Нормальный -0,173 0,595 1,294

Лапласа 1,788 0,457 1,704

Равномерный -1,195 0,744 0,997

Параболический -0,864 0,684 1,070

Кубическая парабола -0,618 0,648 1,145

Треугольный -0,614 0,647 1,123

Если плотность вероятности случайной величины х меняет свой вид при изменении ее параметров, то данная тенденция сопровождается изменением к. Например, к для логнормального закона распределения

р(х) = (2п)-1/2 ох ехр [-(1п х - ц)/(2о2)]

не зависит от параметра ц, но его значения определяются значениями параметра о. С ростом о в интервале [1—2] коэффициент к возрастает с 2,37 до 7,97.

Отмеченная особенность справедлива и для распределения Эрланга:

р(х) = (та)т хт-1 ехр (-атх) / Г(т),

где параметр а > 0, т — натуральное число, Г(т) — гамма-функция. Для данного закона распределения к не зависит от а, а его значения определяются параметром т.

Симметричные плотности распределения р(х) для хе [М(х) - а, М(х) + а] и их нормированные фрагменты р^х^ [М(х), М(х) + а] характеризуются одним и тем же значением к. Здесь М(х) — математическое ожидание случайной величины х. Например, плотности вероятности треугольного и линейного вида определяются значением к = 1,12; законам же распределения Лапласа и экспоненциального вида соответствует к = 1,7.

Оценивание к по значениям коэффициента контрэксцесса. На основании информации Ц = (к1, п1 = 17, представленной в табл. 2, восстановим зависимость

. X,'=1, п),

к = ф-](%) для несимметричных законов распределения. Из анализа информации табл. 1, 2 следует, что свойства коэффициентов к, х являются близкими. Поэтому возникает задача оценивания к по х в приведенных выше условиях.

Т а б л и ц а 2

Значения коэффициентов эксцесса, контрэксцесса и к для несимметричных законов распределения случайных величин

По результатам вычислительных экспериментов установим вид зависимости (см. рисунок)

к = ф1( X) = ^о ехр (х-^1 (4)

Из условия минимума эмпирической ошибки аппроксимации

Щ = Щ £ [' - Ф1 (х')]]'

определим оптимальные параметры Х0 = 0,16, = 0,67, = 0,58 зависимости (4). Этим параметрам соответствует

¡¡Ц = 0,047.

к

0,1 0,3 0,5 0,7

X

Зависимость коэффициента к в процедуре дискретизации от контрэксцесса х для несимметричных законов распределения: значения данных табл. 2

Приняв за основу аппроксимацию типа (4), оценим зависимость к = ф2(х) для симметричных законов распределения. При оптимальных параметрах Х0 = 0,24, X = 0,8, Х2 = 0,15 средняя относительная погрешность аппроксимации ¡2 = 0,013.

Установленная зависимость (4) является устойчивой к изменению количества плотностей вероятности, используемых при ее оценивании. Исключим из табл. 2 информацию о плотностях вероятности № 11—17. Тогда при оценивании зависимости (4) ее параметры принимают значения Х0 = 0,14, = 0,69, Х2 = 0,59. Им соответствует относительная погрешность аппроксимации ¡1 = 0,053.

С ростом х значения к в (4) уменьшаются. Отметим, что х косвенно характеризует островершинность р(х) в области ее модального значения. Большим значениям х свойственны более плоские вершины р(х). В этих условиях уменьшение к

сопровождается снижением количества N интервалов дискретизации области определения р(х).

Если х > 0,5, то к из (2) принимает значения в интервале [1,07; 1,36]. Тогда, при числе наблюдений п = 100 случайной

величины х, количество интервалов дискретизации N е [10; 14]. Эти

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком