научная статья по теме ПРИМЕНЕНИЕ МЕТОДА БУТСТРЕПА ДЛЯ ОЦЕНИВАНИЯ ФУНКЦИИ КВАНТИЛИ Автоматика. Вычислительная техника

Текст научной статьи на тему «ПРИМЕНЕНИЕ МЕТОДА БУТСТРЕПА ДЛЯ ОЦЕНИВАНИЯ ФУНКЦИИ КВАНТИЛИ»

Автоматика и телемеханика, Л- 11, 2007

РАС Б 02.50 ¥2

© 2007 г. В.В. ВИШНЯКОВ, А.И. КИБЗУН, д-р физ.-мат. наук (Московский авиационный институт)

ПРИМЕНЕНИЕ МЕТОДА БУТСТРЕПА ДЛЯ ОЦЕНИВАНИЯ ФУНКЦИИ КВАНТИЛИ1

Применяется метод бутстрепа для сокращения объема выборки при оценке функции квантили. Аналитически устанавливается точность выборочной оценки квантили в зависимости от распределения случайных величин. Рассматривается числеппый пример вычисления квантилей с помощью предложенной бутстреп-процедуры для равномерного и нормального распределений, а также распределения Коши. Находится приближенная формула для вычисления квантили нормального распределения.

1. Введение

Во многих прикладных задачах оптимизации статистических критериев возникает проблема сокращения количества испытаний для повышения быстродействия вычислительных алгоритмов. Например, в задачах управления подвижными объектами существует проблема оценивания терминальной точности, характеризующей, например, промах этих объектов относительно заданной цели. На движение объекта. как правило, влияют различные случайные факторы. Поэтому в качестве терминальной точности обычно используют квантиль промаха объекта. В связи с тем. что распределение промаха на практике часто не бывает известно, то квантиль в этих случаях оценивают методом статистических испытаний. Так как численное моделирование движения объекта может занимать много времени на ЭВМ. то возникает проблема сокращения числа испытаний для оценки квантили промаха. Для решения этой проблемы часто привлекается метод бутстрепа. Бутстреп-процедура может рассматриваться как способ управления выборкой в ходе обработки данных. Метод бутстрепа отличается от традиционного выборочного метода тем. что он предполагает многократную обработку различных частей одних и тех же данных и сопоставление результатов. Использование бутстреп-процедур позволяет при неизменном объеме выборки повысить точность оценки.

Метод бутстрепа представляет собой статистическую процедуру, основной идеей которой является построение из уже имеющейся выборки выборочного распределения вероятностей, из которого извлекаются новые случайные выборки. Бутстреп был предложен Эфроном в [1] как альтернатива методу "складного ножа" [2]. В случае выборки из независимых одинаково-распределенных случайных величин процедура бутстрепа сводится к выбору данных из исходной выборки с возвращением [3].

1 Работа выполнена ири финансовой поддержке Российского фонда фундаментальных исследований, грант № 05-08-17963.

Метод бутстрепа. его свойства и область применения в последнее время рассматривалась в [4 6]. где исследуются сходимость бутстреп-методов. задачи коррекции выборочного среднего, получение оценок с меньшей дисперсией, построение блочного бутстрепа. сглаженного и несглаженного бутстрепа. а также бутрстреппирование временных моделей, в том числе моделей авторегрессии. Обзорной работой по методу бутстрепа стала [7].

Приложение метода бутстрепа в экономике и эконометрике рассматривалось в [8. 9]. В [9] рассмотрены методы по бутстреп-коррекции выборочного среднего и дисперсии оценки в применении к задачам инвестирования, бутстреп-процедуры параметрического и непараметрического оценивания, которые имеют скорость сходимости не менее 0(1/^/п). В [8] рассмотрены задачи построения выборочной плотности. а также нахождение бутстреп-оценок для регрессионных моделей.

В данной работе исследована точность классической выборочной оценки функции квантили для равномерного, экспоненциального и нормального распределений, а также для распределения Коши. Предложена бутстреп-процедура как способ сокращения объема выборки (или увеличения точности при фиксированном объеме выборки) для последующего применения в задачах оптимизации функции квантили. Дело в том. что. как правило, для решения задач стохастического программирования с функцией квантили используются стохастические квазиградиентные алгоритмы [10]. Эти алгоритмы сходятся крайне медленно, в частности, потому, что объем выборки резко возрастает при приближении к экстремуму. Поэтому актуальна проблема сокращения числа испытаний, а следовательно, и быстродействия подобных алгоритмов. Этой цели можно добиться с помощью бутстрепа. заменяя выборочную оценку квантили бутстреп-оценкой.

Пусть имеется априорная выборка {Х1?..., Хп } случайной вели чипы X ~ Гх (х). Упорядочиваем выборку {Х1,... ,Хп} и построим ее вариационный ряд:

Х(1) ^ Х(2) < ... < Х(п),

где Х(£) - порядковая статистика с номером г, г = 1 ,п.

Выборочная оценка квантили уровня а € (0,1) то выборке Х^, г = 1,п, будет иметь вид [11]:

(1) Ха(п) = Х([па] + 1))

где [па] - целая часть числа па. Данная операция означает выбор элемента вариационного ряда выборки Х(4) с помер ом г = [па] + 1.

Х

стью распределения р(х) в окрестности точки ха, в которой р(ха) > 0, по теореме Мостеллера [11] асимптотически нормальна:

где ха - точное значение квантили, аа - асимптотическое значение среднеквадра-тического отклонения оценки Ха(п), которое равно

2. Выборочная оценка квантили

(2) ^(Ха(п) - ха) и ~ N(0,^),

(3)

Заметим, что согласно [12] у выборочной квантили Ха(п) всегда существует математическое ожидание, если п достаточно велико, даже тогда, когда сама случайная величина не имеет моментов, например в случае распределения Коши.

Величину <та/^/п, имеющую скорость сходимости п-1/2, можно интерпретировать как точность выборочной оценки кваитили. Согласно [13] порядковые статистики имеют три области притяжения при увеличении объема выборки в зависимости от вида распределения (финитные распределения, распределения с "легкими" хвостами, распределения с "тяжелыми" хвостами). Рассмотрим четыре известных распределения, представляющих эти три области, и исследуем асимптотические значения ста выборочной оценки для этих распределений. С этой целью попробуем найти аналитическое значение квантили ха в зависимости от а и получить разложение ста при а ^ 0 и а ^ 1.

1. Пусть случайная величина X имеет равномерное распределение на отрезке [а, Ъ]: X — И(а, Ъ).

Тогда ее плотность вероятности будет равна

0, х < а,

(4) р(х) = { -—, х е [а, Ъ], Ъ — а

0, х > Ъ.

Зафиксируем а е (0,1). В этом случае ха е (а, Ъ). Поэтому

(5) Р(ха) = т 1 .

Ъ— а

Подставляя выражение (5) в (3), получим

(6) ста = \/ а(1 — а)(Ъ — а)2.

Отсюда видно, что для случайной величины, распределенной равномерно на отрезке [а, Ъ], асимптотическая оценка среднеквадратического отклонения ста минимальна при а ^ 0и а ^ 1 и максимальна для а = 1/2.

2. Пусть теперь случайная величина X имеет экспоненциальное распределение: X - Е(А), где Л > 0.

Ее плотность вероятности будет равна

0, х < 0,

р(х) = \ Ае-**, х > 0.

Легко найти аналитическое выражение для квантили

(8) ха = — 1П(1А— а), а е (0,1).

Подставляя выражение (8) для квантили в плотность вероятности (7), получим

(9) р(ха) = Ае1п(1-а) = А(1 — а). С учетом (9), (3) находим

(10) Ст 1

А у 1 — а

Из выражения (10) видно, что для случайной величины, распределенной экспо-А

нения ста минимальна при а ^ 0 и является возрастающей функцией по а е (0,1).

80 60 40 20

0,2 0,4 0,6 0,8 а

Рис. 1. Асимптотическая оценка средпеквадратического отклонения для распределения Коши.

Примечательно, что при а ^ 1 асимптотическая оценка среднеквадратического отклонения аа будет стремиться к бесконечности. Следовательно, квантиль экспонен-

а

Также из (10) легко заметить, что скорость стремления асимптотической оценки среднеквадратического отклонения к бесконечности при а ^ 1 пропорциональна

3. Пусть случайная величина X имеет распределение Коши: X ~ К(0). Плотность вероятности в данном случае будет равна

(Н) Р(х) = Г 1

П 1 + X2

а

(12) ха ^(п(а - 1/2)) .

Подставляя выражение (12) для квантили в плотность вероятности (11), получим

(13) р(ж0ч 1

П 1 + ^ (п(а - 1/2))]2 '

С учетом (13) и (3) находим (14) аа = п\/а(1 - а) (1 + ^(п(а - 1/2))]2) .

Построим график аа (рис. 1).

Из рис. 1 видно, что для случайной величины с распределением Коши асимптотическая оценка среднеквадратического отклонения аа минимальна для значения а = 1/2 Также гадим, что аа является убывающей функцией по а для а € (0,1/2) и возрастающей функцией по а для а € (1/2,1). При а ^ 0 и а ^ 1 асимптотическая оценка аа будет стремиться к бесконечности. Следовательно, квантиль расиределе-

а

Теперь, пользуясь равенством tg(п(a — 1/2)) = ^(п(1 — а)), а также разложением в ряд Лорана котангенса [14] по степеням 7 Л== п(1 — а):

с^) = 1 - 3 - й+

получаем ряд для асимптотическои оценки среднеквадратнческого отклонения <га в окрестности а =1

<»> - = ОТ + + О («1 - а)5'2)-

Отсюда видно, что скорость стремления асимптотической оценки среднеквадратнческого отклонения к бесконечности при а ^ 1 пропорциональна (VI — а)-3.

Разложение асимптотической оценки среднеквадратнческого отклонения (14) в ряд при а ^ 0 имеет ту ж структуру, что и ряд в окрестности а =1:

V1 — а . п^а(1 — а) , п( 5/2

(16) "а = пта? +—3— + °1а

Следовательно, скорость стремления асимптотической оценки среднеквадратнческого отклонения к бесконечности при а ^ 0 пропорциональна (л/а)-3-4. Пусть случайная величина X имеет расиределение N(0,1). Обозначим через Ф(х), х £ М1, функцию распределения для случайной величины X ~ N(0,1), называемую также функцией Лапласа. Так как Ф(х) непрерывна и строго возрастает, то квантиль ха однозначно находится из уравнения Ф(ха) = а. Для того, чтобы найти аналитическое выражение асимптотической оценки среднеквадратнческого отклонения <га в зависимости от а, рассмотрим представление функции Лапласа Ф(х) с помощью отношения Мнллса [15]:

(17) Ф(х) = 1 — р(х)Д(х).

Здесь р(х) - плотность распределения нормально распределенной случайной величины, Д(х) - отношения "хвоста" распределения к плотности вероятности. Фактически Д(х) здесь выполняет роль такого множителя, чтобы равенство (17) выполнялось:

р(х) =

1 _в2

лДП

Д(х) = е 2 е 2

Данное отношение полезно тем, что для функции Д(х) существует множество разложений, аппроксимирующих данную функцию. Воспользуемся разложением

Д(х)

(18) Д(х) = 1 + О(х - 3).

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком