научная статья по теме МИНИМАЛЬНЫЙ ОБЪЕМЛЮЩИЙ ПАРАЛЛЕЛЕПИПЕД В ПАРАМЕТРИЧЕСКОМ ОЦЕНИВАНИИ МНОГОМЕРНОГО РАВНОМЕРНОГО РАСПРЕДЕЛЕНИЯ Экономика и экономические науки

Текст научной статьи на тему «МИНИМАЛЬНЫЙ ОБЪЕМЛЮЩИЙ ПАРАЛЛЕЛЕПИПЕД В ПАРАМЕТРИЧЕСКОМ ОЦЕНИВАНИИ МНОГОМЕРНОГО РАВНОМЕРНОГО РАСПРЕДЕЛЕНИЯ»

ЭКОНОМИКА И МАТЕМАТИЧЕСКИЕ МЕТОДЫ, 2013, том 49, № 1, с. 119-128

СТАТИСТИЧЕСКИЕ МЕТОДЫ И ТЕОРИЯ ВЕРОЯТНОСТЕЙ

МИНИМАЛЬНЫЙ ОБЪЕМЛЮЩИЙ ПАРАЛЛЕЛЕПИПЕД

В ПАРАМЕТРИЧЕСКОМ ОЦЕНИВАНИИ МНОГОМЕРНОГО РАВНОМЕРНОГО РАСПРЕДЕЛЕНИЯ

© 2013 г. Н.И. Киселев

(Москва)

Рассматривается линейная модель генерирования многомерной случайной величины с равномерным распределением в параллелепипеде. Принцип максимального правдоподобия в задачах параметрического оценивания многомерного равномерного распределения формулируется как принцип минимального объема. В общем случае доказаны свойства параллелепипеда минимального объема, включающего все наблюдения выборки. На основе этих свойств обобщается алгоритм комбинаторного типа для нахождения оптимального параллелепипеда. Приводятся результаты численного эксперимента в задаче оценивания центра и ковариационной матрицы двумерной случайной величины, равномерно распределенной в параллелограмме. В эксперименте эффективность оценок минимального объема выше оценок классического метода моментов.

Ключевые слова: объемлющий параллелепипед минимального объема, оценки максимального правдоподобия, равномерное распределение.

ВВЕДЕНИЕ

Нормальное распределение является практически единственной хорошо изученной моделью описания многомерных случайных величин, однако с точки зрения практики описания совокупностей экономических показателей и для сравниельного анализа свойств нормального распределения желательно рассмотрение иных многомерных распределений. В этом плане многомерное равномерное распределение представляет, на наш взгляд, содержательную альтернативу нормальному распределению, которая найдет применение в эконометрических приложениях (Айвазян, 2010) и позволит более глубоко понять свойства и границы применимости нормального распределения.

Принцип максимального правдоподобия, который является основополагающим в задачах параметрического оценивания математической статистики, для многомерного равномерного распределения трансформируется в принцип минимального объема. Если предположить, что нам известен вид формы тела, в котором равномерно распределена случайная величина, то его оценкой максимального правдоподобия по некоторой выборке будет тело данной формы минимального объема, содержащее все наблюдения. В частности, известная в одномерном случае оценка максимального правдоподобия отрезка, на котором случайная величина имеет равномерное распределение, как разности максимальной и минимальной порядковых статистик, очевидно, допускает экстремальную формулировку минимального объема - это оценка, которая следует из условия минимума длины отрезка, содержащего все наблюдения выборки.

В линейной модели образования многомерной случайной величины, где каждая компонента является линейной формой от независимых одномерных равномерно распределенных случайных величин, геометрическим образом формы ее распределения служит параллелепипед. Собственно оценивание этого распределения по выборке состоит в нахождении параллелепипеда минимального объема, содержащего все ее наблюдения. Построение такого параллелепипеда позволяет делать выводы о структуре многомерной случайной величины (Киселев, 2010), вычислять статистики, представляющие интерес для той или иной прикладной задачи.

Задача построения параллелепипеда минимального объема, содержащего все наблюдения, известна, и комбинаторные алгоритмы ее решения для двух- и трехмерного случаев приведены в работах (Вайнштейн, 1990; Vivien, Wicker, 2004). Оба алгоритма основаны на свойстве принадлежности каждой паре параллельных плоскостей оптимального параллелепипеда p + 1-й вершины (p - размерность наблюдений) выпуклой оболочки выборки наблюдений (для общего случая это свойство доказано ниже в разд. 2).

Нахождение параллелепипеда минимального объема формулируется как задача оптимизации с линейными ограничениями и нелинейной целевой функцией. Выписываются необходимые условия оптимальности (условия Куна-Таккера), с помощью которых устанавливаются свойства оптимального решения, позволяющие распространить на общий случай известные для двух- и трехмерной размерностей алгоритмы комбинаторного типа построения искомого параллелепипеда.

Для представления об эффективности оценок минимального объема на конечных выборках проведен численный эксперимент в задаче оценки центра и ковариационной матрицы двумерной равномерно распределенной случайной величины. Приведенные ниже результаты эксперимента показывают их высокую эффективность относительно оценок классического метода моментов.

1. МОДЕЛЬ ОБРАЗОВАНИЯ МНОГОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Рассмотрим p-мерную случайную величину x, которая генерируется по правилу

x = Cp, (1)

где C - невырожденная матрица размером p x p; p - р-мерный вектор, состоящий из независимых одинаково распределенных случайных величин по равномерному закону на отрезке [0, 1].

Геометрическое представление распределения вектора p - это p-мерный куб с равномерной плотностью. Так как преобразование (1) аффинное, то геометрическим образом распределения вектора случайной величины x является некоторый параллелепипед с равномерной плотностью. Столбцы матрицы C являются векторами ребер параллелепипеда. Объем V(C) параллелепипеда равен V(C) = |det(C)|. Значение V(C) - это масштаб, по которому пересчитывается объем образа относительно прообраза; p(x) - плотность распределения случайной величины в параллелепипеде, p(x) = 1/V(C).

Заметим, что частные распределения величины x в силу центральной предельной теоремы (Крамер, 1947) при увеличении размерности p (предполагается, что ненулевые элементы матрицы одного порядка и число их в каждой строке стремится к бесконечности при p ^ да) будут сходиться к нормальному распределению. Таким образом, (1) дает пример многомерной величины с равномерным распределением, но каждая из ее компонент при достаточно больших p будет иметь распределение, близкое к нормальному закону.

Пусть x(1), ..., x(n) выборка независимых наблюдений случайной величины x, где n - объем выборки. Тогда плотность совместного распределения выборки в силу независимости наблюдений:

p(x(1),..., x(n)) = V(C)-n. (2)

Из (2) очевидно, что оценкой максимального правдоподобия матрицы C по выборке x(1), ..., x(n) будет матрица С параллелепипеда минимального объема, который включает все наблюдения выборки.

2. ФОРМАЛИЗАЦИЯ ОПРЕДЕЛЕНИЯ МИНИМАЛЬНОГО ПАРАЛЛЕЛЕПИПЕДА В ВИДЕ ЗАДАЧИ ОПТИМИЗАЦИИ И ЕГО СВОЙСТВА

Объемлющий параллелепипед, который включает все наблюдения множества x(1), ..., x(n), описывается системой из 2p неравенств:

b- < Cj1 x 1 ) + ...+ Cjpxp')< b+, Cij = 1, i = 1, ..., n; j = 1, ..., p,

где Ь+ и bjj - свободные члены, относящиеся соответственно к верхней и нижней плоскости пары плоскостей j; условие о^ = 1, j = 1,..., p, фиксирует масштаб направляющих векторов для каждой пары. Тогда нахождение объемлющего параллелепипеда минимального объема может быть представлено в виде задачи оптимизации

V = (Ь| - Ь-)...(Ь | - Ьp)/1 det(C) |" min (3) при ограничениях, что все наблюдения содержатся в параллелепипеде:

Cx(i )< Ь +; (4)

-Cx(i )<-Ь "; (5)

Ojj = 1, j = 1,..., p; i = 1,..., n. (6) Число неизвестных параметров, определяющих пару плоскостей, равно p + 1. Тогда общее число неизвестных параметров составляет p(p + 1) при числе ограничений 2pn.

Выпишем функцию Лагранжа для задачи (3)-(6):

пр I р

Ь (Ъ, С, п, А )= Г + /цц къ+1 + А-. \-/с]кх «

I = 1. = Ц \к =1 / \ к = 1

Здесь А+ и А- - множители Лагранжа для ограничений, индуцируемых наблюдением I, и означающие его нахождение между верхней и нижней плоскостями пары..

Приведем необходимые условия (условия Каруша-Куна-Таккера) оптимального решения для данной функции Лагранжа.

1. Условия стационарности:

дЬ "

1.1) — = Г/(Ъ + - Ъ-)-/А- = 0, I =1,..., п; ] =1,..., р;

дЪ- I=1

1.2) — = Г/(Ъ+- Ъ-) - /А+ = 0, I = 1,..., п; ] = 1, ..., р;

дЪ + и 1

1.3) = - (ЬI - Ь7) -... - (ЬI - Ьp)Cjk/det2(C) + /xk)(A| - A-) = 0, j, k = 1,..., p,

дс. =1 где С.к - алгебраическое дополнение элемента с.к в матрице С.

2. Условия дополняющей нежесткости:

р

А+ к)- Ъ + 1 = 0,

A-l"/0jkxk') + Ьj p 0

I = 1, ..., п; ] = 1, ..., р. 3. Условия неотрицательности: А+ >0, А-. >0,1 = 1, ..., п;. = 1, ...,р.

Из приведенных необходимых условий оптимального решения следует ряд свойств. Так, из условий 1.1 и 1.2 вытекает, что для любой пары плоскостей сумма значений множителей Лагран-жа, наблюдений, которые принадлежат верхней плоскости, равна сумме множителей нижней

плоскости, т.е. /п А+ = /п А. для всех..

Условия 1.1 и 1.2 можно переписать в виде /п_ А+ = /п_ А- = Гр/(Ъ + - Ъ-) для всехт.е. имеет место утверждение, что для каждой пары плоскостей указанные суммы множителей Ла-гранжа обратно пропорциональны разности между свободными членами этой пары. Отметим,

что приведенные необходимые условия оптимальности решения и полученные следствия указывают на полную симметрию свойств пар плоскостей.

Сформулированная задача оптимизации имеет нелинейную целевую функцию (3) и линейные ограничения (4)-(6). В силу существенной нелинейности целевой функции нам известны решения задачи лишь для двух- и трехмерного случаев. Оба алгоритма основаны на идеях вычислительной геометрии (Препарата, Шеймос, 1989) и состоят из двух этапов. На первом этапе строится многогранник A как выпуклая оболочка множества точек данной выборки x(1), ..., x(n), на втором - осуществляется перебор среди всех параллелепипедов определенного класса для нахождения минимального.

В двухмерном случае (Вайнштейн, 1990) определение класса возможных параллелограммов основано на свойстве минимального параллелограмма, что в каждой его паре линий одна содержит сторону выпуклого многогранника. Заметим, что этот факт можно представить несколько иначе. По теореме Вейля-Минковского любой выпуклый многогранник можно определить как множество решений некоторой системы линейных неравенств. Тогда указанное свойство перефразируется следующим образом: в каждой паре неравенств, определяющих параллелограмм, одно неравенство совпадает с тем, что имеет место в системе неравенств выпуклого многогранника. Алгоритм

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком