научная статья по теме КРИТЕРИИ ОЦЕНКИ АДЕКВАТНОСТИ АППРОКСИМИРУЮЩИХ ФУНКЦИЙ В МЕТОДЕ КАЛИБРОВОЧНЫХ КРИВЫХ Метрология

Текст научной статьи на тему «КРИТЕРИИ ОЦЕНКИ АДЕКВАТНОСТИ АППРОКСИМИРУЮЩИХ ФУНКЦИЙ В МЕТОДЕ КАЛИБРОВОЧНЫХ КРИВЫХ»

ОБЩИЕ ВОПРОСЫ МЕТРОЛОГИИ И ИЗМЕРИТЕЛЬНОЙ ТЕХНИКИ

57.088.5

Критерии оценки адекватности аппроксимирующих функций в методе калибровочных кривых

Ю. А. КУДЕЯРОВ, А. Н. ПАНЬКОВ

Всероссийский научно-исследовательский институт метрологической службы,

Москва, Россия, e-mail: kudeyarov@vniims.ru

Рассмотрены критерии адекватности модельных функций в методе калибровочных кривых, используемом при количественном иммуноанализе. Показано, что критерий Колмогорова, в силу простоты, можно использовать для первоначальной отбраковки заведомо неадекватных модельных функций.

Кпючевые слова: иммуноанализ, калибровочная кривая, коэффициент детерминации, информационные критерии Акаике и Байеса, критерий Колмогорова.

The adequacy criteria of model functions in the calibration curves method used at the quantitative immunoanalysis are considered. It is shown that Kolmogorov criterion due to simplicity can be used for initial rejection of deliberately inadequate model functions.

Key words: immunoanalysis, calibration curve, determination coefficient, Akaike and Bayes information criteria, Kolmogorov criterion.

Метод калибровочных кривых (КК) (градуировочных характеристик) широко используют в весовых операциях, при измерении количества жидкостей в резервуарах разной конфигурации, решении задачи идентификации веществ в хроматографии, проведении различных химических, биологических и медицинских анализов и т. д. Рассмотрим применение метода КК в иммуноанализе, поскольку с его помощью можно перейти от качественных результатов к количественным. Под КК в предлагаемой работе будем понимать графическое или табличное представление аналитической зависимости выходного сигнала анализатора от входного воздействия, как это принято у химиков и биологов, но которое значительно отличается от понятия калибровки в метрологии.

Надежность и точность аналитических результатов, найденных количественными методами, существенно зависят от выбора адекватной КК. В свою очередь адекватность КК оценивается разного рода критериями. Распространен критерий, основанный на вычислении коэффициентов детерминации в соответствии с выражением

N _2 N _2 N 2

Е(Уп-y) =Е(Pn-y) +Х(Уп-У) - (1)

п=1 n=1 n=1

где N — объем выборки (число экспериментальных точек); yn — экспериментально измеренный выходной отклик на

входное воздействие xn; y — среднее значение (математическое ожидание) выходных сигналов (откликов), оцененное по всем экспериментальным точкам; yn — модельная функция отклика (аппроксимирующая функция).

Выражение (1) можно записать символически [1]:

SST = SSR + SSE,

N 2 N 2 N 2

где SST = £( yn - У )2; SSR =£( yn - y )2; SSE =£(уп - y )2.

n=1 n=1 n=1

Под модельной функцией отклика понимается аналитическое выражение регрессионной модели (аппроксимирующей функции). Например, в случае линейной регрессии модельная функция отклика имеет вид

У =Ро +Р1*,

где Р0, Р1 — модельные параметры, подлежащие определению по методу наименьших квадратов (МНК).

Коэффициент детерминации вычисляют по формуле [1]:

R2 = SSR/SST = 1 - SSE/SST (2)

Скорректированный коэффициент детерминации находят как

^кор = 1 - - 1)/^Т(М - К)], (3)

где К — число параметров регрессионной модели (число степеней свободы), К < N.

Коэффициенты, определяемые по (2), (3), принимают значения в интервале [0, 1]. Когда они близки к единице, т. е. дисперсия остаточных членов меньше дисперсии измеренных значений откликов, модельная функция отклика адекватна входному воздействию.

Пример использования коэффициентов детерминации приведен, например в [2]. Для случая с измерением концентрации иммуноглобулина с помощью иммунохроматографи-ческих тест-систем оказалось, что R2 = 0,92. Такое значение указывает на высокую достоверность определения концентрации методом КК.

Анализ разных критериев адекватности КК представлен в [3]. При этом основное внимание уделено использованию информационных критериев Акаике (А1С) и Байеса (В1С), выборочного критерия Акаике (А1Сс), позволяющих сформи-

ровать адекватную модель. Эти критерии редко используют в аналитической химии для выбора адекватной калибровочной кривой, но авторы [3] утверждают, что их применение открывает новые возможности в иммуноанализе.

В [3] вычисление коэффициентов детерминации и использование информационных критериев относятся к четырем аналитическим методам: трем разновидностям метода жидкостной хроматографии и методу безводного капиллярного электрофореза, применяемым при анализе активных веществ в биологических жидкостях или количественном определении примесей в лекарственных веществах. Для каждого экспериментального метода использовали восемь способов аппроксимации полученных зависимостей, от простой линейной и до взвешенной квадратичной, параметры модельных функций определяли по МНК.

Методы аппроксимации, являющиеся разновидностями взвешенного МНК, требуют пояснения. В метрологии понятие веса применяют в случае неравноточных измерений, т. е. когда различны средние квадратические отклонения (СКО) для разных серий измерений одной и той же величины. При этом вес \мп определяется как величина, обратно пропорциональная оценке дисперсии случайной погрешности п-й серии измерений s2 [4]:

где к — число измерений в п-й серии.

Однако в [3] использован упрощенный подход. На практике дисперсии s2 обычно неизвестны. В такой ситуации их иногда приравнивают значениям независимой переменной, т. е. S¡2 ~ х, тогда = х-1. Теперь минимизируемый функционал в МНК принимает вид

N 2

F(Рс, Р1)=Е^п ((л -Уп) = тП

п=1

где N — число точек, по которым строится градуировочная характеристика.

Наибольший интерес в [3] вызывают указанные выше информационные критерии. Так, исходная формула для критерия Акаике записывается в виде

А1С — 21д (в|у))+ К.

В частном случае погрешностей остаточных членов, распределенных нормально, критерий Акаике можно представить как

А1С = N 1д (£2)+ 2К, (4)

где S2 = SSE/N.

Критерий Акаике обычно используют для сравнения моделей с разным числом параметров, когда требуется выбрать наилучшие подгоночные параметры, что и было сделано в [3]. Среди нескольких альтернативных моделей пред-

почтение отдается той, у которой значение AIC меньше, поэтому (4) можно выразить в виде

AIC = N lg (s2)+ 2K/N.

При увеличении числа подгоночных параметров первое слагаемое в правой части уменьшается, а второе увеличивается. Таким образом, критерий Акаике не только «вознаграждает» за качество приближения, но и «штрафует» за использование излишнего числа параметров модели.

Для малых выборок используют выборочный критерий Акаике

AICc = AIC + 2K (K + 1)/(N - K - 1).

С критерием Акаике тесно связан информационный критерий Байеса

BIC — 2lg L((0|y))+ Klg(N), (5)

но при увеличении числа параметров последний «штрафует» строже. В действительности критерий (5) был предложен Шварцем в 1978 г. (см., например [5]), поэтому часто его называют также критерием Шварца и получают с помощью такой же процедуры, что и критерий Акаике. При этом допускают, что распределение экспериментальной выборки принадлежит к семейству экспоненциальных и является наиболее часто используемой модификацией AIC. В дальнейшем этот критерий будем называть критерием Шварца; в случае линейной регрессии он выражается через SSE:

BIC = -N lg [SST/N] + K lg(N).

Получение (вывод) всех информационных критериев основывается на оценке расстояния Кульбака—Лейблера между функциями, описываемого формулой [5]:

I(F, в)=JF(x) lg (F(x)/y(x, в))dx,

где функция y = F(x) относится к «истинной» зависимости выходного сигнала анализатора у от концентрации анализируемого вещества х; y(x, 0) — модельная оценка (аппроксимация) «истинной» функции; 0 — набор параметров модельной функции, подлежащий определению.

Согласно теории информации замена «истинной» функции F на модельную y(x, 0) приводит к потере информации

I(F, 0), однако если у(x, 0) полностью совпадает с F, то потеря информации отсутствует. Все информационные критерии сводятся к оценке потери информации, минимизированной по принципу максимального правдоподобия, причем в качестве функций правдоподобия берутся математические ожидания, в том числе и двойные, которые оптимизируются соответствующим набором параметров 0 [5].

Приведенные в [3] результаты показывают, что иногда информационные критерии действительно позволяют выделять среди используемых функций отклика наиболее адекватную, тогда как с помощью только лишь коэффициентов детерминации этого сделать не удается. Вместе с тем, авторы [3] отмечают, что не выявили большой разницы между тремя информационными критериями. Отметим, что эти критерии применяли для достаточно простых модельных функций, самая сложная функция была квадратичной, и не ясно, как критерии поведут себя в случае более сложных нелинейных аппроксимирующих функций.

Наряду с информационными имеются также другие критерии согласия, основанные на оценке расстояния между функциями. Прежде всего следует назвать критерий согласия А. Н. Колмогорова, который обычно применяют для оценки функций распределения случайных величин. Вместе с тем имеется аналогия между этой задачей и задачей оценки адекватности модельных функций отклика в методе КК. Если это так, то получаем дополнительный критерий адекватности. При использовании критерия Колмогорова приходится иметь дело с тремя функциями:

У = У(х) — описывающей объективно существующую (действительную) зависимость выходного сигнала от входного, которая неизвестна;

Уп = У(хп) — эмпирической, построенной по выборке (х0, х1,..., хп,...,х^ и являющейся опытным представлением функции у = у(х) (отметим, что функция уп = у(хп) известна в конечном числе точек хп);

у(х|9) — теоретической (модельной), которая предлагается для описания функции у = у(х) на основе анализа данных, используемых при построении эмпирической функции, и которая известна и оценена, например по МНК (в-совокуп-ность модельных параметров).

Статистика Колмогорова D (максимальное расстояние между функциями, точная верхняя граница множества S =

= IУ(хп) - У(х| в)| для функции уп = у(хп)) определяется соотношением (см., например [6]):

D=вир| у

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком