МОДЕЛЬ ВЫБОРА ВОЗНАГРАЖДЕНИЯ НА ОСНОВЕ ТЕОРИИ ОБУЧЕНИЯ ПО ПОДКРЕПЛЕНИЮ

МЕРЖАНОВА Г.Х.; СМИРНИТСКАЯ И.А.; ФРОЛОВ А.А.

ЖУРНАЛ ВЫСШЕЙ НЕРВНОЙ ДЕЯТЕЛЬНОСТИ, 2007, том 57, № 2, с. 133-143

^ ОБЗОРЫ,

ТЕОРЕТИЧЕСКИЕ СТАТЬИ

УДК 612.82

МОДЕЛЬ ВЫБОРА ВОЗНАГРАЖДЕНИЯ НА ОСНОВЕ ТЕОРИИ ОБУЧЕНИЯ ПО ПОДКРЕПЛЕНИЮ

Институт высшей нервной деятельности и нейрофизиологии РАН, Москва,

e-mail: i.a.i.a@mail.ru Поступила в редакцию 10.07.2006 г. Принята в печать 09.11.2006 г.

Предложена модель, объясняющая поведенческие проявления "импульсивности" и "самоконтроля", исходя из теории обучения по подкреплению. Дисконтный коэффициент у, учитывающий в этой теории субъективное уменьшение ценности отставленного подкрепления, отождествляется с общим уровнем активности дофаминергических нейронов, который, по данным литературы, и определяет вариант поведения. Компьютерное моделирование показало, что большие значения у характерны для преимущественно "самоконтрольных" субъектов, меньшие значения у - для "импульсивных".

Ключевые слова: обучение по подкреплению, "импульсивность", "самоконтроль", дофамин, модель.

The Model of the Reward Choice Basing on the Theory of Reinforcement Learning

I. A. Smirnitskaya, A. A. Frolov, G. Kh. Merzhanova

Institute of Higer Nervous Activity and Neurophysiology, Russian Academy of Sciences, Moscow,

e-mail: i.a.i.a@mail.ru

We developed the model of alimentary instrumental conditioned bar-pressing reflex for cats making a choice between either immediate small reinforcement ("impulsive behavior") or delayed more valuable reinforcement ("self-control behavior"). Our model is based on the reinforcement learning theory. We emulated dopamine contribution by discount coefficient of this theory (a subjective decrease in the value of a delayed reinforcement). The results of computer simulation showed that "cats" with large discount coefficient demonstrated "self-control behavior"; small discount coefficient was associated with "impulsive behavior". This data are in agreement with the experimental data indicating that the impulsive behavior is due to a decreased amount of dopamine in striatum.

Key words: reinforcement learning," impulsive behavior"," self-control behavior", dopamine, model.

Стратегия поведения является формой приспособления животных и человека к окружающей среде. Тенденцию выбирать большее, но отставленное во времени подкрепление по сравнению с меньшим, но менее задержанным, в психологической литературе называют "самоконтролем", а альтернативное поведение -"импульсивностью" [11-14]. В разных условиях и у разных индивидов проявляется либо способность к "самоконтролю", либо "импульсивность" [15-17]. Изучение "импульсивности поведения" в настоящее время является исключительно актуальным в связи с тем, что она характерна для ряда генетически обусловленных заболеваний, таких как гиперактивность

и дефицит внимания [2, 5, 22, 31], наркомания и алкоголизм [6], шизофрения [8, 9] и др.

Проявление "импульсивности" является функцией влечения к подкреплению. Поскольку основным медиатором, опосредующим это влечение, является дофамин, то ему и уделяется наибольшее внимание. В результате многих опытов показано, что острое введение небольших доз дофаминергических агонистов уменьшает, а больших доз - увеличивает "импульсивность", введение антагонистов увеличивает "импульсивность" [3]. Повреждение прилежащего ядра действует подобно антагонистам, усиливая "импульсивность" [4]. С помощью

микродиализа было показано, что одним из нейрохимических коррелятов "импульсивности" является количество дофамина, высвобождаемого в звене прилежащее ядро - префрон-тальная кора. Увеличение его коррелирует с уменьшением "импульсивности" и увеличением "самоконтроля", а снижение, наоборот, с ростом "импульсивности" [7].

Наиболее важными структурами для проявления "импульсивности" являются префрон-тальная кора и прилежащее ядро. Мотивация ожидаемой ценностью (incentive motivation) реализуется, вероятно, через лимбические структуры (миндалина, гиппокамп) с выходом на прилежащее ядро, куда восходит также информация из вентральной области покрышки, стриатума и фронтальной коры. Значимость каждой из этих структур и их объединения еще до конца не определены, но, возможно, что именно в этих структурах формируется и распространяется каскад нейрофизиологических возбуждений, трансформирующихся в психоэмоциональное состояние "импульсивности" [1].

Известна феноменологическая модель "импульсивности/самоконтроля", основанная на идее "максимизации" [10]. Согласно этой идее организм суммирует информацию об общем количестве подкрепления за весь период задержки и минимизирует свою энергию для получения подкрепления. В этой модели используют сложные математические оценки, которые учитывают энергетические затраты на получение пищи, на осуществление локомо-ций и метаболических функций. В качестве теоретического обоснования принципа "максимизации" выдвигается положение об "оптимальной стратегии пищедобывательного поведения" (optimal foraging theory), которое состоит в наиболее рациональном выборе пищи животными в естественных условиях и находит много примеров в живой природе.

Однако эта модель носит описательный характер и не затрагивает нейрофизиологических механизмов. Целью настоящего исследования является разработка математической модели стратегии пищедобывательного поведения в условиях "права выбора" подкрепления с учетом его задержки и качества на основе теории Р. Саттона и А. Барто [23] и связать формализм этой теории с экспериментальными данными о роли дофамина в обучении по подкреплению.

МЕТОДИКА

В поведенческом эксперименте нами была использована методика активного выбора ("права выбора") в следующем варианте. У кошек вырабатывали отставленные пищевые рефлексы на свет с разнокачественным подкреплением: кусочком мяса или хлебо-мясной смесью в зависимости от длительности задержки ответа. Животным предлагали ситуацию выбора подкрепления, а именно: мясо -при нажатии на педаль через 10-11 с после включения лампочки или хлебо-мясную смесь при нажатии на педаль на 2-й или 3-й секундах (1-я секунда соответствовала латентному периоду распознавания условного сигнала). После нажатия на педаль во 2-ю, 3-ю, 10-ю или 11-ю секунду лампочка под педалью отключалась. Нажатие на педаль от 4-й до 9-й секунды не приводило к отключению лампочки. Освещение педали лампочкой сигнализировало о продолжении опыта.

ВЫЧИСЛИТЕЛЬНАЯ МОДЕЛЬ

Теория обучения по подкреплению Саттона и Барто рассматривает любую стратегию поведения как результат обучения. Новое внешнее воздействие вызывает изменение поведения и фиксацию этого изменения. По мере повторения воздействия изменения в поведении уменьшаются и затем исчезают совсем. Субъект теперь реагирует на данные воздействия стереотипно. Найти итоговое поведение можно только в ходе рассмотрения процесса обучения. Критерием выбора итоговой стратегии поведения является максимизация суммарного вознаграждения.

Поведение рассматривается как процесс изменения состояний субъекта в среде в дискретном времени t. Изменение состояния включает как изменение состояния среды, так и собственного состояния субъекта. Переход из одного состояния в другое осуществляется выбором действия. Каждому состоянию 8к приписывается его субъективная ценность ¥(), а действию Л, в состоянии приписывается субъективная ценность Q¡a(t). Субъективные ценности состояний и действий определяются прошлым опытом субъекта и корректируются в процессе поведения в зависимости от ошибки их прогноза. Например, текущее изменение ценности действия Л, при его совершении в момент времени t задается правилом

А Qk1 = а[ г (t) + у V (t +1) - Qk1 (t)]. (1)

Здесь первый член г(^ + уУ^ + 1) задает фактическую ценность действия Л, после его совершения (которую можно назвать подкреплением действия), а второй член Qki(i) -субъективную его ценность на предыдущем такте времени, АQki - изменение субъективной ценности выбранного действия. Если фактическая ценность действия оказалась больше ожидаемой, то субъективная ценность возрастает, и наоборот, она уменьшается при чрезмерном прогнозе. Положительный коэффициент а задает скорость обучения.

Фактическая ценность действия (подкрепление) складывается из двух составляющих: непосредственно награды г(0, которую субъект получает в результате выполнения действия, и ценности нового состояния + 1), которое при этом было достигнуто. Таким образом, в теории Саттона и Барто подкреплением действия является не только непосредственная награда, но и переход в состояние с большой субъективной ценностью. Может оказаться, что при совершении действия непосредственная награда будет отсутствовать. Тогда единственным подкреплением будет достижение состояния с большой ожидаемой ценностью. Как показано ниже, субъективная ценность состояния соответствует прогнозу будущей суммарной награды, достижимой из этого состояния. Ценность нового состояния не эквивалентна непосредственной награде и дает вклад в фактическую ценность действия с дисконтным коэффициентом у, меньшим единицы. Если у = 0, то действие оценивается только по непосредственной награде, а возможность достижения будущих наград из нового перспективного состояния игнорируется.

Изменение ценности Ук состояния 8к в момент времени t определяется правилом

АУк = а[г(t) + уV(t +1) - Ук(t)]. (2)

В этом уравнении г(^ + ^^ + 1) определяет фактическую, а Vk(t) - прогнозируемую ценность состояния £к, т.е. можно считать, что

8(t) = г(t) + уV(t +1) - Vk(t) (3)

есть ошибка прогноза ценности состояния Vk(t), которую можно назвать ошибкой прогноза подкрепления. Таким образом, согласно правилу (2), изменение субъективной ценности состояния АУк пропорционально ошибке его прогноза, т.е. субъективная ценность состояния увеличивается при недооценке и уменьшается при переоценке состояния. В теории Саттона и Барто система, прогнозиру-

ющая ценность состояния V, называется "критик" (critic).

Так как непосредственная награда и будущее состояние зависят от действия, которое выбирается в данном состоянии, то и изменение его ценности зависит от выбора действия. Выбор действия являе

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме МОДЕЛЬ ВЫБОРА ВОЗНАГРАЖДЕНИЯ НА ОСНОВЕ ТЕОРИИ ОБУЧЕНИЯ ПО ПОДКРЕПЛЕНИЮ Биология

Текст научной статьи на тему «МОДЕЛЬ ВЫБОРА ВОЗНАГРАЖДЕНИЯ НА ОСНОВЕ ТЕОРИИ ОБУЧЕНИЯ ПО ПОДКРЕПЛЕНИЮ»