Актуальное исследование фазовых ответов дофамина как механизма максимизации выгоды.
Ключевые выводы
Фазовые изменения дофамина кодируют ошибку предсказания награды (RPE). Этот сигнал является ключом к адаптивному поведению и обучению с подкреплением (RL).