照亮大脑的奖励通路——神经科学的新发现-DG城市

20240102162527350-image

最近的研究揭示了大脑中的多巴胺如何引导动物识别和改进导致奖励的行为。这项研究将特定行动与多巴胺释放联系起来，对改善教育和人工智能的学习过程具有重要意义。

奖励不仅会强化特定行为，还会迅速改变我们行为的整个模式。

想象一下，你正在教一只狗玩接球游戏。你扔了一个球，你的狗冲向它，捡起它，然后跑回去。然后你奖励你气喘吁吁的小狗。但现在你的狗的真正诀窍来了：弄清楚该序列的哪一部分赢得了款待。科学家称其为大脑中的“学分分配问题”。这是一个关于了解哪些行动对我们所经历的积极结果负责的基本问题。

众所周知，多巴胺是大脑中的关键化学信使，在这一过程中起着至关重要的作用。但大脑究竟如何将特定行为与多巴胺的释放联系起来，目前尚不清楚。

综合研究的新见解

12月13日，艾伦研究所（Allen Institute）、哥伦比亚大学祖克曼（Columbia University）祖克曼心脑行为研究所（Zuckerman Mind Brain Behavior Institute）、尚帕利莫未知中心（Champalimaud Centre for the Unknown）和西雅图儿童研究所（Seattle Children’s Research Institute）的科学家在《自然》杂志上发表的一项研究揭示了这一谜团。它揭示了多巴胺如何不仅发出奖励的信号，而且还引导动物通过反复试验来了解导致这些奖励的特定行为。

有趣的是，该研究还表明，大脑的奖励系统可以迅速而动态地改变动物的所有运动和行为。这突出了一种复杂的学习策略，其中行为不仅得到强化，而且通过经验积极塑造和微调，该研究的资深作者Rui Costa博士说。

“当你强化行为时，我们通常认为这只是一种行为，”艾伦研究所总裁兼首席执行官科斯塔说。“但不是：你正在改变整个行为结构。真正令人惊讶的是它的速度如此之快。

解码多巴胺如何塑造学习

为了揭示这些见解，该团队与Champalimaud未知中心的工程师和神经科学家合作，开发了一种新颖的“闭环”系统，可以将小鼠的特定行为与实时多巴胺释放联系起来。研究人员为小鼠配备了无线传感器，以跟踪它们在一个简单的受控空间内的运动。然后，他们将这些数据输入机器学习算法，该算法将这些动作分类为不同的组。然后，研究人员使用光遗传学，一种用光控制神经元的方法，一旦小鼠执行预定义的“目标动作”，就会刺激多巴胺神经元。

他们发现，小鼠会迅速改变它们的行为以响应多巴胺的释放。最初，它们不仅增加了目标动作的频率，而且还增加了类似动作和多巴胺释放前几秒钟发生的动作的频率。与此同时，与目标不同的行动迅速减少。随着时间的流逝，这种改进变得更加精确，小鼠越来越关注导致多巴胺释放的确切作用。

该研究还研究了小鼠如何学习一系列动作，揭示了一个类似于倒带时间的关键过程，以了解导致奖励的原因。当触发多巴胺的动作发生得更远时，小鼠的学习速度更慢。这表明，动作之间较长的等待时间使小鼠更难将序列与奖励联系起来。从本质上讲，奖励之前的行动会很快被掌握和改进，而早期的行动会逐渐完善。这种“倒带”过程加强了这种行为，并帮助小鼠逐渐识别哪些精确的动作和序列会产生奖励。