照亮大脑的奖励通路——神经科学的新发现

20240102162527350-image

最近的研究揭示了大脑中的多巴胺如何引导动物识别和改进导致奖励的行为。这项研究将特定行动与多巴胺释放联系起来,对改善教育和人工智能的学习过程具有重要意义。

奖励不仅会强化特定行为,还会迅速改变我们行为的整个模式。

想象一下,你正在教一只狗玩接球游戏。你扔了一个球,你的狗冲向它,捡起它,然后跑回去。然后你奖励你气喘吁吁的小狗。但现在你的狗的真正诀窍来了:弄清楚该序列的哪一部分赢得了款待。科学家称其为大脑中的“学分分配问题”。这是一个关于了解哪些行动对我们所经历的积极结果负责的基本问题。

众所周知,多巴胺是大脑中的关键化学信使,在这一过程中起着至关重要的作用。但大脑究竟如何将特定行为与多巴胺的释放联系起来,目前尚不清楚。

 

综合研究的新见解

12月13日,艾伦研究所(Allen Institute)、哥伦比亚大学祖克曼(Columbia University)祖克曼心脑行为研究所(Zuckerman Mind Brain Behavior Institute)、尚帕利莫未知中心(Champalimaud Centre for the Unknown)和西雅图儿童研究所(Seattle Children’s Research Institute)的科学家在《自然》杂志上发表的一项研究揭示了这一谜团。它揭示了多巴胺如何不仅发出奖励的信号,而且还引导动物通过反复试验来了解导致这些奖励的特定行为。

有趣的是,该研究还表明,大脑的奖励系统可以迅速而动态地改变动物的所有运动和行为。这突出了一种复杂的学习策略,其中行为不仅得到强化,而且通过经验积极塑造和微调,该研究的资深作者Rui Costa博士说。

“当你强化行为时,我们通常认为这只是一种行为,”艾伦研究所总裁兼首席执行官科斯塔说。“但不是:你正在改变整个行为结构。真正令人惊讶的是它的速度如此之快。

解码多巴胺如何塑造学习

为了揭示这些见解,该团队与Champalimaud未知中心的工程师和神经科学家合作,开发了一种新颖的“闭环”系统,可以将小鼠的特定行为与实时多巴胺释放联系起来。研究人员为小鼠配备了无线传感器,以跟踪它们在一个简单的受控空间内的运动。然后,他们将这些数据输入机器学习算法,该算法将这些动作分类为不同的组。然后,研究人员使用光遗传学,一种用光控制神经元的方法,一旦小鼠执行预定义的“目标动作”,就会刺激多巴胺神经元。

他们发现,小鼠会迅速改变它们的行为以响应多巴胺的释放。最初,它们不仅增加了目标动作的频率,而且还增加了类似动作和多巴胺释放前几秒钟发生的动作的频率。与此同时,与目标不同的行动迅速减少。随着时间的流逝,这种改进变得更加精确,小鼠越来越关注导致多巴胺释放的确切作用。

该研究还研究了小鼠如何学习一系列动作,揭示了一个类似于倒带时间的关键过程,以了解导致奖励的原因。当触发多巴胺的动作发生得更远时,小鼠的学习速度更慢。这表明,动作之间较长的等待时间使小鼠更难将序列与奖励联系起来。从本质上讲,奖励之前的行动会很快被掌握和改进,而早期的行动会逐渐完善。这种“倒带”过程加强了这种行为,并帮助小鼠逐渐识别哪些精确的动作和序列会产生奖励。

对教育和人工智能的更广泛影响

该研究结果可能会影响教育和人工智能(AI)等不同领域,主要作者、西雅图儿童研究所华盛顿大学医学儿科助理教授Jonathan Tang博士说。例如,允许在课堂上进行探索、错误和逐步完善可能更符合我们大脑与生俱来的学习过程。

在人工智能领域,这些见解可以带来更复杂、更高效的学习系统。通过更好地复制生物学习过程,我们可以创建更善于适应新数据和新情况的人工智能。

这项研究更深入地了解我们的大脑如何通过反复试验来学习和适应——无论你是科学家还是小狗。

“我们认为很多关于事情如何运作的东西是理所当然的,包括学分分配,”唐说,他在哥伦比亚大学期间开始与科斯塔一起进行研究。“但当你真正开始潜入时,你才会意识到其中的复杂性。这就是人们做科学的原因:关注事情的真相。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容