混合神经认知模型：记忆如何塑造人类的奖励学习

摘要

1) 一句话总结 本研究通过一种结合人工神经网络与认知架构的混合建模方法，发现人类的奖励学习依赖于独立且灵活的记忆变量来追踪丰富的过去表征，从而对传统的强化学习模型提出了根本性质疑。

2) 关键要点

在心理学和神经科学领域，理解过去的经验如何转化并塑造未来的行为，一直是一个长期存在的挑战。

传统上，奖励引导的学习通常使用简单的强化学习（Reinforcement Learning, RL）算法来进行建模。在强化学习中，少数几个不断进行增量更新的内部变量承担了双重作用：它们既用于总结过去的奖励，又用于驱动未来的选择。然而，本研究对许多现有强化学习模型的底层假设提出了质疑。

为了深入探究这一问题，研究团队采用了一种创新的混合建模方法。该方法的核心在于：

研究人员将这种混合建模方法应用于一个关于人类奖励学习行为的大型数据集。结果表明，一个成功的模型必须具备独立且灵活的记忆变量，这些变量需要能够追踪关于过去的丰富表征。

通过这种兼顾了预测准确性与可解释性的建模方法，研究得出了重要结论：这些发现对一整类基于“标量奖励预测的增量更新”的流行强化学习模型提出了根本性的质疑。