内容一览：多巴胺是神经系统中重要的神经递质，与运动、记忆和奖赏系统息息相关，它是快乐的信使，当我们看到令人愉悦的东西时，体内就会分泌多巴胺，诱导我们向它追寻。然而，多巴胺的准确定量分析目前仍难以实现。借助机器学习，美国加利福尼亚大学伯克利分校(UCB) 的 Markita P. Landry 研究组对多巴胺的释放量和释放位置，进行了量化分析，让我们距离快乐密码更进一步。
关键词：机器学习强化学习多巴胺

作者｜雪菜
编辑｜三羊

本文首发于 HyperAI 超神经微信公众平台。

我们时常会被问到这样一个问题「你快乐吗」。在对自己最近的生活状况进行回顾之后，我们也许可以做出一个相对令人满意的回答。然而，要回答有关快乐的另一个问题「你有多快乐」，就没那么容易了。

我们可以对快乐进行一个相对准确的是非判断，却很难对快乐进行一个量化的分析，只能用一些程度副词进行大致的评估。

但从生理学角度上看，快乐的程度可以用人体内的激素水平进行判断，其中一种重要激素就是多巴胺。

在这里插入图片描述

图 1：让人感到愉快的四种激素从左至右依次是多巴胺、内啡肽、催产素和血清素

多巴胺是神经系统中一种重要的神经递质，负责在细胞之间传递讯息。多巴胺是快乐的信使，当我们看到令人愉悦的事物时，大脑便会释放多巴胺，促使我们去追寻快乐的事物。因此，多巴胺能神经元 (dopaminergic neuron) 控制的一条神经环路也被称为奖赏回路，这一回路与学习、记忆、成瘾行为息息相关。

虽然人们对多巴胺的化学结构，分布区域及生理作用已经有了比较清晰的认识，但对多巴胺在细胞层面及分子层面的作用机制还不甚了解，更无法对多巴胺的在神经环路中的作用进行准确的量化分析。

「量化」快乐：AI 破译多巴胺密码

1997 年，Schultz 等人提出了奖赏回路的可能运行机制——奖赏预测误差假说。这一假说认为，多巴胺能神经元会根据预期奖赏与实际奖赏的误差，调整多巴胺的释放量，进而调整人们追寻某项事物的动机。

2020 年，DeepMind 在大脑中发现不同的神经元对于同一刺激有着不同的奖励预期。也就是说，在大脑当中存在着相对乐观的神经元和比较悲观的神经元。面对同样的半杯水，乐观的神经元会认为，还有半杯水，我们前途光明。而悲观的神经元则会觉得，只剩半杯水了，我们要渴死了。而且进一步研究表明，神经元对奖励预期的分布与实际奖励的分布基本一致。

在这里插入图片描述

图 2：神经元的预期奖励（蓝色）和实际奖励（灰色）

在 AI 的帮助下，对于奖赏回路神经机制的解析正在加速推进。

2021 年，美国范德堡大学 (Vandy) 的 Erin S. Calipar 研究组通过监测生物体内多巴胺含量的变化，利用支持向量机 (SVM) 实现了对生物体行为的预测，同时基于实验结果，研究组提出了多巴胺调控生理活动的新模型。

近期，AI 对于多巴胺的解读更上一层楼。借助机器学习，美国加利福尼亚大学伯克利分校 (UCB) 的 Markita P. Landry 研究组，对多巴胺的释放量和释放脑区进行了量化分析，为神经成像和神经环路的研究提供了新思路。

相关研究已发表在《ACS Chemical Neuroscience》上，标题为「 Identifying Neural Signatures of Dopamine Signaling with Machine Learning」。

在这里插入图片描述

图 3：该研究成果已发表在《ACS Chemical Neuroscience》

论文地址：https://pubs.acs.org/doi/full/10.1021/acschemneuro.3c00001

该研究主要解决了两个问题：

1、分辨不同刺激下的多巴胺释放量（0.1 mA 及 0.3 mA 电流刺激）；

2、判断多巴胺的释放脑区（背外侧纹状体 DLS 及背内侧纹状体 DMS）。

首先，他们用近红外儿茶酚胺纳米传感器 (nIRCat，near infrared catecholamine nanosensors) 对多巴胺进行标记。标记后，在红外显微镜下，多巴胺会发出荧光，荧光强度与多巴胺浓度正相关。对大脑施加电流刺激后，大脑会释放出多巴胺，随后将其回收。这一过程会在红外显微镜下留下一条荧光强度曲线，对荧光曲线进行量化处理，可以得到 8 个统计特征，如平均荧光强度，多巴胺释放位点数 (ROI, regions of interests) 等，还有 2 个时间特征，包括荧光强度高于及低于 2 倍标准差的时长。这些特征值可用于机器学习模型的训练。

在这里插入图片描述

图 4：nIRCat 对多巴胺的标记结果

A：电流刺激前后观察到的荧光结果

B：电流刺激前后的荧光强度曲线图

研究者们用支持向量机 (SVM) 和随机森林模型 (RF) 两个模型分别进行了训练和分析。

SVM 模型可以基于复杂非线性的特征将结果分为两类，并将训练得到的边界条件运用到测试数据中。RF 模型由多个决策树组成，每个决策树做出的决策最终被整理在一起，得到最终的输出结果。

RF 模型可以对结果中的变量进行全面解读，保证准确的预测，通过随机选择数据和特征，降低了决策树模型对于原始训练数据的敏感性，同时提高了决策树之间的差异性。

两种模型所需的训练数据量较小，而且可以将结果分别两类，与本研究的目的相匹配。

在这里插入图片描述

图 5：机器学习的工作流

Data Set A 及 Data Set B：分别代表不同电流刺激或是不同脑区的多巴胺释放浓度

两种模型训练完毕后，将不同电流刺激下得到的荧光强度曲线作为输入量，模型就可以对受到的刺激强度和多巴胺释放的脑区进行判断。

在这里插入图片描述

图 6：机器学习对不同刺激强度的判断结果

图 A：对 4 周龄小鼠的判断结果

图 B：对 8.5 周龄小鼠的判断结果

图 C：对 12 周龄小鼠的判断结果

结果中可以看到，随着小鼠周龄的增加，两种模型对于刺激强度的判断准确率不断增加。这主要是因为，随着小鼠周龄增加，其体内激素水平逐渐稳定，易于预测。在 12 周龄的小鼠上，RF 模型对刺激强度的判断准确率可达0.832。

在这里插入图片描述

图 7：0.3 mA 电流刺激下，机器学习对多巴胺释放脑区的判断准确率（左）以及不同特征对判断准确率的重要性（右）

A&B：对 4 周龄小鼠的判断结果

C&D：对 8.5 周龄小鼠的判断结果

E&F：对 12 周龄小鼠的判断结果

图中可以看出，与刺激强度的结果类似，机器学习在 12 周龄的小鼠上有着最高的判断准确率，最高可达 0.708。同时，不同的输入特征也会对模型的判断准确率产生影响。不同特征参数当中，ROI 对于模型的判断准确率最为重要。

通过机器学习，研究者打破了传统数据分析的禁锢，选用了大量特征变量，并通过传统数据分析所忽视的特征 ROI 提高了模型的判断准确率。此外，这一模型还可以推广利用于多巴胺之外的神经环路，为神经成像与神经机制的研究提供新思路。

多巴胺：快乐与失落的双刃剑

多巴胺能为我们带来愉悦的感受，并促使我们追寻快乐的事物。无论是可口的食物，绚丽的风景，适当的运动还是积极的社交，都有助于多巴胺的释放，从而帮助我们保持好心情。正因为此，多巴胺也可以作为商家的一种营销手段。从包装精美的「多巴胺餐饮」到席卷社媒的「多巴胺穿搭」，亮丽的色彩不仅点缀了人们的生活，也点亮了人们的心情。

在这里插入图片描述

图 8：UP 主「康康和爷爷」的多巴胺穿搭

然而，快乐之后，体内的多巴胺水平会暂时跌落至正常水平以下，反而会带来沮丧感。多巴胺长期频繁分泌后，人体对快乐的感知会变得迟钝，使人难以体会到生活中点点滴滴的美好，更容易变得失落。因此，也有人提出了「多巴胺戒断」的理念，通过调整作息，控制娱乐时间，远离社交媒体等方式，控制体内多巴胺的释放，从而回归生活，体会到真正的快乐。

无论是「多巴胺穿搭」还是「多巴胺戒断」，大家都在追寻生活中的美好，使自己快乐生活。两种理论虽然有一定的生理学依据，但实际效果仍有待研究。在 AI 的帮助下，科研工作者们也在不断地挖掘神经活动背后的机制，探究多巴胺的奥秘。相信有一天，当被问及「你有多快乐」的时候，人们能够毫不犹豫地回答说，100%。

本文首发于 HyperAI 超神经微信公众平台。

参考文章：

[1]https://www.nature.com/articles/s41586-019-1924-6#additional-information

[2]https://www.sciencedirect.com/science/article/pii/S096098222101188X

[3]https://www.science.org/doi/10.1126/science.275.5306.1593

[4]https://prezi.com/gxadjg6gz7li/nicotine-and-the-brain-reward-system/

[5]https://youtu.be/v6VJ2RO66Ag