多巴胺是众多神经递质中的一种,可以在细胞的突触间隙释放,激活或者抑制下级神经元。能够释放多巴胺神经递质的神经元叫做“多巴胺神经元”。
这部分神经元细胞占大脑的0.0005%。而中脑腹侧被盖区 (ventral tegmental area,VTA) 区域的多巴胺和所谓的快乐感受相关。
Schultz等人在1997年提出了“奖赏预测误差假说 (Reward Prediction Error hypothesis)。RPE,实际得到的减去预测的奖励或奖励信号(预测的奖励可以理解为期望)。即在RPE为正时,多巴胺有更多的释放,表现为快乐。
RPE=奖赏-期望
观察上面图的Outcome阶段:
上图:奖赏为正,期望为0,RPE > 0
中图:奖赏为正,期望为正,RPE = 0
下图:奖赏为0,期望为正,RPE < 0
而对于Cue,即提示阶段,因为提示是突然出现的,所以期望始终为0,只要出现了提醒(一种信息的奖赏),都是RPE > 0。
根据上述多巴胺的机制,我们可以发现:
那么,生活中,有些活动是可以得到即时奖励的,而得不到即时奖励的,如何做到延迟满足呢?例如健身需要长的时间才能看到效果,同样地,小孩的学习需要一段时间后才能看到进步。根据这个多巴胺的机制,可以有以下方法来促进延迟满足:
确保得到奖赏。如果现实没有得到奖赏,那么自我给予奖励。例如:
-锻炼10次后,吃一次牛排。
-小孩学习后,给予礼品奖励。
设置和保留较低的期望值。
-可以把大的目标拆小,先实现容易达到的目标。
在得到奖赏后,继续练习,并小步提高期望值,从而产生正反馈循环。
根据期望和实际奖赏的差异,不断动态调整期望的过程和机器学习中的强化学习理论相似。