马尔可夫决策过程:Markov Decision Process,强化学习中描述状态、动作、转移、奖励和折扣因子的标准决策模型。