摘要:【目的】在分析了期望最大化准则无法控制方差的局限性的基础上,考虑具有风险厌恶型决策人的有限阶段马尔可夫决策过程,为风险厌恶决策者提供决策方法。【方法】建立了悲观准则下有限阶段马尔可夫决策过程的数学模型,并基于动态规划原理和同向不等号相加的保号性给出了向后递推算法。【结果】得到了每个阶段所有可能状态的最优策略和到阶段结束至少可获得的报酬,并证明所得到的最优策略矩阵满足风险厌恶型决策者的要求。然后,针对连续性策略、成本最小化和风险偏好型决策者等情形下有限阶段马氏过程最优策略的求解进行了一些理论延伸。【结论】给出了一个三阶段马尔可夫过程的算例分析,验证了所提出的模型。