强化学习中时间差分(TD)和蒙特卡洛(MC)方法各自的优劣 2023-08-14 842 时间差分(TD)方法和蒙特卡洛(MC)方法是强化学习中的两种核心算法。1.TD方法:通过估计状态之间的价值差异进行学习,适用于非完整情节,有较好的偏差-方差平衡;2.MC方法:通过完整情节的样本进行学 …