罗祎喆1,王佳宝2,余新得3,陈旭东2,金钊3,冯硕3,石育澄2,徐明亮3
摘要: 在航母舰载机保障作业调度中,无模型强化学习(Model-free Reinforcement Learning, MFRL)在动态甲板场景下受到物理环境建模精度的制约,而基于模型的强化学习(Model-based Reinforcement Learning, MBRL)因环境模型与决策模型在迭代训练中存在相互依赖的协同优化问题,面临计算复杂度高与收敛困难的挑战。对此,本文提出了一种融合有模型与无模型特性的混合强化学习框架(MB-MF)。首先,利用历史调度数据训练基于深度神经网络的甲板环境模型,使其在最小容差范围内精确预测状态转移;然后,将收敛后的环境模型替代真实环境,内嵌入交互环境中,结合深度Q网络(Deep Q-Network, DQN)算法训练调度智能体,实现环境模型学习与策略优化的解耦;最后,经实验验证表明,与使用物理环境的MFRL相比,本方法在无需精确建模的情况下性能差距仅为4%。而相较于MBRL基线方法,舰载机出动时间则缩短34%。同时在资源受限场景中,决策速度较启发式方法提高近300倍,而调度质量仅降低17%。