迈阿密大学、塞浦路斯国际大学与密苏里科技大学的研究人员提出一种基于课程的深度强化学习框架,显著提升电动车路径规划的速度与可靠性。该方法采用三阶段渐进式训练策略:先优化距离与车队调度,再引入电池管理,最后处理完整的带时间窗的电动车路径问题(EVRPTW)。相比传统端到端模型,该框架有效缓解了稀疏奖励导致的学习不稳定问题,在仅使用较少训练样本的情况下,仍能高效处理多达 100 个客户点的复杂场景,展现出优异的泛化能力,为实际应用中的高效路径规划提供了可行方案。

迈阿密大学、塞浦路斯国际大学与密苏里科技大学的研究人员提出一种基于课程的深度强化学习框架,显著提升电动车路径规划的速度与可靠性。该方法采用三阶段渐进式训练策略:先优化距离与车队调度,再引入电池管理,最后处理完整的带时间窗的电动车路径问题(EVRPTW)。相比传统端到端模型,该框架有效缓解了稀疏奖励导致的学习不稳定问题,在仅使用较少训练样本的情况下,仍能高效处理多达 100 个客户点的复杂场景,展现出优异的泛化能力,为实际应用中的高效路径规划提供了可行方案。
登录后才可以发布评论哦
打开小程序可以发布评论哦