欢迎访问《系统工程学报》编辑部网站！

基于分层深化强度学习的O2O取送货动态调整

Dynamic scheduling of O2O pick-up and delivery based on hierarchical deep reinforcement learning

摘要点击 56 全文点击 26

查看全文查看/发表评论下载PDF阅读器

中文关键词

英文关键词

基金项目

投稿方向

作者	单位
高明	东北财经大学管理科学与工程学院
陈明浩
唐加福
邹广宇
许欣

中文摘要

针对O2O即时配送调度中需求波动、路况不确定及实时性挑战, 提出一种分层深度强化学习方法, 上层智能体不断学习动态变化的历史订单及路况信息, 进行骑手任务分配; 下层专注于各骑手并单后的路径优化. 通过全局奖励函数, 在分层智能体间纵向传递全局优化信号, 并在多个滚动调度区间内横向协调长期平均目标. 在仿真平台中对大连市某外卖平台的真实和模拟订单进行了多场景实时调度实验, 验证了方法在滚动调度中兼顾长期目标的优越性和分层求解的高效性, 为即时配送服务提供了兼具成本效益和服务质量的优化调度解决方案.

英文摘要

关闭