深存货政策的强化学习方法在模拟环境下进行测试

供应商管理库存(VMI)是一种主流供应链协作模型。VMI一词通常被认为是一个策略的库存补充决策转移到供应商。

在这项工作中,研究者进行根源使VMI性能测量方法来分配责任表现不佳。此外,工作方法的基础上提出了一种解决方案强化学习确定最优补货策略在VMI环境。使用仿真模型作为训练环境、不同场景的生成是基于真实数据的需求英飞凌科技公司基于关键绩效指标和比较。

定义一个明确的职责分配是很重要的对于VMI应用每当定义的最小/最大库存限制违反了。因此,勾勒出一个度量和进一步发展监控股票侵犯和分配责任。

开发这样一个度量的过程开始于底层的分析VMI配置。


强化学习在模拟环境测试:VMI配置

典型的VMI配置

开始与客户的合作供应商提供需求预测。考虑到目前的股票信息,供应商计划和提供补货,这可能是把客户从股票在任何时候。更相关的是供应商不接收任何信息的生成需求预测。

按照当前的设置中,供应商将负责一个失败的交付。这需要使用根源使VMI性能测量方法,可以充分分配责任违反任何类型的股票。

强化学习和仿真环境

性能度量模型AnyLogic。仿真模型是进一步扩展与奖赏功能、状态(观察)空间,准备和行动空间,它作为一种强化学习培训环境外部集成开发环境(IDE)称为IntelliJ IDEA。

仿真模型导出为一个Java独立应用程序并导入到IntelliJ。Java (RL4J)库的强化学习是利用代理学习策略。训练模型进口回AnyLogic仿真模型试验台。有扩展模型作为环境教育学习代理采取适当行动达到预期的状态。

VMI性能测量方法AnyLogic离散事件仿真环境中进行了验证。开发方法是测试使用不同的敏感性参数,包括预测信息,日常补货,和实际需求(拉)的853天。

结果

摘要根源使VMI性能测量方法是扩展来衡量表现不佳的责任。它是由考虑预测精度的需求之间相互协商合作伙伴。

通过仿真测试和验证的方法对一组公司数据。考虑空间减少股票违反从供应商的角度来看,优化补充政策进行了研究和实现使用一个深强化学习算法在仿真环境中。


强化学习在模拟环境测试:图

[一]马克斯Z,敏Z,和每日库存水平和(b)责任和库存状态

相关的帖子

Baidu