智能体通过强化学习学习针对该状态采取什么行动。当代理收到有关环境状态的信息时它会执行操作。根据此操作对环境的影响代理会收到奖励正面或负面。这个过程重复多次以增加奖励的价值。使用来训练这样的代理。与集成帮助非工程师业务分析师和模拟建模人员在他们的项目中创建训练和实施代理。和的学习过程和的学习过程点击放大。资料来源上的决策公司开发了将货物移动到包装区的传送带仿真模型。将模型与平台集成并用它来训练代理。
学习代理必须遵守的政策之一是传送带上的货物在到达时被处理并放入容器中。代理人完成此产品的包装后便继续处理下一个产品。此外决策实验室允许代理提前看到下一个项目以便它可以执行有限的计划。因此这种方法比数 电话号码列表 学优化复杂得多在数学优化中所有要包装的物品的数据都是预先知道的。相反我们的智能体在学习过程中只看到随机序列中的一个对象。
决策实验室英国科技公司。带彩色物品的传送带模拟传送带将物品移动到包装区域。资料来源上的决策实验室一切就绪后决策实验室进行了实验将强化学习和优化与基于一组规则的算法进行比较。结果表明在有限的时间内包装物品时哪种策略的密度最高。在这篇文章中我们介绍了三种策略中的两种。