通过大规模结构化强化学习学习组装

从一组给定的零件中机器人组装对象是人工智能中的一项有趣的任务。为了研究这项任务，最近发表在arXiv.org上的一篇论文提出了一个组装域，该域允许对强化学习(RL)中的泛化进行受控研究。它由一个自然的环境组成，具有不同形状的块，这些块可以磁性地相互连接。

代理可以直接移动所需的块，而不是抓住机械臂。该任务需要多步计划、物理推理和双手协调等能力。已经证明，单个代理可以同时解决所有可见的装配任务，推广到不可见的任务，甚至以无重置的方式操作，尽管以情景方式进行训练。

提出的解决方案需要结合大规模强化学习、结构化策略和多任务训练。

多部分物理结构的组装既是自主机器人的有价值的最终产品，也是具身智能代理的开放式培训的有价值的诊断任务。我们介绍了一个基于自然物理的环境，其中包含一组受儿童玩具套件启发的可连接磁铁块。目标是将块组装成一系列目标蓝图。尽管这个目标很简单，但从一组块构建不同蓝图的组成性质导致代理遇到的结构复杂性爆炸式增长。此外，装配强调代理的多步计划、物理推理和双手协调。我们发现，大规模强化学习和基于图的策略的结合——令人惊讶的是没有任何额外的复杂性——是训练代理的有效方法，它不仅以零样本的方式泛化到复杂的看不见的蓝图，而且甚至可以在无需经过培训即可进行无重置设置。通过广泛的实验，我们强调了大规模训练的重要性、结构化表示、多任务与单任务学习的贡献以及课程的影响，并讨论了训练有素的代理的定性行为。

标签：

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

通过大规模结构化强化学习学习组装

猜你喜欢

最新文章