MaskViT用于视频预测的蒙面视觉预训练

人类可以预测未来的事件和感官信号，并使用这种能力来模拟、评估和选择不同的可能动作。如果机器人具有类似的能力，它们可以在复杂和动态的环境中为多项任务计划解决方案。

arXiv.org最近的一篇论文介绍了MaskedVideoTransformers：一种基于掩蔽视觉建模的视频预测方法。

研究人员使用离散变分自动编码器将帧压缩成更小的视觉标记网格。提出了一种基于掩码调度函数的视频迭代解码方案。结果表明，在训练期间屏蔽可变数量的令牌能够实现有竞争力的视频预测结果。迭代解码方案比其竞争对手快得多，并且能够规划真正的机器人操作任务。

以过去的观察和运动命令为条件预测未来视觉观察的能力可以使具体代理能够为复杂环境中的各种任务计划解决方案。这项工作表明，我们可以通过蒙面视觉建模对转换器进行预训练来创建良好的视频预测模型。我们的方法名为MaskViT，它基于两个简单的设计决策。首先，为了记忆和训练效率，我们使用两种类型的窗口注意力：空间和时空。其次，在训练期间，我们屏蔽了可变百分比的标记，而不是固定的屏蔽率。对于推理，MaskViT通过迭代细化生成所有令牌，其中我们在掩码调度函数之后逐渐降低掩码率。在几个数据集上，我们证明MaskViT在视频预测方面优于先前的工作，参数有效，可以生成高分辨率视频(256×256)。此外，我们通过使用MaskViT对真实机器人进行规划，展示了迭代解码带来的推理加速(高达512倍)的好处。我们的工作表明，我们可以通过利用具有最少领域知识的蒙面视觉建模的一般框架，赋予具身代理强大的预测模型。

标签：

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

MaskViT用于视频预测的蒙面视觉预训练

猜你喜欢

最新文章