火星科技网您的位置:首页 >科技数码 >

迪士尼的AI通过脚本生成故事板动画

导读 从文本片段中创建原创片段的AI并没有听起来那么新奇。去年,研究人员详细介绍了一个系统,该系统使用一对神经网络——由生物神经元建模的数

从文本片段中创建原创片段的AI并没有听起来那么新奇。去年,研究人员详细介绍了一个系统,该系统使用一对神经网络——由生物神经元建模的数学功能层——来生成长度为32帧、大小为6464像素的视频,如“在草地上打高尔夫球”等描述。来自迪士尼研究所和罗格斯大学的科学家发表了一篇关于预印本服务器Arxiv.org的新论文。将这一想法更进一步,可以采用端到端模型来创建一个粗略的故事板和描述电影脚本中的单词的视频。具体来说,给定描述某些活动的输入文本,它们的文本到动画模型生成动画,而无需注释数据或预先训练步骤。

“从自然语言文本自动生成动画可以在许多领域中找到应用,[例如]电影剧本写作、教学视频和公共安全.[这些系统]通过实现更快的迭代、原型设计和概念验证,对于为内容创作者编写屏幕尤其有价值。”研究人员写道。“在这篇论文中,我们开发了一个可以处理复杂句子的文本到动画的系统.该系统的目的不是取代作家和艺术家,而是让他们的工作更有效率,不那么无聊。”

正如该团队解释的那样,将文本转换成动画不是一项简单的任务。无论是输入的句子还是输出的动画都没有固定的结构,他们说这是大多数文本转视频工具无法处理复杂句子的原因。为了解决以前工作的局限性,合作作者构建了一个模块化神经网络,它由几个组件组成:一个新颖的脚本解析模块,它可以自动从脚本中的场景描述中分离出相关文本;自然处理模块利用一套语言规则对复杂的句子进行简化,并将简化句子中的信息提取到预定义的动作表示中;以及用于将该表示转换成动画序列的动画生成模型。

研究人员表示,简化方法更容易提取关键的脚本信息,为此,他们的系统独立确定给定的片段是否包含特定的句法结构,然后将其拆分并组装成更简单的句子。有可能递归地处理它,直到它不再被进一步简化。接下来,将“协调”这一步骤应用于与中心语具有相同句法关系并提供相同功能作用的句子。最后,词汇缩减器将简单句中的动作与预定义库中的52个动画(通过词库扩展到92个)进行匹配。

然后,一个名为Cardinal的管道将动作作为输入,并在一个流行的视频游戏引擎Unreal中创建预可视化。使用预定义的动画库、预加载的对象和可用于创建角色的模型,它可以生成近似处理过的脚本的3D动画视频。

为了训练这个系统,研究人员从996个脚本中编辑了一系列场景描述,这些脚本来自从免费资源中删除的1000多个脚本,包括IMSDb、SimplyScripts和ScriptORama5。最后,它包含525,708个描述,1,402,864个句子,920,817个(超过40%)至少有一个动作动词。

在一项定性测试中,22名参与者以5分制评估了系统生成的20个动画(例如,如果显示的视频是文本的合理动画,视频中描绘了多少文本信息,文本中存在多少信息),68%的人表示系统根据输入的脚本生成了“合理”的动画。研究人员补充说:“除了我们系统的局限性,任何差异都可以归因于任务的模糊性和主观性。”

也就是说,团队承认系统并不完善。它的动作和对象列表并不详尽。偶尔词汇简化无法将动词(如“观看”)映射到类似的动画(“外观”)或者只为动词中的动词创建一些简化的原句。研究人员打算在今后的工作中解决这些缺点。

“内部和外部评估显示了该系统的合理性能.【最终】,并且我们希望通过考虑文中描述的动作顺序来利用话语信息。这也有助于解决文本中行动的模糊性,”该小组写道。“此外,我们的系统可用于生成训练数据,这些数据可用于训练端到端神经系统。”

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。