科学家教机器人新技能跟着视频模仿左手右手慢动作
2630
人类平时都会从视频中学习技能,机器人也可以。位于日内瓦的意大利技术研究院机器视觉中心的研究者在最新发表的论文中介绍了一种可以将视频片段转化为用于训练半自主机器的自然语言命令的深度学习架构。
“虽然人类可以轻松理解并模仿其他人的动作,但让机器人基于对人类的观察做出同样的动作却是业内的难题,”论文作者写道,“在该项目中,我们认为克服这一难题需要机器人掌握两种能力,分别是理解人类的举动以及模仿人类举动,这对机器人的技能和性能提出了很高的要求。”
研究团队最终提出了一个针对两项任务优化后方案:视频生成文字和动作识别。该方案囊括了一个递归神经网络 翻译器 ,用于根据输入数据搭建视觉特征长期依赖性的模型,并发出一系列指示;此外还有一个分类器,分类器中内置了用于编码时间信息并详细归类人类动作的卷积网络。
输入进分类器的数据是预先训练的 AI 模型从视频中提取的特性集合。正如研究者们解释的那样,在训练过程中编码器协助翻译器和分类器生成正确详细的动作信息,以此让架构更好理解输入的视频。
“通过共同训练分类器和翻译器,神经网络可以有效地编码视频中的空间信息和时间信息,”研究者们说,“系统的输出数据可以包含视觉和规划模型,让机器人执行不同的任务。”
为了验证这一架构,研究者们创造了新的视频到命令数据集(IIT-V2C),其中包含被手动分割为1.1万个两三秒片段的人类视频,这些视频被标注了描述相关动作的命令句。他们使用一种工具自动从命令句中提取动词,并将动词作为每个视频片段的动作类别,最终生成的动作种类共有46个。
在使用了IIT-V2C命令数据集、不同的动作特性提取方法和递归神经网络的实验中,研究者们表示他们的模型架构可以成功地编码每个视频的视觉特征并生成相关的命令。