一项新的研究让人工智能了解人们姿势背后的含义
4128
密歇根大学的一项新研究可以通过训练神经网络模型来识别一个人在视频中的位置,而在视频中只能看到他身体的一部分。这项突破性发展为新的用途打开了一个巨大的视频内容库—教人们姿势背后的含义,以及他们与周围环境的不同互动方式。
一位厨师在左侧的用户上传的视频中准备一道菜,而密歇根大学(UM)团队的神经网络模型则以右侧的3D网格表示的方式识别出他在每一帧中的位置。
当我们看到一张图片上有一双手在桌子上打字,我们可以推断出在视线之外的某个地方有一个人与那些手相连。根据他们手腕的角度和桌子的高度,我们甚至可以分辨出他们是坐着还是站着。这些都是神经网络模型到目前为止还没有很好的推论。如果我们想让机器人和人工智能通过观察我们就能知道我们在做什么,它们需要更深入地理解我们的身体在不同的环境中是如何定位的,以及不同的动作通常意味着什么。
一个名为“人体姿态估计”的研究领域专注于教会人工智能识别一个人在图像或视频中是如何定位的,最终使它们能够独立地模拟这些人体姿势。但目前的模特通常都是在非常干净的视频库中训练,整个人都在视线范围内,而在拍摄只有一部分人的镜头时,他们的表现非常糟糕。
最重要的是,所使用的视频都贴上了标签——本质上,视频提供了正确的解决方案,这样神经网络就能够检查它的工作。在这种情况下,这需要人类工人明确地标记显示的人的关节的位置。
David Fouhey教授和博士生Chris Rockwell发现了这种做法的一个问题——在上传到公共网站的海量视频中,只有大约4%的视频显示了从头到脚的完整形象。当然,它们都没有标签。这意味着整个视频世界实际上对这些旧的模型是封闭的,而新的视频必须定制和手动标记,神经网络才能成功。
罗克韦尔说:“这些数据集在某种程度上是标准化的,一个人有一定的身高,而且他们在图像的中心。”“网上的东西实际上看起来不是那样的。”
为了克服这些限制,Rockwell和Fouhey提出了一对解决方案,并在2020年欧洲计算机视觉会议上发表了一篇论文。这些技术最终导致了神经网络模型在视频训练方面的两个重大突破:一是使模型能够在只有人的一部分可见的情况下做出良好的预测;二是在未标记的视频上对这些模型进行自我训练,其中,模型可以在没有被告知解决方案的情况下聪明地挑出正确的猜测。
给定视频的训练神经网络比较,该视频仅以部分人的视角作为输入。HMR和CMR是原始模型,性能较差;在裁剪的数据集(标记为“ + MPII作物”)上进行初始训练之后,输出更接近目标;最终输出(标记为“我们的”)显示了该模型在视频上进行自我训练的结果。
Fouhey说:“这个方法被刻意地简化了,以便尽可能容易地应用于多种不同的方法。”“随着越来越多的标准姿态估计工作的进展,使用这种方法可以很容易地适用于网络视频。”
结果也非常直观,在使用两种人类3-D网格恢复技术进行比较的实验中,他们的模型给出了人们位置的更好近似值。之前的结果通常是或多或少是随机的(当神经网络对所看到的内容缺乏信心时,这是典型的结果),新训练的模型所做的预测清楚地表明它可以分辨出人在哪里以及手的大致位置。
他们的第二项技术解决了神经网络能够“自我训练”自己进行预测的需求,从而消除了人们给更多视频贴上标签的需求。相反,这个模型可以对这个人在视频中的位置做出预测,区分好预测和坏预测,并给视频贴上好预测的标签。但是为了使模型有效,需要一种方法来决定保留哪些预测。
为此,通常方法使用“模型置信度”。例如,当训练模型对图像中的对象进行分类时,有限的类别集为模型提供了一种简单的方法,只需简单地给图像中的每个对象一个概率即可表达信心-80%的概率是一个人,40%这是椅子,依此类推。在确定诸如人的肘部角度之类的内容时,很难清楚地表明模型知道所看到的东西。
为了克服这个问题,团队调整了该领域之前的工作,包括对模型进行多次迭代训练,其中每个版本在不同的方向上稍微移动。这样做的好处与神经网络的性质相同——当人们不自信时,他们通常会大错特错,所以即使是在一个不自信的框架下,即使有这些小的变化,预测也会发生巨大的变化。通过从几个几乎相同的框架中收集预测,研究人员可以通过比较猜测的相似程度来积累信心。
罗克韦尔解释说:“如果它知道发生了什么,那么预测将是真正一致的。”“我们可以找出一些不错的图片子集,扔掉很多不好的图片。”
最后,他们的模型可以自动确定他们对视频的预测是否充满信心,并丢弃最差的猜测。它们的组合方法使模型可以对视频帧进行自训练,而无需对其进行标记。
罗克韦尔(Rockwell)认为继续开展这项工作的潜力很大。除了改善模型的预测之外,他们还可以学习如何识别框架中的对象,猜测人对对象的处理方式以及确定对象的大小,从而最终可以通过视频更好地了解环境。这也可以通过视频打开其他许多学习和识别任务。
“模拟人们是了解他们的一个步骤,”Rockwell说,“在这之前,理解消费者视频中的人真的很困难。有了这些技术,我们可以更容易地识别它们。”