谷歌最新的姿势识别模型Pr-VIPE 如何改变才能认出你| |ECCV2020
新智元报道
来源:外国媒体
编辑:keyu
最近Google推出Pr-VIPE模型,将二维人体姿态映射到视图不变概率嵌入空间。它可以用15个CPU在一天内完成训练。该模型中学习的嵌入可以直接用于手势检索、运动识别和视频对齐。此外,研究人员还提出了一种跨视图检索基准,可用于测试其他嵌入式视图不变属性。
我们知道,日常活动,比如慢跑、看书、倒水、或者运动,都可以看作是一系列的姿势。
理解图像和视频中的姿势是实现一系列应用的关键步骤,包括增强现实显示、全身姿势控制、体育锻炼量化等。
然而,随着摄像机视角的改变,2D图像和视频中捕捉到的三维姿态会有所不同。
如果只使用2D信息,就可以识别出三维手势的相似性,这将有助于视觉系统更好地理解世界。
为了解决这个问题,谷歌最近更新了一项研究“人类姿势的视图不变概率嵌入”(pr-vipe)。
在本研究中,研究人员提出了一种新的人体姿态感知算法,该算法通过将二维人体姿态的关键点映射到视图不变嵌入空间来识别不同摄像机视图中人体姿态的相似性。本文已作为“聚焦论文”发表在《电子期刊2020》上。
有了这种能力,计算机可以执行手势检索、运动识别、运动视频同步等任务。
图:Pr-VIPE可以直接应用,实现不同视角的视频对齐
“两个观察”成为Pr-VIPE的基石,概率映射教机器匹配
Pr-VIPE的输入是一组2D关键点,来自2D姿态估计器,该估计器产生至少13个身体关键点,而Pr-VIPE的输出是姿态嵌入的均值和方差。
其中二维姿态嵌入之间的距离与它们在绝对三维姿态空间中的相似度有关。
研究者的方法主要基于两个观察,
1.在2D,同样的3D姿势可能会随着视点的改变而产生非常不同的效果。
2.相同的2D姿势可以从不同的3D姿势投影。
第一次观察激发了对视图不变性的需求。
为了满足这一需求,研究人员定义了匹配概率,即从相同或相似的三维姿态投影不同2D姿态的可能性。
同时,Pr-VIPE预测的姿态对匹配概率要高于不匹配的姿态对。
为了解决第二个观察,Pr-VIPE使用了一个概率嵌入公式。
由于许多3D姿态可以被投影到相同或相似的2D姿态,模型输入显示出固有的模糊性,这很难通过嵌入空间来确认
定性点对点映射来捕捉。因此,研究人员采用了通过概率映射进而映射到嵌入分布的方法,并使用方差来表示输入2D位姿的不确定性。
例如,在下图中,左侧3D姿势的第三个2D视图与右侧不同3D姿势的第一个2D视图相似,所以研究人员将它们映射到嵌入空间的一个相似的位置上,并将方差设置为一个很大的值。
图:Pr-VIPE使视觉系统能够跨视图识别2D姿态
视图不变性(View-Invariance)
在训练过程中,研究人员使用了两个来源的2D姿态:多视图图像和groundtruth3D姿态的投影。
他们从batch中选取二维位姿的“三胞胎”(anchor、positive和negative),其中anchor和positive是同一三维位姿的两个不同投影,negative是一个不匹配的三维位姿的投影。
然后,Pr-VIPE根据二维姿态对的嵌入情况估计其匹配概率。
图:Pr-VIPE模型概述
在训练期间,研究人员应用了三种损失(三重比损失,正成对损失,以及在嵌入之前应用的单位高斯的先验损失)。在推理过程中,模型将输入的2D姿态映射到概率的视图不变嵌入。
概率嵌入(Probabilistic Embedding)
Pr-VIPE将二维姿态映射为多元高斯分布,并使用基于抽样的方法,计算两个分布之间的相似度评分。
在训练过程中,研究人员使用了高斯先验损失,对预测分布进行正则化。
提出新姿态检索基准, Pr-VIPE在多个数据集上效果突出
在实验部分,研究人员提出了一个新的交叉视图姿态检索基准,来评估嵌入的视图不变性。
给定单目姿态图像,交叉视图检索的目的是在不使用相机参数的情况下,从不同的视角检索相同的姿态。
结果表明,在两个评估的数据集(Human3.6M, MPI-INF-3DHP)中,与baseline方法相比,Pr-VIPE在各个视图之间可以检索出更准确的姿态:
图:相对于基线方法(3D姿态估计),Pr-VIPE更准确地检索跨不同视图的姿态
常见的3D姿态估计方法(如SemGCN和EpipolarPose等)在相机坐标中预测3D姿态,而这些并不具有视图不变性。
因此,使用估计的三维姿态检索时,每个查询-索引对之间的刚性对齐是必需的,由于需要奇异值分解(SVD),因此在计算上非常昂贵。
相比而言,Pr-VIPE嵌入可以直接用于欧氏空间的距离计算,不需要任何后处理。
提升交叉视图检索和视频对齐表现,Pr-VIPE 应用广泛
视图不变姿态嵌入可以应用于许多图像和视频相关的任务。
下面,研究人员展示了Pr-VIPE在不使用相机参数的情况下,应用于实际情况下的交叉视图检索:
图:通过使用Pr-VIPE嵌入检测到的二维姿态
同样的Pr-VIPE模型也可以用于视频对齐。
为此,研究人员在一个小的时间窗口内堆栈Pr-VIPE嵌入,并使用动态时间规整(Dynamic Time Warping,DTW)算法来对齐视频对。
图:手动视频对齐既困难又耗时。这里,Pr-VIPE被用于自动对齐不同视图中重复相同动作的视频。
通过DTW计算出的视频对齐距离,可以使用最近邻搜索对视频进行分类,并用于动作识别。
研究人员使用Penn动作数据集评估了Pr-VIPE嵌入,并证明了使用Pr-VIPE嵌入,可以在没有对目标数据集进行微调的情况下,获得非常有竞争力的识别精度。
此外,实验结果还表明,在使用Pr-VIPE的情况下,仅使用索引集中单个视图的视频,就可以获得相对准确的结果。
图:和其他方法相比,Pr-VIPE的效果明显更好
总体来说,与现有的将2D姿态关键点直接映射到3D姿态关键点的模型相比,Pr-VIPE嵌入空间具有以下特点:
(1)视图不变
(2)使用了捕捉2D输入模糊度的概率
(3)在训练或推理时不需要相机参数
使用实验室内设置数据进行训练后,在2D姿态估计器(如PersonLab、BlazePose等)足够好的情况下,该模型可以在任何其他实际场景中工作。
该模型简单,嵌入紧凑,使用15个cpu可以在1天的时间内完成训练。
最后,Google已经在GitHub上发布了代码:
Git地址:https://github.com/google-research/google-research/tree/master/poem
参考链接:
https://ai.googleblog.com/2021/01/recognizing-pose-similarity-in-images.html
