摘要:从单张图片中估计人体的三维位姿是计算机视觉中一个重要的问题,不仅可以在人体重构和行为监控上发挥作用,更为机器人控制和远程执行提供了潜在的解决方案。
卷积网络可以有效的从图像中检测人体的关键点,得到精确的2D关节位置。但想要直接通过2D关节位置学习出包含关节位置和骨骼旋转角度的3D位姿是十分困难的,需要解决高度非线性的映射问题。
最近,日本产业综合技术研究院的研究人员提出了一种新的方法,通过结合骨骼结构的回归器和基于3D位姿表达的交叉热力图回归,实现了端到端的3D人体位姿预测,不仅能从单张RGB图中预测出关节位置,同时还能准确得到连接在关节上的骨骼角度。此外研究人员还丰富了已有的MPII数据集并进行了有效的三维标注。
最近在人体位姿估计方面的工作取得了很大进展,但例如像OpenPose等模型只能生成2D层面的关节信息,生成3D的关节信息面临着一系列挑战。
首先,需要对三维的关节位姿进行准确有效的表达,这关系到最终预测的精度。先前的方法使用了热力图(体积和2D热力图+深度)的方法实现了精确的3D位姿预测。但目前利用卷积网络预测3D关节还没有获得较好的效果。此外对于应用的角度,人们希望能够同时获得关节的位置和角度,即骨骼每一部分在空间中的位姿
其次,对于3D人体位姿估计任务缺乏良好的、充分的数据集。相比2D的数据,3D关节位姿标记更为复杂耗时。虽然可以利用运动捕捉系统(MoCap)和RGB相机同时记录,但其获得的场景有限。例如Human 3.6M数据集只包含了10种物体的周围场景,使模型不能得到充分训练。
人体的骨骼结构具有天然的连续性和固定的结构空间,可以作为三维位姿估计的一个约束来使用。在机器人和生物力学领域,研究人员们经常会使用正逆运动学的研究方法,在统计模型和人体骨架的约束下(骨骼相对长度、关节运动空间和对称性等),从MoCap的2D关键点结果计算出3D位姿。
在这一工作中,研究人员提出了SkeletonNet模型,通过结合骨骼结构和关节3D位置的热力图表示实现了3D人体关节位姿的高精度估计。这一模型主要由负责从输入图像获得初始解的骨旋转网络,基于此利用卷积热力图回归器来恢复出更为精确的结果。模型的架构如下图所示:
骨旋转回归器(Bone rotation regressor)。首先,骨旋转回归器的任务是从输入图像中预测出人体全局的选择信息以及每一个骨头相对于整体的局部旋转信息。由于人体骨骼构造的特性,人体的全局位姿特征具有一系列离散的模式。例如坐姿、站立和躺下等姿势都可以用离散的全局模式来表示,所以研究人员利用了分类器的原理来预测全局位姿。此外,每一个关节的运动空间在一定范围内是连续的,这意味着关节的局部角度预测可以用回归模型很好的建模。
正交化(Gram Schmidt orthogonalization layer)。在通过分类器得到全局位姿RotG以及每个关节的局部旋转RotB后,相乘就可以得到关节位姿的初始解了。但此时面临着一个问题,如果这两个矩阵不是正交阵的话,生成的位姿在尺度和外形上就会畸变。为了解决这个问题,研究人员又在结果添加了格拉姆施密特正交层来对先前得到的矩阵进行变换。将变换后的选择矩阵相乘就可以得到每个关节有效的初始位姿,并通过初始位置矢量和角度关系计算得到关节的绝对位置。
交叉热力图回归器(Cross heatmap regressor)。为了得到更为精确的结果,研究人员们提出了交叉热力图的方法来优化每个关节三维位姿的最终预测。这种交叉热力图由xy和zy方向堆叠的热力图构成,两个平面足够描述关节在三维空间中的信息。将关节的三维位置投影到二维坐标中,并经过一系列可微运算可以得到每个关节的交叉热力图,通过回归来优化最终关节位置。
最终的网络的损失函数如下所示:
分别表示全局选择、每个骨头的旋转、最终的旋转、位置和交叉热力图损失。
为了对网络进行充分的训练,研究人员对MPII数据进行了3D标注,利用PMP(projected matching pursuit)等方法得到了原数据集中关节的三维位置,并利用标注工具标注了3D位姿。最终得到了10291张标记图像。
实验在重建误差、旋转和MPJPE(每关节平均位置误差)上到得到了较好的结果。相较于今年cvpr的87.97mm的结果,这篇文章的MPJPE达到了69.9mm。
下图中可以清楚的看到使用了格拉姆正交矩阵和交叉热力图对结果的提升作用,其中正交化让生成结果的尺度和外形更加合理,而热力图回归则大幅度的提高了模型预测的精度。
研究人员希望在未来继续探索基于图像的人体监测应用,包括从单张图像检测人体的形态、体重、接触力甚至关节的扭矩等等。
更多详情,请参考论文:
https://arxiv.org/pdf/1812.11328.pdf
这篇文章还没有评论