Skip to content

Latest commit

 

History

History
84 lines (64 loc) · 5.17 KB

010.md

File metadata and controls

84 lines (64 loc) · 5.17 KB

Title

VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera

2017 ACM Transactions on Graphics

Author

DUSHYANT MEHTA1,2, SRINATH SRIDHAR1, OLEKSANDR SOTNYCHENKO1, HELGE RHODIN1, MOHAMMAD SHAFIEI1,2, HANS-PETER SEIDEL1, WEIPENG XU1, DAN CASAS3, CHRISTIAN THEOBALT1 1Max Planck Institute for Informatics, 2Saarland University, 3Universidad Rey Juan Carlos

Motivation

既存の研究では、RGBDカメラなどの特殊なセンサを使用してリアルタイムな3d HPEを行っていたが、本研究により、RGBカメラのみを用いてリアルタイムHPEを可能にした。

KinectなどのRGBDカメラを用いる手法は、屋外では日光が干渉するためしばしば失敗する。でかい。電力を消費する。解像度が低く、レンジが限られる。 (自動運転車のRIDARは当然晴れの日も使用できると考えられるが、RIDARの場合は似たような問題はないのだろうか?Kinectと比べてかなり値段は違う気はするが)

既存のRGB単眼の3DHPEは、たいていオフラインであり、それぞれのフレームから3d joint posを見積もっていたため、時間的に不安定。また、ボーンの長さが変わってしまう問題があった。 また、バウンディングボックスに対する相対座標としてポーズを出力していたため、リアルタイム3Dキャラクターコントロールなどにおいて不安定であった。

既存の2DHPEはヒートマップを用いる手法が主流だが、3Dでは直接3次元座標を推定することが多かった。 この場合、何らかの形でバウンディングボックスを用いる必要があり、処理時間を増やす原因となっていた。 本研究では2dのヒートマップを3dに拡張することで、3dの推定をより2d画像に対応づける。

bone lengthも推定し、3dhpeの際に明示的に考慮する。

Method

一般に高精度を達成する場合、NNを深くする必要があるが、これによりリアルタイム性が失われてしまう。 本研究では50層に制限。精度を維持するために、新しい完全畳み込み形式(fully-convolutional formulation)を提案。

3d hpeは、本質的にunderconstrainedで難しい。 これに対処するため、2段階のシステム(cnn→運動学的スケルトンフィッティング)を構築

CNN

  • 3dのアノテートされたデータセットを使用
  • in the wildパフォーマンスを上げるために、2dのアノテートされたデータセットも使用

Insights

sotaのオフラインHPEと同等。質的に、RGBDと同等かそれ以上。

Cotribution Summary

keyword

Unknown

Reflection

Reference

Note

Related work をスキップ

一旦2dの姿勢推定をした後に、その出力を用いて3dの推定を行うのではなく、 2dと3dを両方推定した後、スケルトンフィッティングを行うことで3dの推定を修正している?

ユーザーの身長を与えることで、スケルトンフィッティングの精度を向上させるオプションがある。

途中。どこかで3dの手法をまとめておきたい