3D計測と画像認識の未来

視覚言語モデルによる3Dの形状認識や画像認識の分野の進展は目まぐるしい。ここでは、最近気になった例を示す。

これらの例が、ロバストになり、組み込み可能なデバイスで高速に動作するとき、画像認識技術の利用状況は大幅に変わってくるだろう。

sapiens　Foundation for Human Vision Models

Pose, Segmentation, Depth, Normal を人に特化して推論する。 https://github.com/facebookresearch/sapiens pdf Sapiens: Foundation for Human Vision Models https://x.com/mervenoyann/status/1843612038171644245

https://huggingface.co/posts/merve/329985771630527

拡散モデルに基づいた視覚基盤モデルによる高品質な深度予測

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction LOTUS: DIFFUSION-BASED VISUAL FOUNDATION MODEL FOR HIGH-QUALITY DENSE PREDICTION https://lotus3d.github.io/ https://github.com/EnVision-Research/Lotus

視点が変わるカメラ動画からの3D再構成の動いている人物あり

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion pdf github x(Twitter)

配管内でのステレオ計測

https://www.olympus-ims.com/en/remote-visual-inspection/videoscope/introduction-to-visual-inspection-measurement-solutions/

https://ieeexplore.ieee.org/document/9735082

https://www.ri.cmu.edu/pub_files/2011/10/2011_IROS.pdf

ステレオカメラを用いたトンネル切羽監視システムの開発

ステレオ計測の際に、エッジ処理した画像を入力としてみよう。エッジ処理した画像で改善されると期待する部分左右のカメラ間で、ゲインが微妙に異なっている場合、左右のカメラで見た時に、対象物の明るさが違って見える場合