視覚言語モデルによる3Dの形状認識や画像認識の分野の進展は目まぐるしい。 ここでは、最近気になった例を示す。
これらの例が、ロバストになり、組み込み可能なデバイスで高速に動作するとき、 画像認識技術の利用状況は大幅に変わってくるだろう。
Pose, Segmentation, Depth, Normal を人に特化して推論する。 https://github.com/facebookresearch/sapiens pdf Sapiens: Foundation for Human Vision Models https://x.com/mervenoyann/status/1843612038171644245
https://huggingface.co/posts/merve/329985771630527
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction LOTUS: DIFFUSION-BASED VISUAL FOUNDATION MODEL FOR HIGH-QUALITY DENSE PREDICTION https://lotus3d.github.io/ https://github.com/EnVision-Research/Lotus
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion pdf github x(Twitter)
https://ieeexplore.ieee.org/document/9735082
https://www.ri.cmu.edu/pub_files/2011/10/2011_IROS.pdf
ステレオ計測の際に、エッジ処理した画像を入力としてみよう。 エッジ処理した画像で改善されると期待する部分 左右のカメラ間で、ゲインが微妙に異なっている場合、 左右のカメラで見た時に、対象物の明るさが違って見える場合