2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

changh95 · 2024-07-25T02:29:38Z

Interesting papers

카메라 포즈 찾기의 전쟁?

Pan 2024 - Global Structure-from-Motion Revisited
- COLMAP의 저자 참여. COLMAP의 global mapping 파트 개선. 일주일 걸리는 작업 -> 5시간 작업.

facade.webm

뒷 내용은 @Philipshrimp 님 발표에도 반복되서... 짧게...

Brachman 2024 - Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer
- Niantic (포켓몬고)의 Ace0. DSAC, DSAC++, ACE 의 후속작.
Wang 2024 - VGGSfM: Visual Geometry Grounded Deep Structure From Motion
- Meta의 VGGSfM
Leroy 2024 - Grounding Image Matching in 3D with MASt3R\
- 네이버랩스의 MASt3rR 이전 연구 DUSt3R의 후속작

NeRF & Gaussian Splatting

Bao 2024 - 3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities
- 최신 3DGS survey 논문. 3DGS 입문자에게 추천.
Yao 2024 - A Comparative Study of Neural Surface Reconstruction for Scientific Visualization
- NeRF vs NeuS vs Instant-NGP, TensoRF / NeuS vs NeuS2 vs Neuralangelo vs IDR 비교 논문
Kerbl 2024 - A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets
- Large-scale dataset에서 3DGS 하는 방법. 논문은 나온지 꽤 됬지만, 코드는 이제야 릴리즈.

Borts 2024 - Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar
- FMCW 레이더 기반 NeRF
- https://light.princeton.edu/wp-content/uploads/2024/06/seq10_drive_through_slow_newTex_720p.mp4

NVIDIA의 fVDB
- OpenVDB를 NVIDIA에서 가속 + 기능 추가
- Mesh Generation NIM: Point Cloud에서 Mesh 생성
- NeRF-XL NIM: Omniverse Cloud API를 이용해 OpenUSD 포맷으로 NeRF 공간 생성
- Physics Super-Res NIM: OpenUSD 기반의 high resolution physics simulation
- https://youtu.be/6JCp0hXb3S4?si=meJ6LTQrgcG2XFi_

Open-set 3D detection

Maggio 2024 - Clio: Real-time Task-Driven Open-Set 3D Scene Graphs
- Task prompt로 open-set detection

Werby 2024 - Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation
- General 3D open-set detection

Conference tutorials

Other

Meta의 Segment-Anything-Model v2

2024-07-31.16-18-16__66pct_smaller.mp4

Wang 2024 - Shape of Motion: 4D Reconstruction from a Single Video

-41477788717708093062024-07-31_16-47-39.mov

Koide 2024 - gtsam_points
- GTSAM에서 사용 가능한 ICP, GICP, VGICP, LOAM, Photometric ICP, CT_ICP, 및 LiDAR bundle adjustment를 위한 다양한 factor 라이브러리
- 2024.07.24 - #1 - FutureMapping, GLIM, DeepSLAM, Co-RAL, SOLiD, ETPNav, GeFF #1 에서 소개한 GLIM에서 사용
- https://youtu.be/Xv2-qDlzQYM?si=Fn7cB7MY-hPU_wKo
Unitree Go 2 wheel mode

Job postings

West Virginia University, Faculty position in Robotics 링크
UCLA, R&D Engineer 링크

james-joobs · 2024-07-28T13:53:47Z

Interesting papers

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Mesh Reconstruction이란?

문제 인식
• 재구성 및 생성된 3D 자산이 수작업으로 제작된 자산의 품질에 도달
• 그러나 이러한 자산은 3D 산업 응용을 위해 항상 메쉬로 변환되어야 함
• 현재 메쉬 추출 방법은 아티스트가 만든 메쉬(AM)보다 품질이 낮음
• 현재 방법은 조밀한 면에 의존하고 기하학적 특징을 무시하여 비효율적이고 복잡한 후처리 및 낮은 표현 품질을 초래
해결책 제시
• MeshAnything 모델 소개
• 메쉬 추출을 생성 문제로 취급, 지정된 형태와 일치하는 AM 생성
• 3D 자산을 AM으로 변환하여 다양한 3D 자산 생산 방법과 통합 가능
• 3D 산업 응용 향상
모델 아키텍처
• VQ-VAE와 형태 조건 디코더 전용 트랜스포머로 구성
• 먼저 VQ-VAE를 사용하여 메쉬 어휘 학습
• 형태 조건 디코더 전용 트랜스포머를 사용하여 이 어휘로 형태 조건 자기회귀 메쉬 생성 훈련
실험 결과
• AM을 수백 배 적은 면으로 생성
• 저장, 렌더링, 시뮬레이션 효율성 크게 향상
• 이전 방법과 비교하여 정밀도 유지

Mesh Anything 파이프라인 설명

모델 개요
• MeshAnything은 주어진 3D 형태를 준수하는 아티스트가 만든 메쉬(Artist-Created Meshes)를 생성하는 autoregressive 트랜스포머
프로세스 설명
• 주어진 3D 자산에서 포인트 클라우드 샘플링
• 샘플링된 포인트 클라우드를 특징으로 인코딩
• 디코더 전용 트랜스포머에 이 특징 주입
• 형태 조건 메쉬 생성 달성
비교 및 차별점
• MeshGPT와 같은 방법과 비교
• MeshGPT: 복잡한 3D 형태 분포를 직접 학습
• MeshAnything: 최적화된 토폴로지를 통해 형태 효율적으로 구성
• 복잡한 3D 형태 분포 학습 회피
• 훈련 부담 감소 및 확장성 향상

주요 포인트
• MeshAnything은 주어진 3D 형태에 맞는 아티스트가 만든 메쉬를 생성하는 autoregressive 트랜스포머입니다
• 주어진 3D 자산에서 포인트 클라우드를 샘플링하여 특징으로 인코딩한 후, 디코더 전용 트랜스포머에 주입하여 형태 조건 메쉬 생성을 달성합니다.
• MeshGPT와 달리 복잡한 3D 형태 분포를 직접 학습하지 않고, 최적화된 토폴로지를 통해 효율적으로 형태를 구성하여 훈련 부담을 줄이고 확장성을 향상시킵니다.

Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

4D 애니메이션 생성

프레임워크 개요
• 새로운 4D 콘텐츠 생성 프레임워크: Diffusion4D
• 비디오 확산 모델을 적용하여 공간적-시간적 일관된 새로운 뷰 명시적 합성
데이터 세트 활용
• 큐레이팅된 동적 3D 데이터 세트 사용
• 동적 3D 자산의 궤도 뷰를 합성 가능
모델 특징
• 4D 인식 비디오 확산 모델 개발
• 최신 4D 리컨스트럭션 파이프라인과 통합
• 4D 콘텐츠를 몇 분 안에 효율적으로 생성
방법의 우수성
• 텍스트, 단일 이미지 및 3D 자산에서 다양한 프롬프트 양식 지원
• 생성 효율성과 4D 지오메트리 일관성에서 선행연구보다 능가
통합 및 적용
• 기존의 4D 리컨 파이프라인과의 통합
• 다양한 입력 형태로부터 4D 콘텐츠 생성

dataset_web.e71db6df79dd170748f9.mp4

아키텍쳐 주요 포인트
• 큐레이팅된 데이터셋을 사용하여 대량의 동적 3D 자산 궤도 비디오를 생성하고, 이를 통해 4D 인식 비디오 확산 모델을 훈련
• 기존 단안 비디오 생성 모델의 3D 기하학적 사전 지식이 부족하여, 최신 3D 인식 비디오 생성 모델을 사용
• 사전 훈련된 3D 인식 비디오 확산 모델을 4D 인식 궤도 비디오 생성 작업에 맞게 미세조정
• 운동 크기 가이던스를 명시하고, 3D-4D 동역학을 훈련 단계에서 학습하며, 추론 단계에서 3D 객체 동역학을 증강
• 큐레이팅된 데이터셋을 효과적으로 활용하고, 다양한 조건 모달리티를 수용하도록 모델 아키텍처를 커스터마이징 진행

4D 디퓨전 아키텍쳐

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

433767941_933222128183221_3788715816770971804_n.mp4

테이크아웃

•	상황에 맞는 AI와 실시간 정보 접근이 가능한 디스플레이를 결합한 세련되고 가벼운 AR 안경
•	시스템은 물리적 환경의 3D 레이아웃을 이해해야 함
•	AR 안경은 디지털 오버레이와 물리적 공간을 혼합, 턴 바이 턴 방향 제공 가능
•	3D 장면 표현 생성은 복잡한 작업
•	현재 MR 헤드셋은 원시 시각 데이터를 기반으로 가상 표현 생성
•	원시 데이터를 환경의 특징을 설명하는 모양으로 변환
•	기존 방식은 독특하거나 불규칙한 공간에서 오류 발생 가능

소개

•	SceneScript는 하드 코딩된 규칙 대신 엔드 투 엔드 기계 학습 사용
•	방의 기하학을 직접 추론
•	컴팩트한 물리적 장면 표현으로 메모리 요구 사항 감소
•	선명한 지오메트리 생성, 해석 가능하고 편집 가능

학습 방법

•	SceneScript는 LLM의 다음 토큰 예측 개념 활용
•	일반 언어 토큰 대신 ‘벽’, ‘문’ 등의 아키텍처 토큰 예측
•	많은 양의 훈련 데이터 제공으로 시각적 데이터를 장면의 기본 표현으로 인코딩 학습
•	방 레이아웃 설명하는 언어로 디코딩
•	상당한 양의 데이터와 사생활 보호 필요

시뮬레이션에서 훈련

•	웹에서 공개된 텍스트 소스가 아닌 물리적 공간 데이터 필요
•	Aria Synthetic Environments라는 합성 데이터 세트 생성
•	100,000개의 독특한 내부 환경, SceneScript 언어로 설명
•	각 장면을 걷는 시뮬레이션된 비디오와 짝을 이룸
•	Project Aria 안경의 센서 특성 사용, 시뮬레이션에서 훈련
•	실제 환경으로 일반화할 수 있는 모델 검증

Philipshrimp · 2024-07-31T00:07:23Z

Interesting papers

COLMAP을 대체하기 위한 방법론

VGGSfM vs. MASt3R

Radiance Fields from VGGSfM and Mast3r, and Their Comparison

NeRF/3DGS

SIGGRAPH 2024 - Radiance field-related papers

rubidiumchain · 2024-07-31T01:33:47Z

Interesting papers

( pilippeshin )

https://robotics-transformer2.github.io/assets/rt2.pdf

https://robopen.github.io/media/roboagent.pdf

https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/

RT-2: Vision-Language-Action Models
RoboAgent: Towards Sample Efficient Robot Manipulation with Semantic Augmentations and Action Chunking
Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
LeRobot: State-of-the-art Machine Learning for real-world robotics

My Jobs

https://blog.naver.com/msshinok/80087056449

changh95 changed the title ~~2024.07.31 - #2~~ 2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 Sep 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

changh95 commented Jul 25, 2024 •

edited

Loading

james-joobs commented Jul 28, 2024 •

edited

Loading

Philipshrimp commented Jul 31, 2024 •

edited

Loading

rubidiumchain commented Jul 31, 2024

2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

Comments

changh95 commented Jul 25, 2024 • edited Loading

Interesting papers

카메라 포즈 찾기의 전쟁?

NeRF & Gaussian Splatting

Open-set 3D detection

Conference tutorials

Other

Job postings

james-joobs commented Jul 28, 2024 • edited Loading

Interesting papers

Philipshrimp commented Jul 31, 2024 • edited Loading

Interesting papers

COLMAP을 대체하기 위한 방법론

VGGSfM vs. MASt3R

NeRF/3DGS

rubidiumchain commented Jul 31, 2024

Interesting papers

My Jobs

changh95 commented Jul 25, 2024 •

edited

Loading

james-joobs commented Jul 28, 2024 •

edited

Loading

Philipshrimp commented Jul 31, 2024 •

edited

Loading