Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2025.02.19 #26

Open
changh95 opened this issue Feb 7, 2025 · 2 comments
Open

2025.02.19 #26

changh95 opened this issue Feb 7, 2025 · 2 comments

Comments

@changh95
Copy link
Owner

changh95 commented Feb 7, 2025

Spatial AI 스터디

Interesting papers

  • Latent Radiance Fields with 3D-aware 2D Representations
    • https://arxiv.org/abs/2502.09613
    • https://latent-radiance-field.github.io/LRF/
    • 고화질 이미지 렌더링이 가능한 3D latent representation 만들기
    • Stage 1: VAE encoder + novel correspondence-aware constraint
    • Stage 2: Latent radiance field (LRF)
    • Stage 3: Latent image 렌더링 이후 decoding.
    • 장점: Real world 3D recon 에도 사용 가능하고, generation에도 사용 가능하다.

Image

  • Robust Autonomy Emerges from Self-Play
    • https://arxiv.org/pdf/2502.03349
    • Vladlen Koltun 주도의 연구
    • Self-play reinforcement learning : 멀티플레이어 게임 속 multi-agent가 서로 상호작용하며 학습하는 방법 (i.e. multi-agent 강화학습)
    • 환경은 어떻게 만들었는가? -> Gigaflow (8-GPU node 1개 사용). 1 시간에 7.2 million km 주행 데이터 (약 42년의 주행 데이터) 생성 가능. 동시에 150개의 agent 데이터를 운용하며, 실제 시간보다 36만배 빠르고, 1 million km 마다 약 $5 소요됨
    • 1.6 billion km를 (약 9500년) 주행하며 학습했더니 운전을 잘 하더라~ 어느정도로? 사고마다 평균 3 million km (17.5년)의 갭이 생길정도로 (사람은 미국에서 빈 도로에서는 평균 80만 km 마다, 샌프란시스코에서는 평균 2만5천 km 마다 사고가 남). 트레이닝 시간은 8-GPU node 하나로 10일 정도 걸림.
    • 눈 여겨볼 점 1: 모든 agent가 '동일 뉴럴넷 + 동일 weight'로 학습되나, 모두 randomized reward 및 차량 타입과 운전자 성향에 (e.g. 운전 공격성) 따라 conditioning vector가 다르게 들어감.
    • 눈 여겨볼 점 2: Bird's eye view에서 만든 시뮬레이션이라, occlusion 같은거 없음! 그래서 실제에서 못씀!!! 대신 nearby agent의 위치에 대해 random noise corruption을 이용함.
    • 눈 여겨볼 점 3: 단 한번도 '사람이 운전'하는걸 본적이 없지만, 강화학습으로 마치 사람처럼 운전할 수 있게 됨 (비보호 좌회전, 사람과 차가 뒤섞인 도로에서 운전, 급하게 껴드는 자동차 피하기). 공격성이 높으면 불법 유턴과 같은 공격적인 운전 방법도 익힐 수 있고, 공격성이 낮으면 불법 유턴보다는 한 블록을 돌아오는 방법을 하기도 함.
Image

Image

Image

Image


@james-joobs
Copy link
Collaborator

james-joobs commented Feb 19, 2025

Pose Free 3D Gaussian Splatting


1. 배경

3D Gaussian Splatting 개념

  • 3D 장면을 Gaussian 형태의 점(스플랫)으로 나타내어 렌더링하는 방식
  • 기존에는 카메라 포즈(예: COLMAP 등 SfM 기반 추정)를 알고 있어야 3D Gaussian Splatting 최적화 가능
  • 최근에는 포즈 정보가 없어도 학습하는 방법들이 연구되고 있음
Image 3D Gaussian Splatting 개념도

2. Pose Free 3D Gaussian Splatting 접근

2.1 COLMAP-Free 3D Gaussian Splatting [CVPR 2024]

  • COLMAP-Free 3D Gaussian Splatting에서는 연속된 영상 프레임 간의 상대 포즈를 추정한 뒤, 이를 기반으로 전체 장면의 3D Gaussian을 점진적으로 학습
  • 단안 깊이 추정(사전 학습된 Monocular Depth 모델 사용)으로 초기 3D 포인트를 만들고, 이를 Local 3DGSGlobal 3DGS로 확장해가며 전체 장면 구성

핵심 아이디어

  1. Local 3DGS: 인접한 두 프레임(예: t, t+1) 간의 카메라 포즈를 상대적으로 추정
  2. Global 3DGS: 추정된 상대 포즈들을 전체 장면에 맞게 정렬하고, 부족한 영역(빈 공간)을 새 프레임이 들어올 때마다 보완
Image

Local 3DGS에서의 카메라 포즈 추정 과정

실험 결과

  • 카메라 포즈 오차(예: RPE, ATE)와 영상 화질 지표(PSNR, SSIM 등)에서 좋은 성능 달성
  • 기존에 COLMAP이 필수적으로 필요했던 것에 비해, 단안 깊이 추정과 연속 프레임만으로 장면을 복원하고 렌더링 가능

2.2 A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose [SIGGRAPH 2024]

  • Sparse View 상황(촬영 각도가 적고 시야 범위가 넓은 경우)에서도 카메라 포즈 없이 효과적인 3D 복원과 렌더링을 목표
  • 초기 프레임의 카메라 포즈를 기준(Identity)으로 두고, 단안 깊이를 활용해 3D 포인트를 생성
  • 이후 Registration → Adjustment → Refinement 단계를 거치며 각 프레임에 대한 포즈와 깊이를 함께 최적화
Image

Sparse View에서의 포즈 및 깊이 최적화

핵심 아이디어

  1. Registration: 이전 프레임의 포즈를 복사하여 새 프레임의 초기 포즈로 설정 후, 렌더링 비교를 통해 포즈 보정
  2. Adjustment: 단안 깊이와 렌더링된 깊이 사이의 차이를 줄이도록 전체 카메라와 깊이맵을 동시 최적화
  3. Refinement: 부족한 영역에 대해 새로운 3D 포인트를 추가하고, 기존 포인트와 중첩되는 부분은 제한적으로 업데이트

3. 결론 및 시사점

  • 기존에는 NeRFGaussian Splatting 기반 방법들이 정확한 카메라 포즈초기 3D 포인트 클라우드에 의존적이었음
  • Pose Free 접근들은 단안 깊이 추정과 연속 프레임(또는 Sparse View)에서의 최적화 기법을 통해, 별도의 COLMAP 없이도 학습 가능성을 보여줌
  • 향후에는 실시간성, 더 복잡한 장면(예: 동적 물체 포함)에서도 Pose Free 방식을 적용하려는 연구가 활발해질 것으로 예상
Image

최종적으로 복원된 장면의 예시


참고 자료


@changh95 changh95 changed the title 2025.02.12 2025.02.19 Feb 19, 2025
@jy6757
Copy link

jy6757 commented Feb 19, 2025

Deep Learning Model Compression

Lightgaussian: Unbounded 3d gaussian compression with 15x reduction and 200+ fps.(NeurIPS 2024)
https://arxiv.org/abs/2311.17245

Image

-모델 크기 최대 15배 감소
-렌더링 속도 향상 (초당 139프레임 → 215프레임)
-실시간 3D 렌더링에도 적합한 모델로 최적화


Compact 3D Gaussian Representation for Radiance Field(CVPR 2024)
https://openaccess.thecvf.com/content/CVPR2024/papers/Lee_Compact_3D_Gaussian_Representation_for_Radiance_Field_CVPR_2024_paper.pdf

Image


Optimizing Large Language Model Training Using FP4 Quantization
https://arxiv.org/abs/2501.17116

Image

Image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants