Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 #4

Open
changh95 opened this issue Jul 25, 2024 · 3 comments

Comments

@changh95
Copy link
Owner

changh95 commented Jul 25, 2024

Interesting papers

카메라 포즈 찾기의 전쟁?

facade.webm

뒷 내용은 @Philipshrimp 님 발표에도 반복되서... 짧게...

NeRF & Gaussian Splatting

image

image

  • NVIDIA의 fVDB
    • OpenVDB를 NVIDIA에서 가속 + 기능 추가
    • Mesh Generation NIM: Point Cloud에서 Mesh 생성
    • NeRF-XL NIM: Omniverse Cloud API를 이용해 OpenUSD 포맷으로 NeRF 공간 생성
    • Physics Super-Res NIM: OpenUSD 기반의 high resolution physics simulation
    • https://youtu.be/6JCp0hXb3S4?si=meJ6LTQrgcG2XFi_

image

Open-set 3D detection

image

image

Conference tutorials

Other

2024-07-31.16-18-16__66pct_smaller.mp4
-41477788717708093062024-07-31_16-47-39.mov

image


Job postings

  • West Virginia University, Faculty position in Robotics 링크
  • UCLA, R&D Engineer 링크
@james-joobs
Copy link
Collaborator

james-joobs commented Jul 28, 2024

Interesting papers

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Mesh Reconstruction이란?

  1. 문제 인식
    • 재구성 및 생성된 3D 자산이 수작업으로 제작된 자산의 품질에 도달
    • 그러나 이러한 자산은 3D 산업 응용을 위해 항상 메쉬로 변환되어야 함
    • 현재 메쉬 추출 방법은 아티스트가 만든 메쉬(AM)보다 품질이 낮음
    • 현재 방법은 조밀한 면에 의존하고 기하학적 특징을 무시하여 비효율적이고 복잡한 후처리 및 낮은 표현 품질을 초래
  2. 해결책 제시
    • MeshAnything 모델 소개
    • 메쉬 추출을 생성 문제로 취급, 지정된 형태와 일치하는 AM 생성
    • 3D 자산을 AM으로 변환하여 다양한 3D 자산 생산 방법과 통합 가능
    • 3D 산업 응용 향상
  3. 모델 아키텍처
    • VQ-VAE와 형태 조건 디코더 전용 트랜스포머로 구성
    • 먼저 VQ-VAE를 사용하여 메쉬 어휘 학습
    • 형태 조건 디코더 전용 트랜스포머를 사용하여 이 어휘로 형태 조건 자기회귀 메쉬 생성 훈련
  4. 실험 결과
    • AM을 수백 배 적은 면으로 생성
    • 저장, 렌더링, 시뮬레이션 효율성 크게 향상
    • 이전 방법과 비교하여 정밀도 유지
스크린샷 2024-07-31 17 37 59

Mesh Anything 파이프라인 설명

  1. 모델 개요
    • MeshAnything은 주어진 3D 형태를 준수하는 아티스트가 만든 메쉬(Artist-Created Meshes)를 생성하는 autoregressive 트랜스포머
  2. 프로세스 설명
    • 주어진 3D 자산에서 포인트 클라우드 샘플링
    • 샘플링된 포인트 클라우드를 특징으로 인코딩
    • 디코더 전용 트랜스포머에 이 특징 주입
    • 형태 조건 메쉬 생성 달성
  3. 비교 및 차별점
    • MeshGPT와 같은 방법과 비교
    • MeshGPT: 복잡한 3D 형태 분포를 직접 학습
    • MeshAnything: 최적화된 토폴로지를 통해 형태 효율적으로 구성
    • 복잡한 3D 형태 분포 학습 회피
    • 훈련 부담 감소 및 확장성 향상

주요 포인트
• MeshAnything은 주어진 3D 형태에 맞는 아티스트가 만든 메쉬를 생성하는 autoregressive 트랜스포머입니다
• 주어진 3D 자산에서 포인트 클라우드를 샘플링하여 특징으로 인코딩한 후, 디코더 전용 트랜스포머에 주입하여 형태 조건 메쉬 생성을 달성합니다.
• MeshGPT와 달리 복잡한 3D 형태 분포를 직접 학습하지 않고, 최적화된 토폴로지를 통해 효율적으로 형태를 구성하여 훈련 부담을 줄이고 확장성을 향상시킵니다.

스크린샷 2024-07-31 17 44 06

Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models

4D 애니메이션 생성

  1. 프레임워크 개요
    • 새로운 4D 콘텐츠 생성 프레임워크: Diffusion4D
    • 비디오 확산 모델을 적용하여 공간적-시간적 일관된 새로운 뷰 명시적 합성
  2. 데이터 세트 활용
    • 큐레이팅된 동적 3D 데이터 세트 사용
    • 동적 3D 자산의 궤도 뷰를 합성 가능
  3. 모델 특징
    • 4D 인식 비디오 확산 모델 개발
    • 최신 4D 리컨스트럭션 파이프라인과 통합
    • 4D 콘텐츠를 몇 분 안에 효율적으로 생성
  4. 방법의 우수성
    • 텍스트, 단일 이미지 및 3D 자산에서 다양한 프롬프트 양식 지원
    • 생성 효율성과 4D 지오메트리 일관성에서 선행연구보다 능가
  5. 통합 및 적용
    • 기존의 4D 리컨 파이프라인과의 통합
    • 다양한 입력 형태로부터 4D 콘텐츠 생성
dataset_web.e71db6df79dd170748f9.mp4

아키텍쳐 주요 포인트
• 큐레이팅된 데이터셋을 사용하여 대량의 동적 3D 자산 궤도 비디오를 생성하고, 이를 통해 4D 인식 비디오 확산 모델을 훈련
• 기존 단안 비디오 생성 모델의 3D 기하학적 사전 지식이 부족하여, 최신 3D 인식 비디오 생성 모델을 사용
• 사전 훈련된 3D 인식 비디오 확산 모델을 4D 인식 궤도 비디오 생성 작업에 맞게 미세조정
• 운동 크기 가이던스를 명시하고, 3D-4D 동역학을 훈련 단계에서 학습하며, 추론 단계에서 3D 객체 동역학을 증강
• 큐레이팅된 데이터셋을 효과적으로 활용하고, 다양한 조건 모달리티를 수용하도록 모델 아키텍처를 커스터마이징 진행

4D 디퓨전 아키텍쳐
method 78719a46fbec1bbb1ff1

SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

433767941_933222128183221_3788715816770971804_n.mp4

테이크아웃

•	상황에 맞는 AI와 실시간 정보 접근이 가능한 디스플레이를 결합한 세련되고 가벼운 AR 안경
•	시스템은 물리적 환경의 3D 레이아웃을 이해해야 함
•	AR 안경은 디지털 오버레이와 물리적 공간을 혼합, 턴 바이 턴 방향 제공 가능
•	3D 장면 표현 생성은 복잡한 작업
•	현재 MR 헤드셋은 원시 시각 데이터를 기반으로 가상 표현 생성
•	원시 데이터를 환경의 특징을 설명하는 모양으로 변환
•	기존 방식은 독특하거나 불규칙한 공간에서 오류 발생 가능

소개

•	SceneScript는 하드 코딩된 규칙 대신 엔드 투 엔드 기계 학습 사용
•	방의 기하학을 직접 추론
•	컴팩트한 물리적 장면 표현으로 메모리 요구 사항 감소
•	선명한 지오메트리 생성, 해석 가능하고 편집 가능

학습 방법

•	SceneScript는 LLM의 다음 토큰 예측 개념 활용
•	일반 언어 토큰 대신 ‘벽’, ‘문’ 등의 아키텍처 토큰 예측
•	많은 양의 훈련 데이터 제공으로 시각적 데이터를 장면의 기본 표현으로 인코딩 학습
•	방 레이아웃 설명하는 언어로 디코딩
•	상당한 양의 데이터와 사생활 보호 필요

시뮬레이션에서 훈련

•	웹에서 공개된 텍스트 소스가 아닌 물리적 공간 데이터 필요
•	Aria Synthetic Environments라는 합성 데이터 세트 생성
•	100,000개의 독특한 내부 환경, SceneScript 언어로 설명
•	각 장면을 걷는 시뮬레이션된 비디오와 짝을 이룸
•	Project Aria 안경의 센서 특성 사용, 시뮬레이션에서 훈련
•	실제 환경으로 일반화할 수 있는 모델 검증

@Philipshrimp
Copy link

Philipshrimp commented Jul 31, 2024

@changh95 changh95 changed the title 2024.07.31 - #2 2024.07.31 - #2 - MASt3R, GLOMAP, ACE 0, VGGSfM, SAM v2, fVDB, Clio, MeshAnything, RT-2 Sep 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants