Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Dec 10, 2024
1 parent a33cf38 commit f5cfe89
Show file tree
Hide file tree
Showing 5 changed files with 90 additions and 0 deletions.
4 changes: 4 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,13 +1,17 @@
# Paper List
## 2412
#### [RL Zero: Zero-Shot Language to Behaviors without any Supervision](summaries/2412.05718.md)
#### [Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling](summaries/2412.05271.md)
#### [APOLLO: SGD-like Memory, AdamW-level Performance](summaries/2412.05270.md)
#### [Mind the Time: Temporally-Controlled Multi-Event Video Generation](summaries/2412.05263.md)
#### [CompCap: Improving Multimodal Large Language Models with Composite Captions](summaries/2412.05243.md)
#### [MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale](summaries/2412.05237.md)
#### [DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling](summaries/2412.04905.md)
#### [Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction](summaries/2412.04887.md)
#### [EXAONE 3.5: Series of Large Language Models for Real-world Use Cases](summaries/2412.04862.md)
#### [PanoDreamer: 3D Panorama Synthesis from a Single Image](summaries/2412.04827.md)
#### [LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment](summaries/2412.04814.md)
#### [BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks](summaries/2412.04626.md)
#### [NVILA: Efficient Frontier Visual Language Models](summaries/2412.04468.md)
#### [VisionZip: Longer is Better but Not Necessary in Vision Language Models](summaries/2412.04467.md)
#### [4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion](summaries/2412.04462.md)
Expand Down
22 changes: 22 additions & 0 deletions summaries/2412.04626.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.04626.pdf](https://arxiv.org/pdf/2412.04626.pdf)

1. 각 섹션별 요약

- **서론**: 본 논문은 문서 이해와 코드 생성 작업을 위한 대규모 오픈 데이터셋인 BigDocs를 소개하며, 이 데이터셋은 7.5백만 개의 다중 모달 데이터를 포함하고 있습니다. 데이터 수집의 질을 높이기 위해 엄격한 데이터 정제 과정을 거쳤고, 이 과정에서 데이터의 책임성, 투명성, 합법성을 강조하였습니다.

- **관련 연구**: 기존의 일반적인 비전-언어 데이터셋들은 일반적인 사진을 중심으로 하고 있어, 문서 중심의 데이터 수집이 부족합니다. BigDocs는 이러한 부분을 보완하기 위해 다양한 문서 이해 작업을 지원하는 이미지-텍스트 쌍을 다량 포함하도록 설계되었습니다.

- **BigDocs-7.5M**: BigDocs-7.5M은 시각 문서 이해를 위한 대규모 데이터셋으로, 여러 문서 유형과 작업에 대한 기초 모델 훈련을 위해 설계되었습니다. 데이터셋은 공개 데이터셋과 새로 크롤링한 데이터를 통합하여 구성되었으며, 라이선스도 관대하게 제공됩니다.

- **BigDocs Toolkit**: 데이터 처리, 필터링, 포맷팅을 돕는 모듈화된 도구를 제공하며, 데이터셋에 대한 메타데이터의 추적성을 강화하기 위한 프레임워크를 도입하였습니다. 이러한 도구는 데이터의 투명성을 보장하고, 다중 모달 모델 훈련을 효과적으로 지원합니다.

- **BigDocs-Bench**: BigDocs-Bench는 10가지 새로운 벤치마크 작업을 포함한 평가용 데이터셋으로, 다양한 문서 기반 작업에서 모델의 성능 평가를 가능하게 합니다. 이를 통해 모델이 이미지에서 HTML, LaTeX, Markdown, SVG 등의 긴 코드 출력을 생성하는 능력을 평가합니다.

- **결론**: BigDocs는 문서와 코드 관련 작업에 대한 다중 모달 모델 훈련을 위한 라이선스 허가 데이터셋과 툴을 제공하며, 실제 응용 분야에 유용한 다양한 벤치마크를 제시합니다. 실험 결과, BigDocs를 통해 훈련된 모델이 기존 데이터셋을 통해 훈련된 모델보다 우수한 성능을 보여주었습니다.

2. 전체 요약

BigDocs는 문서 이해와 코드 생성에 특화된 대규모 오픈 데이터셋으로, 다양한 문서 유형에 대해 다중 모달 모델의 훈련을 지원합니다. 본 논문에서는 데이터 투명성과 책임성을 중시하며, 라이선스 허가된 광범위한 데이터셋을 제공함으로써 연구와 상업적 활용에 필요한 적절한 지원을 목표로 하고 있습니다. 이와 더불어 BigDocs-Bench를 통해 모델의 실제 성능을 평가할 수 있는 다양한 벤치마크를 제공하며, 사용자 커뮤니티의 데이터 접근성을 향상시키고자 합니다.
22 changes: 22 additions & 0 deletions summaries/2412.04827.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# PanoDreamer: 3D Panorama Synthesis from a Single Image
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.04827.pdf](https://arxiv.org/pdf/2412.04827.pdf)

### 1. 각 섹션별 주요 내용 요약

- **서론 (Introduction)**
- 이 논문은 단일 이미지에서 360도 3D 장면을 생성하는 새로운 방법인 PanoDreamer를 제안합니다. 가상현실, 증강현실 및 게임 분야에서 3D 장면 생성을 위한 다양한 방법이 연구되어 왔으나, 기존 기술들은 카메라 위치에서 벗어난 전체 360도 장면을 효과적으로 재구성하지 못했습니다. PanoDreamer는 기존의 연속적 생성 방식이 아닌, 단일 이미지에서 파노라마와 깊이 지도를 생성하여 드론을 구성하는 방식을 사용합니다.

- **방법론 (Method)**
- PanoDreamer의 주된 기여는 단일 이미지 파노라마와 깊이 추정 문제를 두 개의 최적화 문제로 정의하고 교차 최소화 전략을 도입하여 효과적으로 그 목적을 해결하는 것에 있습니다. 먼저, 대칭적 파노라마 이미지를 생성하고 이에 상응하는 깊이 지도를 구성합니다. 결과적으로, occluded 영역을 채운 후 3D 장면을 생성하며, 이러한 장면은 다양한 novel view에서 볼 수 있습니다.

- **결과 (Results)**
- PanoDreamer는 LucidDreamer 및 WonderJourney와 비교하여 360도 3D 장면을 보다 일관성 있게 연속적이고 매끄럽게 생성함을 보여줍니다. 수치 비교 결과에서 PanoDreamer는 일관성에서 상당히 좋은 결과를 보였으며, 다른 방법들에 비해 완성된 장면의 일관성을 더 잘 유지하는 것을 알 수 있었습니다.

- **결론 (Conclusion)**
- PanoDreamer는 단일 입력 이미지에서 360도 3D 장면을 생성하는 새로운 방법을 제시하며, 두 가지 용어를 사용한 최적화 문제로 작업을 구성하고 이를 효율적으로 해결하는 교차 최소화 전략을 통해 달성되었습니다. 이 방식은 최신 기술에 비해 파노라마 생성 및 재구성된 3D 장면에서 우수한 성과를 보여줍니다.

### 2. 전체 요약

이 논문은 단일 이미지에서 360도 3D 장면을 생성하는 새로운 프레임워크인 PanoDreamer를 제안하며, 이는 파노라마 이미지와 그에 상응하는 깊이 지도를 생성하여 더 일관성 있는 3D 장면을 구성하는 방법으로 기존의 연속적 방법의 한계를 극복합니다. 본 연구는 최적화 과제를 설정하고 이를 교차 최소화 전략으로 효과적으로 해결하며, LucidDreamer 및 WonderJourney에 비해 일관성 있는 결과를 제공합니다. 이로 인해, PanoDreamer는 가상현실 및 증강현실과 같은 응용 분야에서 보다 현실적이고 몰입도 높은 3D 경험을 제공하는 데 기여할 수 있습니다.
20 changes: 20 additions & 0 deletions summaries/2412.05243.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# CompCap: Improving Multimodal Large Language Models with Composite Captions
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.05243.pdf](https://arxiv.org/pdf/2412.05243.pdf)

1. 논문의 각 섹션 요약:

- **서론**: 복합 이미지(CIs)의 중요성과 MLLMs 모델이 이들에 대해 이해하는 데 어려움을 겪고 있다는 점을 강조합니다. 이에 대응하여 복합 이미지를 위해 고품질 설명 데이터가 필요하다고 주장합니다.

- **MLLMs의 필요성**: 현재 MLLMs은 자연 이미지(NIs)는 잘 이해하지만, 복합 이미지를 이해하는 데 한계를 가지며, 이는 고품질 캡션 데이터가 부족하기 때문이라는 점을 설명합니다. 따라서 복합 이미지의 이해도를 높일 필요성이 강조됩니다.

- **CompCap 프레임워크**: CompCap은 고품질 CI 캡션을 생성하기 위한 범용 프레임워크로, MLLMs의 비전-언어 정렬을 강화하고, 복합 이미지에 대한 이해력을 향상시키는 데 도움을 줍니다. 이 프레임워크는 메타데이터를 활용해 복합 이미지와 그에 따른 설명을 생성합니다.

- **실험 결과**: CompCap을 활용하여 118,000개의 CI-설명 쌍을 생성하고, 이를 통해 MLLMs의 성능 검증에 사용하였습니다. 경험적인 결과는 이 데이터 세트가 MLLMs의 복합 이미지 이해도를 크게 향상시킴을 보여줍니다.

- **결론**: 본 연구는 CompCap과 CompCap-118K 데이터 세트가 복합 이미지 이해의 측면에서 MLLMs의 성능을 향상시키고 있음을 강조합니다. 이 데이터 세트는 다양한 벤치마크에서의 MLLMs 성능 향상을 이끌어냈으며, 비전-언어 정렬의 중요성을 부각시킵니다.

2. 전체 요약:

이 논문은 복합 이미지(CI)에 대한 MLLMs의 이해 능력을 향상시키기 위해 고품질 캡션의 필요성을 강조합니다. CompCap이라는 프레임워크를 제안하여, 복합 이미지에 대한 고품질 캡션을 생성하고, 이를 통해 MLLMs의 성능을 여러 벤치마크에서 검증합니다. 결과적으로, CompCap-118K 데이터 세트는 특히 CI 작업에서 MLLMs의 성능을 크게 개선하여, 비전-언어 정렬의 중요성을 강조하게 되었습니다.
22 changes: 22 additions & 0 deletions summaries/2412.05718.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# RL Zero: Zero-Shot Language to Behaviors without any Supervision
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.05718.pdf](https://arxiv.org/pdf/2412.05718.pdf)

1. 각 섹션 요약:

- **도입 및 배경:** 논문은 강화를 위한 보상 설계의 어려움과, 언어를 사용하여 에이전트에게 명령을 전달하는 방법의 장점을 강조한다. 이는 전통적인 보상 중심의 강화 학습 방식의 한계를 극복할 수 있는 방법으로 제시된다.

- **관련 연구:** 이전 연구들은 언어와 제어 관련 문제를 해결하기 위한 다양한 접근법들을 소개하며, 이 논문은 비지도 강화 학습을 통한 무감독 언어 지침을 에이전트 행동으로 변환하는 방식을 제안한다.

- **기술적 배경:** 강화 학습의 기초적인 MDP(마르코프 결정 과정) 구조를 설명하고, 다중 모달 비디오-기초 모델(ViFMs)을 사용하여 다양한 비디오 데이터를 이해하는 방법을 논의한다.

- **RLZero 프레임워크 제안:** "상상, 투사, 모방"이라는 3단계 프레임워크를 제시하며, 언어 지시에 따른 동작을 상상하고 이를 에이전트의 관측 공간에 투영하여 정책으로의 상상이 가능하도록 한다. 이는 행동 모방을 통해 사람이 지시한 작업 설명을 이해하는 방법을 제시한다.

- **비교 및 성능 검사:** RLZero의 성능을 기존 오프라인 강화 학습 알고리즘과 비교하며, RLZero가 Zero-shot 환경에서 뛰어난 성능을 보임을 보여준다. RLZero는 특히 주어진 언어 명령을 통한 학습 없이 즉각적으로 작업을 수행할 수 있다.

- **실패 사례 분석 및 향후 방향:** 프레임워크의 실패사례와 한계를 분석하며 더 나은 결과를 위한 호출 기반 정책의 실험적 도구로 활용할 수 있는 가능성을 제시한다.

2. 전체 요약:

제로샷 강화 학습을 위한 RLZero 프레임워크는 언어명령을 통해 에이전트 행동으로의 직접적인 전환을 제공하는 혁신적인 방법이다. 이 프레임워크는 언어 설명을 비디오 모델을 통해 상상하여 실제 관측에 투영한 후, 에이전트가 이 상상을 모방하는 형태로 학습 과정을 구축했다. 이로 인해 보상 설계 없이도 다양한 작업에서 에이전트가 계획을 수립하고 실행할 수 있도록 하여, 기존의 보상 기반 접근법의 한계를 극복했다. 이는 특히 복잡한 보상 설계를 필요로 하는 상황에서 유리하며, 비용 효율적이고 확장 가능한 AI 시스템의 개발에 기여할 수 있다.

0 comments on commit f5cfe89

Please sign in to comment.