Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Dec 11, 2024
1 parent d3e8f07 commit c1752bc
Show file tree
Hide file tree
Showing 5 changed files with 106 additions and 0 deletions.
4 changes: 4 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,13 @@
# Paper List
## 2412
#### [UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics](summaries/2412.07774.md)
#### [Granite Guardian](summaries/2412.07724.md)
#### [Fully Open Source Moxin-7B Technical Report](summaries/2412.06845.md)
#### [CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction](summaries/2412.06782.md)
#### [Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation](summaries/2412.06781.md)
#### [Training Large Language Models to Reason in a Continuous Latent Space](summaries/2412.06769.md)
#### [You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale](summaries/2412.06699.md)
#### [ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance](summaries/2412.06673.md)
#### [ProcessBench: Identifying Process Errors in Mathematical Reasoning](summaries/2412.06559.md)
#### [Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation](summaries/2412.06531.md)
#### [Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models](summaries/2412.05939.md)
Expand Down
26 changes: 26 additions & 0 deletions summaries/2412.06673.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,26 @@
# ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.06673.pdf](https://arxiv.org/pdf/2412.06673.pdf)

### 1. 논문의 각 섹션 요약과 주요 기여, 혁신 부분 설명

#### 개요
ILLUME라는 통합 다중모달 대규모 언어 모델(MLLM)을 제시하여 하나의 모델 내에서 시각적 이해와 생성 능력을 조화롭게 통합합니다. 데이터 효율성 개선을 위해 의미적 정보를 포함한 비전 토크나이저와 다단계 훈련 절차를 활용, 1,500만 개의 데이터 만으로도 기존 MLLM 수준의 성능을 달성합니다. 새로운 다중 모드 정렬 체계를 통해 텍스트 설명과 생성된 이미지 간의 일관성을 자기 평가할 수 있는 능력을 증진시켜, 모델이 더욱 정확하게 이미지를 해석하고 잘못된 예측을 방지하게 합니다.

#### 관련 연구
이전 연구들은 주로 시각적 이해나 생성 중 하나에 집중했으나, ILLUME은 이 두 가지 기능을 동시에 개선하도록 설계되었습니다. 이는 다중 모달 작업 사이의 상호작용을 통해 학습 과정을 효율적으로 개선할 수 있게 허용합니다.

#### ILLUME의 혁신 및 기여
1. **통합 다모달 정렬 작용 방식**을 도입하여 자가 생성된 이미지와 텍스트 설명 간의 일관성을 확인하고 이를 학습에 반영합니다. 이를 통해 위니펩 모드에서의 자가 평가가 이루어집니다.

2. **다중 모드 이미지-텍스트 정렬**: 적은 데이터로도 효율적인 정렬을 가능하게 하는 의미적인 비전 토크나이저를 활용합니다. 이를 위해 비전 어휘 확장과 이미지 생성 태스크를 도입하여 이미지-텍스트 데이터 유형의 광범위한 활용을 가능하게 합니다.

3. **세 단계 훈련 절차**: 초기 단계에서는 비전 임베딩을 초기화하며, 두 번째 단계에서 통합 이미지-텍스트 정렬을 수행하고 마지막으로 감독 하의 미세조정을 통해 다양한 모달 이해 및 생성 작업을 처리합니다.

#### 결론
ILLUME는 경쟁력 있는 성능을 보여주며, 향후 다양한 모달리티를 수용할 수 있도록 개발될 예정입니다. 이러한 방향은 더욱 광범위한 시각적 이해 및 생성 작업을 가능하게 하며, 인간 선호에 가까운 데이터 생성과 활용이 예상됩니다.

### 2. 전반적인 요약

ILLUME는 통합된 다중모달 대규모 언어 모델로, 적은 수의 데이터셋으로도 뛰어난 성능을 발휘합니다. 혁신적인 자가 개선 정렬 체계와 의미적 비전 토크나이저를 통해 효율적인 이미지-텍스트 정렬과 시각적 이해 및 생성 능력을 강화합니다. 단계적 훈련 절차를 적용하여 다양한 다중 모달 과제를 처리할 수 있으며, 향후 발전 방향은 더 많은 모달리티의 수용 및 인간 선호에 기반한 데이터 생성에 중점을 둡니다.
20 changes: 20 additions & 0 deletions summaries/2412.06845.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Fully Open Source Moxin-7B Technical Report
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.06845.pdf](https://arxiv.org/pdf/2412.06845.pdf)

1. 섹션 요약

- **서론**: 최신 자연어 처리 분야의 혁신은 대규모 언어 모델(LLM)의 등장으로 본격화되었습니다. 이 논문은 Moxin 7B라는 완전히 오픈소스인 LLM을 소개하며, 이 모델은 모델 개방성 프레임워크(MOF)에 기반한 시스템 순위를 따릅니다. MOF는 개방과 투명성을 통해 AI의 가능성을 최대한 발휘할 수 있도록 합니다.

- **관련 연구**: 최신 LLM은 보통 100억 개 이상의 파라미터로 구성되며, 접근성을 높이기 위해 20억 개 미만의 작은 모델들도 개발되었습니다. 토크나이저도 중요한데, 이 중에서는 Byte-Pair Encoding (BPE)와 SentencePiece 등이 있습니다.

- **모델과 데이터 관리**: 코딩 데이터는 LLM의 성능을 향상시키는 데 중요하며, 스택 데이터셋을 사용하여 코드를 더 잘 이해할 수 있도록 합니다. 고품질의 데이터는 모델의 논리적 추론과 문제 해결 능력을 키우는 데 큰 도움이 됩니다.

- **평가**: 여러 언어 모델과의 성능 비교에서 Moxin-7B는 강력한 성능을 보여주었습니다. 이는 HellaSwag, MMLU, Winogrande 같은 다양한 평가에서 입증되었습니다.

- **결론**: Moxin 7B는 투명성과 재현성을 중시하며, 개방형 AI 모델 생태계에 기여하고자 개발되었습니다. 이 모델은 기존 7B 모델들과 비교해 강력한 성능을 유지하면서도 완전한 투명성을 제공합니다.

2. 전체 요약

이 논문은 Moxin 7B라는 대규모 언어 모델(LLM)을 통해 AI 연구의 개방성을 제고하려는 시도를 설명하고 있습니다. Moxin 7B는 모델 개방성 프레임워크에 따라 개발되어, 모델의 훈련 코드, 데이터셋, 중간 체크포인트 등을 공개합니다. 이로 인해 모델의 투명성, 재현성, 그리고 새로운 AI 생태계의 구축이 가능해졌습니다. 다양한 평가에서 Moxin 7B는 기존의 7B 모델과 비교해 뛰어난 성능을 보였으며, 특히 제로샷 및 몇몇 샷 학습에서 강력한 성능을 발휘했습니다. 이러한 성과를 바탕으로 Moxin 7B는 학문적 진보와 산업 응용의 기회를 넓히고 있습니다.
28 changes: 28 additions & 0 deletions summaries/2412.07724.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
# Granite Guardian
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.07724.pdf](https://arxiv.org/pdf/2412.07724.pdf)

### 섹션별 요약

1. **서론 (Introduction)**
- Granite Guardian 모델은 안전하게 대형 언어 모델(LLMs)의 프롬프트와 응답을 감지하는 기능을 제공합니다. 사회적 편견, 욕설, 폭력, 성적 콘텐츠, 비윤리적 행동, 탈옥(jailbreak), 맥락 적합성, 근거, 답변 관련성과 같은 다양한 위험 요소를 포괄적으로 다루며 사용자에게 안전한 AI 사용 환경을 제공합니다.

2. **LLMs의 위험 (Risks in LLMs)**
- 대형 언어 모델은 일반적으로 사회적, 보안적 위험 등 다양한 위험을 내포하고 있습니다. Granite Guardian은 이러한 위험을 폭넓고 깊이 있게 감지하며, 사회적 편견, 비윤리적 행동 같은 사회적 위험과 탈옥 및 맥락 관련성 문제를 해결하기 위해 설계되었습니다.

3. **데이터셋 (Datasets)**
- Granite Guardian은 사람의 주석 데이터와 합성 데이터를 결합하여 학습되었습니다. 복잡한 무해 및 유해 데이터를 통해 실용적인 응용 프로그램을 개발하고 실제 위협으로부터 모델을 보호하는 데 기여하고 있습니다.

4. **모델 디자인 및 개발 (Model Design and Development)**
- Granite Guardian은 감독된 미세 조정을 통해 위험을 계산하고 안전 지침 템플릿을 사용하여 다양한 위험을 탐지합니다. 이는 모든 사용 사례에 적용 가능한 유연성을 제공합니다.

5. **평가 (Evaluation)**
- 다양한 공개 데이터셋에서의 벤치마킹은 Granite Guardian이 위험 감지에서 최첨단 성과를 이룩했음을 보여줍니다. 또한, 안전 및 성과의 균형을 유지하여 각 베이스라인을 능가합니다.

6. **결론 (Conclusion)**
- Granite Guardian 모델군은 개방형 소스로 제공되며, AI 시스템의 발전과 책임 있는 개발을 장려합니다. 이러한 모델은 맥락 적합성, 근거 및 답변 관련성과 같은 특수한 위험을 해결하기 위해 사용됩니다.

### 전체 요약

Granite Guardian은 대형 언어 모델의 안전한 활용을 위해 설계된 위험 감지 모델로, 사회적 편견, 욕설, 탈옥, 그리고 RAG 관련 맥락 및 근거 등의 위험을 포괄적으로 다루고 있습니다. 이 모델은 사람의 주석과 합성 데이터를 사용하여 학습되었으며, 다양한 벤치마크에서 뛰어난 성과를 보이고 있습니다. Granite Guardian은 오픈 소스로 제공되며, 책임 있는 AI 개발을 촉진하고 안전한 사용을 위한 기반을 제공합니다.
28 changes: 28 additions & 0 deletions summaries/2412.07774.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,28 @@
# UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
## TL;DR
## Summary
- [https://arxiv.org/pdf/2412.07774.pdf](https://arxiv.org/pdf/2412.07774.pdf)

### 1. 각 섹션의 중요 내용 요약

#### 서론
이 논문은 'UniReal'이라는 범용 프레임워크를 제시하여 다양한 이미지 생성 및 편집 작업을 다룸으로써 일관성을 유지하면서 시각적 변화를 제공하는 것을 목표로 하고 있습니다. 기존의 특정 작업 중심의 솔루션 대신, 비디오 생성 모델에서 영감을 받아 다양한 입력 및 출력 이미지를 프레임으로 취급하여 이미지 생성, 편집, 커스터마이징 등의 작업을 지원하는 데 중점을 두고 있습니다.

#### 관련 연구
기존의 이미지 편집 방식은 다양한 방법을 사용하여 시각적 속성을 조정합니다. UniReal은 이러한 다양한 요구 사항을 하나의 통합된 프레임워크로 통합하여 다양한 이미지 관련 작업을 지원할 수 있도록 설계되었습니다.

#### 메소드 및 모델 설계
UniReal은 이미지 및 텍스트 간의 연관성을 관리하고 다양한 작업을 수행하는데 있어 계층적 프롬프트 기반 접근 방식을 사용합니다. 이미지가 비디오 프레임처럼 처리되며 프롬프트에 따라 다양한 역할을 부여받습니다.

#### 데이터셋 구축
자연적인 비디오 프레임 일관성과 변화를 통해 데이터셋을 구축하고, 이를 기반으로 다양한 이미지 생성 및 편집 작업을 지원하도록 설계되었습니다.

#### 실험 및 기존 연구와의 비교
UniReal은 다양한 이미지 생성 및 편집 작업에서 기존의 작업 특화 모델들과 비교해 우수한 성능을 보였습니다. 특히 사용자의 지시를 기반으로 이미지를 편집하는 작업, 맞춤 이미지 생성 및 객체 삽입에서 강력한 기능을 입증했습니다.

#### 결론
UniReal은 범용성을 갖춘 이미지 생성 및 편집 솔루션으로, 여러 입력 및 출력 이미지를 처리하며, 실세계의 동적 변화를 이해하고 새로운 작업에 대한 일반화 능력을 보여줍니다. 하지만 입력 및 출력 이미지의 수가 5개를 초과할 경우 안정성이 감소하고 계산이 복잡해질 수 있다는 한계도 가집니다.

### 2. 전체 요약

UniReal은 이미지 생성 및 편집을 위한 포괄적인 솔루션으로, 비디오 프레임 생성 모델의 원칙을 활용하여 다양한 이미지 관련 작업을 한 프레임워크에서 처리할 수 있도록 지원합니다. 이 모델은 다양한 이미지와 텍스트 프롬프트를 통해 작업을 수행하며, 실세계 동적 변화를 모델링하여 새로운 응용 작업에 대한 잠재력을 보여 줍니다. 특히 사용자 지시 기반 편집, 맞춤 이미지 생성에서 우수한 결과를 보이며, 입력 및 출력 이미지의 개수에 따른 한계도 함께 언급되었습니다.

0 comments on commit c1752bc

Please sign in to comment.