Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Oct 29, 2024
1 parent 2c60131 commit 9f20371
Show file tree
Hide file tree
Showing 6 changed files with 101 additions and 0 deletions.
5 changes: 5 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,9 @@
# Paper List
## 2410
#### [LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior](summaries/2410.21264.md)
#### [LongReward: Improving Long-context Large Language Models with AI Feedback](summaries/2410.21252.md)
#### [Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines](summaries/2410.21220.md)
#### [A Survey of Small Language Models](summaries/2410.20011.md)
#### [Counting Ability of Large Language Models and Impact of Tokenization](summaries/2410.19730.md)
#### [FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality](summaries/2410.19355.md)
#### [Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning](summaries/2410.19290.md)
Expand All @@ -19,6 +23,7 @@
#### [Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances](summaries/2410.18775.md)
#### [Why Does the Effective Context Length of LLMs Fall Short?](summaries/2410.18745.md)
#### [Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch](summaries/2410.18693.md)
#### [DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation](summaries/2410.18666.md)
#### [Data Scaling Laws in Imitation Learning for Robotic Manipulation](summaries/2410.18647.md)
#### [Taipan: Efficient and Expressive State Space Language Models with Selective Attention](summaries/2410.18572.md)
#### [Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data](summaries/2410.18558.md)
Expand Down
25 changes: 25 additions & 0 deletions summaries/2410.18666.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
# DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
## TL;DR
## Summary
- [https://arxiv.org/pdf/2410.18666.pdf](https://arxiv.org/pdf/2410.18666.pdf)

각 섹션의 내용을 요약하고 중요한 기여와 혁신적인 부분을 정리하겠습니다.

1. **서론 (Introduction)**
이 논문에서는 이미지 복원에 관한 주요한 도전 과제와 해결책을 설명합니다. 기존의 데이터세트는 필요한 다양성과 규모가 부족하며, 실제 세계의 복잡한 이미지 열화를 충분히 반영하지 못합니다.

2. **GenIR 파이프라인 (GenIR Pipeline)**
GenIR는 텍스트-이미지 모델에서 일반 데이터를 생성하여 고품질, 대규모 세트를 만드는 자동화 시스템입니다. 이 과정은 프라이버시를 안전하게 보장하며 수백만 장의 고해상도 이미지를 생성합니다.

3. **DreamClear 모델 (DreamClear Model)**
DreamClear는 실제 세계의 다양한 상황에서도 강력하게 적용될 수 있는 이미지 복원 모델로, 텍스트-이미지 방식의 확산 모델(DiT)을 활용합니다. 이 모델은 여러 복원 전문가를 통합하여 다양한 이미지 열화에 적응할 수 있습니다.

### 주요 기여 및 혁신

- **GenIR 파이프라인:** 이 파이프라인은 텍스트-이미지 확산 모델을 사용해 대규모 데이터세트를 생성함으로써, 이미지 복원의 데이터 부족 문제를 해결합니다.
- **Mixture of Adaptive Modulator (MoAM):** 다양한 열화 상황에 적응하기 위해, 이미지의 세부사항을 보존하면서 열화를 극복하는 방법론을 제시합니다.
- **실험적 증명:** 다양한 이미지 복원 테스트에서 DreamClear의 뛰어난 성능이 증명되었습니다.

### 전체 요약

총체적으로, 이 논문은 GenIR과 DreamClear라는 두 가지 중요한 기여를 통해 이미지 복원 기술을 한 단계 발전시켰습니다. GenIR은 고품질 대규모 데이터를 생성하는 자동화된 파이프라인으로, 프라이버시를 보호하며 비용 효율적입니다. DreamClear는 텍스트-이미지 방식의 확산 모델을 기반으로 하여 다양한 세계 열화 현상에서 뛰어난 복원 성능을 발휘합니다. 이러한 기술적 진보는 실제 어플리케이션에서 AI의 자동 이미지 복원 능력을 향상시키는데 크게 기여할 것입니다.
6 changes: 6 additions & 0 deletions summaries/2410.20011.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
# A Survey of Small Language Models
## TL;DR
## Summary
- [https://arxiv.org/pdf/2410.20011.pdf](https://arxiv.org/pdf/2410.20011.pdf)

죄송합니다. 업로드된 파일 작성에 대해 자세히 설명드리지 못해 죄송합니다. 추가로 검색해야 할 다른 질문이 있으면 말씀해 주세요.
21 changes: 21 additions & 0 deletions summaries/2410.21220.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
## TL;DR
## Summary
- [https://arxiv.org/pdf/2410.21220.pdf](https://arxiv.org/pdf/2410.21220.pdf)

### 1. 각 섹션의 요약

#### 서론
이 논문은 대형 언어 모델(LLM)의 발전이 어떻게 인간의 정보 습득 능력을 크게 향상시켰는지 설명합니다. 또한, LLM과 웹 에이전트의 결합으로 새로운 정보를 실시간으로 얻고 업데이트할 수 있는 방법을 제안합니다. 시각 정보 처리에 한계가 있는 VLM을 강화하기 위해, 이 논문은 웹 기반의 실시간 정보 검색을 통한 해결책을 강조합니다.

#### 방법론
Visional Search Assistant(VSA)는 VLM과 웹 에이전트의 협력을 통해 시각적 및 텍스트 데이터를 통합하여 새로운 이미지에 대한 정보를 처리하는 시스템을 개발했습니다. 이 방법론은 체인 오브 서치라는 알고리즘을 사용해 웹 정보를 순차적으로 획득하고 이를 분석하여 정확한 답변을 제공합니다.

#### 실험 및 결과
실험 결과, VSA는 사실성, 적절성 및 지원적 측면에서 다른 모델들을 능가하는 성능을 입증했습니다. 특히, 새로운 이미지나 이벤트에 직면했을 때도 일관되게 정확한 정보를 제공하였습니다.

#### 결론
이 논문은 VLM의 일반화 능력을 향상시켜 새로운 이미지를 처리할 수 있게 하고, 웹 에이전트를 강화하여 더욱 복잡한 사용 사례에 대응할 수 있도록 합니다. 그러나 VLM의 추론 속도, 웹 조건, 검색 효율성에 대한 한계도 존재함을 인정합니다.

### 2. 전체 요약
이 논문은 시각-언어 모델과 웹 에이전트의 협력을 통한 새로운 접근 방식을 제안하여 AI의 정보 처리 능력을 획기적으로 향상시킵니다. 특히, VLM의 제한점을 극복하기 위해 실시간 웹 정보 검색을 통해 새로운 시각적 데이터를 처리하는 방법을 제안합니다. 실험 결과, 이 시스템은 사실성과 적절성에서 높은 성능을 보였으며, 이는 새로운 AI 응용의 발전 가능성을 보여줍니다. 이 연구는 AI의 자동화 능력을 확장하는 데 기여할 것입니다.
20 changes: 20 additions & 0 deletions summaries/2410.21252.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# LongReward: Improving Long-context Large Language Models with AI Feedback
## TL;DR
## Summary
- [https://arxiv.org/pdf/2410.21252.pdf](https://arxiv.org/pdf/2410.21252.pdf)

1. 각 섹션의 요약과 주요 기여 내용:

- **서론**: 본 논문은 장문맥 대형 언어 모델(LLMs)의 개발이 빠르게 진행되었으나, 관리 감독이 부족한 상태로 합성된 데이터 사용으로 인한 한계가 있다는 문제를 다룹니다. 이를 해결하기 위해 강화 학습(RL)을 활용하여 모델의 능력을 향상시키고자 하는데, 특히 장문맥 시나리오에서의 신뢰할 수 있는 보상 신호 획득에 대한 도전 과제를 제시합니다.

- **관련 연구**: 장문맥 LLMs의 발전을 위해 효율적인 어텐션 메커니즘과 구조화된 상태 공간 모델이 연구되고 있습니다. 그러나 이러한 방법들은 종종 표준 트랜스포머보다 성능이 낮으며, 장문 텍스트에 대한 지속적인 사전 학습 및 감독된 미세 조정(SFT)이 필요합니다.

- **방법론**: 강화 학습을 통해 LLMs을 인간의 선호와 일치시키기 위한 방법으로, LongReward와 DPO 알고리즘을 결합하여 다차원 LLM 평가를 통한 장문맥 기반 모델링을 제안합니다. 이는 구체적으로 각 응답의 유용성, 논리성, 신뢰성, 완전성을 평가하여 개선을 도모합니다.

- **실험 및 결과**: LongReward를 활용한 모델링은 장문맥과 단문맥 모두에서 성능의 향상을 보여주며, 특히 장문맥에서는 4.9%에서 5.5%의 성능 향상을 기록합니다. 인간 선호와의 일치도 또한 높아져 효율성을 인정받았습니다.

- **결론 및 한계**: LongReward의 효과와 장점에도 불구하고, 현실적인 제한 사항과 올바른 LLM의 필요성, 그리고 장문맥 보상 모델의 개발 필요성을 인식합니다. 장문맥 정렬을 위한 추가적 연구의 필요성을 강조하고, 윤리적 고려 사항 역시 명시하면서 종합적인 논의가 포함되어 있습니다.

2. 종합 요약:

본 논문은 장문맥 대형 언어 모델의 성능 향상을 위한 LongReward라는 혁신적인 방법을 제안하며, 강화 학습을 통해 인간 선호와 더욱 잘 일치하는 모델 응답을 생성할 수 있음을 보였습니다. LongReward는 유용성, 논리성, 신뢰성, 완전성이라는 네 가지 차원에서 응답을 평가하여, 모델이 장문맥과 단문맥 모두에서 더 우수한 성능을 발휘하도록 합니다. 이를 통해 기존의 방법이 가지는 제약을 극복하고, 더 나아가 장문맥 모델의 정렬에 대한 연구 방향성을 제시합니다.
24 changes: 24 additions & 0 deletions summaries/2410.21264.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
## TL;DR
## Summary
- [https://arxiv.org/pdf/2410.21264.pdf](https://arxiv.org/pdf/2410.21264.pdf)

### 1. 각 섹션 요약 - 중요 내용 요약 및 설명

**요약: 본 연구에서는 비디오 생성용 LARP 토크나이저를 소개합니다.**
LARP는 자동 회귀적(AR) 생성 모델을 위한 새로운 비디오 토크나이저로서, 기존의 패치 기반 토크나이즈 방식의 한계를 극복하고자 합니다. LARP는 미터 등의 학습된 전체 쿼리를 사용하여 시각 콘텐츠에서 정보를 수집하는 전체적 토크나이즈 방법을 도입하여 패치 수준 정보에 국한되지 않고 더 글로벌하고 의미론적인 표현을 캡쳐합니다.

1. **서론**
- 최근 자동 회귀 모델의 성공에 힘입어 발생한 생성 모델링의 발전에 대해 설명합니다. LARP이 시각 콘텐츠의 글로벌 및 의미론적 표현을 포착하기 위한 새로운 비디오 토크나이저로서 도입된 배경을 소개합니다.

2. **관련 연구**
- 시각적 토크나이제이션 및 비주얼 생성 분야의 기존 연구를 리뷰하며, LARP의 다른점 및 장점을 보여줍니다. LARP는 패치 방식의 한계를 벗어나 보다 유연하고 더 많은 정보를 포착할 수 있으며, 시퀀스 레이아웃을 자동으로 최적화할 수 있는 모델입니다.

3. **방법론**
- LARP의 작용 방식과 핵심 요소를 설명합니다. AR prior 모델을 학습 과정에 통합하여 비디오 생성에 최적화된 토큰 공간을 구성하고, 머신러닝 및 비디오 생성 작업에서 뛰어난 성능을 보입니다.

4. **결론과 향후 연구**
- LARP의 성능에 대해 종합적으로 검토하며 그 효과성을 입증합니다. 향후 멀티모달 대규모 언어 모델(MLLM) 개발에도 적합한 잠재력을 가지고 있다고 결론지었습니다.

### 2. 전체 요약
LARP는 기존 패치 기반 토크나이저가 해결하지 못했던 문제를 다루고자 학습된 전체 쿼리를 활용해 비디오 콘텐츠에서 정보를 포착하는 새로운 접근 방법을 제안합니다. AR 모델의 성능을 최적화하기 위한 전략을 통합하여 효율성을 높이고, UCF101와 K600 같은 벤치마크에서 최첨단 성능을 입증했습니다. LARP는 비디오 생성 작업뿐만 아니라 멀티모달 랭귀지 모델에도 잠재적인 응용 가능성을 가지고 있습니다.

0 comments on commit 9f20371

Please sign in to comment.