Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Feb 22, 2025
1 parent a0c93e1 commit 51c12ad
Show file tree
Hide file tree
Showing 6 changed files with 115 additions and 0 deletions.
5 changes: 5 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -184,6 +184,8 @@
#### [Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey](summaries/2502.06872.md)
#### [Gemstones: A Model Suite for Multi-Faceted Scaling Laws](summaries/2502.06857.md)
#### [Competitive Programming with Large Reasoning Models](summaries/2502.06807.md)
#### [On the Emergence of Thinking in LLMs I: Searching for the Right Intuition](summaries/2502.06773.md)
#### [ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates](summaries/2502.06772.md)
#### [Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models](summaries/2502.06755.md)
#### [Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling](summaries/2502.06703.md)
#### [TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models](summaries/2502.06608.md)
Expand All @@ -192,6 +194,7 @@
#### [CoS: Chain-of-Shot Prompting for Long Video Understanding](summaries/2502.06428.md)
#### [Expect the Unexpected: FailSafe Long Context QA for Finance](summaries/2502.06329.md)
#### [Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance](summaries/2502.06145.md)
#### [LM2: Large Memory Models](summaries/2502.06049.md)
#### [VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer](summaries/2502.05979.md)
#### [Skill Expansion and Composition in Parameter Space](summaries/2502.05932.md)
#### [Enhancing Financial Time-Series Forecasting with Retrieval-Augmented Large Language Models](summaries/2502.05878.md)
Expand Down Expand Up @@ -219,10 +222,12 @@
#### [Linear Correlation in LM's Compositional Generalization and Hallucination](summaries/2502.04520.md)
#### [Fast Video Generation with Sliding Tile Attention](summaries/2502.04507.md)
#### [FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks](summaries/2502.04465.md)
#### [Training Language Models to Reason Efficiently](summaries/2502.04463.md)
#### [CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference](summaries/2502.04416.md)
#### [Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing](summaries/2502.04411.md)
#### [Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models](summaries/2502.04404.md)
#### [Agency Is Frame-Dependent](summaries/2502.04403.md)
#### [Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications](summaries/2502.04384.md)
#### [MEETING DELEGATE: Benchmarking LLMs on Attending Meetings on Our Behalf](summaries/2502.04376.md)
#### [On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices](summaries/2502.04363.md)
#### [CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance](summaries/2502.04350.md)
Expand Down
20 changes: 20 additions & 0 deletions summaries/2502.04384.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.04384.pdf](https://arxiv.org/pdf/2502.04384.pdf)

1. 논문의 각 섹션 요약

- 소개: 이 논문은 대형 언어 모델(LLM)을 특정 분야에 맞게 적응시키기 위해 개발된 SOLOMON이라는 신경영감 기반 아키텍처를 제안합니다. 사례 연구로는 반도체 레이아웃 디자인에서의 적용을 탐구하며, Prompt Engineering과 In-Context Learning 기법을 활용하여 일반적인 LLM을 빠르게 적응시키는 방법을 시연합니다.

- 신경영감 기반 LLM 추론 네트워크 아키텍처: SOLOMON은 "Brain-like AGI"와 "자유 에너지 원리"에서 영감을 받아 설계되었습니다. 이 아키텍처는 다양한 LLM들이 목표 작업에 대한 생각을 생성하고, 이를 통해 가장 좋은 추론 계획을 마련합니다.

- 문제 제기: 레이아웃 디자인에서의 공간 추론 및 도메인 지식 응용의 어려움을 언급합니다. LLM이 교과서적인 정의는 정확히 알지만, 이를 실제 설계 요구사항으로 변환하는 데는 어려움을 겪는 사례를 보여주며, 이는 LLM 기반 AI 시스템의 적응성을 높이기 위해서는 단순히 더 많은 정보를 암기하기보다는 추론 능력을 개발해야 함을 강조합니다.

- SOLOMON의 성능 및 비교: 여러 LLM과의 비교를 통해 SOLOMON이 성능을 향상시키는 과정을 설명합니다. SOLOMON은 다양한 관점을 통합하여 LLM의 고집스러움을 줄이고 정확성을 높이며, 공간 추론과 관련된 문제를 개선하는 데 기여합니다.

- 결론 및 미래 작업: SOLOMON 아키텍처는 반도체 레이아웃 디자인 작업에서 성능을 크게 개선했으며, 지속적으로 배우고 변화하는 적응형 AI 시스템 개발의 방향성을 제시합니다. 그러나 여전히 해결해야 할 과제가 있으며, 이 아키텍처를 다른 전문 분야로 확장시켜 나갈 계획입니다.

2. 전체 요약

SOLOMON 아키텍처는 대형 언어 모델의 도메인 적응을 위한 핵심 문제를 다루며, 반도체 레이아웃 디자인 테스트를 통해 그 성능을 입증했습니다. 특히 인간의 도메인 지식을 사용해 효율적인 설계를 만드는 데 있어 LLM의 한계를 극복하는 데 중점을 두고 있으며, 공간 추론 능력과 적응성을 향상시키기 위해 신경영감 방법을 채택하였습니다. 이러한 발전은 향후 다양한 도메인 응용 프로그램에서 AI 시스템을 더 효과적으로 활용하는 데 기여할 것입니다.
22 changes: 22 additions & 0 deletions summaries/2502.04463.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# Training Language Models to Reason Efficiently
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.04463.pdf](https://arxiv.org/pdf/2502.04463.pdf)

1. 각 섹션의 요약:

*서론 및 관련 작업*:
이 논문은 큰 언어 모델(LLM)의 성능을 개선하기 위해 대규모 사전 학습을 사용하지만, 이 방법은 한계에 도달했기 때문에 새로운 접근이 필요하다고 제안합니다. 이러한 모델은 복잡한 문제 해결 능력을 갖추었으나, 긴 추론 과정으로 인한 높은 비용이 문제입니다. 저자들은 강화 학습(RL)을 사용하여 모델이 작업의 복잡도에 따라 계산 자원을 동적으로 할당하도록 훈련함으로써 이러한 문제를 해결하려고 합니다.

*메소드*:
제안된 방법은 불필요한 계산 과부하를 줄이면서 정확성을 유지하도록 모델을 유도합니다. 이를 통해 여러 효율성을 가진 추론 모델을 도출할 수 있으며, 실험 결과는 대부분의 정확성을 유지하면서 추론 비용을 크게 줄일 수 있음을 보여줍니다.

*실험 및 결과*:
실험에서는 두 가지 개방형 무게의 대형 추론 모델을 사용하여 테스트하였으며, 각각의 효율성 수준을 조절하는 단일 하이퍼파라미터를 사용합니다. 결과는 Alpha 값에 따라 효율성이 조절 가능하며, 적은 학습 단계로도 원래 모델과 비슷한 성능을 달성할 수 있음을 보여줍니다.

*결론 및 한계*:
이 연구는 추론 모델의 비용을 줄이면서도 정확성을 크게 해치지 않는 새로운 방법론을 소개합니다. 모델 감소 대신 추론 비용 감소에 초점을 맞추며, 한계로는 RL 설정이 필요하고, 특정 지연이 있는 응용 프로그램에서는 정확한 길이를 타겟으로 하기 어려운 점이 언급됩니다.

2. 전반적인 요약:

이 논문은 AI와 머신러닝 분야에서 추론 모델의 효율성을 높이기 위한 혁신적인 방법을 제공합니다. 큰 언어 모델이 발전했지만, 복잡한 문제 해결을 위한 높은 계산 비용이 단점으로 작용하고 있습니다. 제안된 방법은 강화 학습을 사용하여 모델이 문제의 난이도에 따라 필요한 계산 자원을 동적으로 조정할 수 있도록 하며, 이를 통해 계산 비용을 절감하면서도 높은 정확성을 유지할 수 있습니다. 실험 결과는 다양한 효율성 수준으로 모델을 조정할 수 있음을 보여주며, 이는 비용 효율적인 인공지능 솔루션을 제공하는 데 큰 잠재력을 가집니다.
18 changes: 18 additions & 0 deletions summaries/2502.06049.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,18 @@
# LM2: Large Memory Models
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.06049.pdf](https://arxiv.org/pdf/2502.06049.pdf)

1. 각 섹션의 요약:

- **서론**: 이 논문은 기존 트랜스포머 모델의 한계를 극복하기 위해 대용량 메모리 모델(LM2)을 소개합니다. 이 모델은 긴 맥락에서의 추론 과제를 해결하는 새로운 메모리 모듈을 통합하여, 응답의 품질을 향상시키고자 합니다.

- **대용량 메모리 모델 (LM2)**: LM2는 여러 트랜스포머 디코더 블록으로 구성되며, 메모리 모듈을 통합하여 입력 시퀀스와 상호작용합니다. 이 모듈은 포지셔널 임베딩을 사용해 입력을 처리하고, 교차 주의를 통해 메모리 슬롯을 동적으로 업데이트합니다.

- **메모리 정보 흐름 및 업데이트**: 정보 흐름은 메모리 뱅크와 입력 임베딩 간의 교차 주의에 의해 이루어지며, 입력, 삭제, 출력 게이트를 사용하여 업데이트 됩니다. 이 과정은 긴 맥락의 정보 저장 및 검색에 효과적입니다.

- **실험**: LM2는 다양한 긴 맥락 추론 작업에서 뛰어난 성능을 보여주었으며, BABILong 및 MMLU 벤치마크에서 기존 모델을 뛰어넘는 성과를 달성했습니다.

2. 전체 요약:

이 논문은 대용량 메모리 모델(LM2)이라는 새로운 트랜스포머 구조를 제안합니다. LM2는 긴 맥락과 복잡한 추론을 처리할 수 있도록 돕는 메모리 모듈을 탑재하고 있습니다. 이 모델은 BABILong 및 MMLU와 같은 벤치마크에서 뛰어난 성과를 내며, 기존 메모리 모델보다 우수한 성능을 입증하였습니다. 특히, 여러 단계의 추론 및 숫자 추론에서 탁월한 성능을 발휘한 것이 특징입니다. 이 논문의 주요 혁신점은 메모리 모듈을 활용한 장기 의존성 파악 능력의 향상이며, 이는 트랜스포머 아키텍처의 미래 발전에 중요한 기초를 제공합니다.
26 changes: 26 additions & 0 deletions summaries/2502.06772.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,26 @@
# ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.06772.pdf](https://arxiv.org/pdf/2502.06772.pdf)

1. 각 섹션의 요약 및 주요 기여 부분:

- **서론**
- 대형 언어 모델(LLM)은 복잡한 추론 과제를 해결하고 특정 영역에서 인간 전문가를 능가하는 뛰어난 능력을 보여줍니다. 최근 연구는 이러한 모델의 추론 능력을 강화하여 복잡한 문제를 해결하는 데 중점을 두고 있습니다.

- **관련 작업 및 논의**
- 기존의 방법론들은 LLM을 인간의 기대와 인식에 맞추기 위해 선호 학습을 사용합니다.이 접근 방식들은 일반적으로 보상 모델을 활용하여 학습된 보상을 최대화하도록 최적화됩니다. 하지만 기존의 방법들은 인스턴스나 단계 수준 보상 단위에 의존하여, 복잡한 문제에서 더 높은 수준의 인지 과정을 포착하지 못하는 경우가 많습니다.

- **ReasonFlux 소개**
- ReasonFlux는 계층적 LLM 추론 프레임워크로서, 복잡한 추론 작업에서 기존의 최첨단 모델을 능가합니다. 이 프레임워크는 효율적 검색과 적응을 가능하게 하며 수학적 문제를 효과적으로 해결합니다.
- ReasonFlux는 500개의 고도화된 사고 템플릿을 포함하는 구조화된 템플릿 라이브러리를 제안하여, 다양한 문제에 일반화할 수 있습니다.

- **계층적 강화 학습**
- ReasonFlux는 각 문제를 단순화된 하위 문제로 분해하고, 최적의 사고 템플릿 경로를 생성하는 계층적 강화 학습을 통해 LLM이 최적화되도록 합니다.

- **추론 스케일링 시스템**
- ReasonFlux는 추론 시 고수준의 템플릿을 동적으로 검색하여 적재적추론을 수행함으로써, 더욱 견고하고 효율적인 문제 해결 과정을 제공합니다.

2. 논문의 전체 요약:

이 논문은 복잡한 문제에 대해 대형 언어 모델(LLM)의 추론 능력을 강화하는 새로운 강력한 방식인 ReasonFlux를 제안합니다. 이 시스템은 구조화된 사고 템플릿을 토대로 한 계층적 강화 학습을 통해, 고난도 수학 문제에서 기존의 최첨단 모델보다 우수한 성능을 발휘합니다. 이는 다양한 문제에 일반화 가능한 템플릿을 적응적으로 활용하여, 복잡한 추론을 더욱 효율적이며 견고하게 수행할 수 있는 혁신적인 추론 프레임워크를 제공합니다.
24 changes: 24 additions & 0 deletions summaries/2502.06773.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.06773.pdf](https://arxiv.org/pdf/2502.06773.pdf)

### 논문 요약

1. **소개 및 문제 정의**
- 최근의 AI 발전은 대규모 언어 모델(LLM)을 대규모 추론 모델(LRM)로 변모시키고 있습니다. 이는 LRM이 추론 시 더 많은 시간과 계산을 수행하여 고품질의 출력을 생성하기 때문입니다. 본 연구는 LLM의 추론 및 사고 과정을 훈련시키기 위한 알고리즘적 프레임워크를 모색하는 것을 목적으로 합니다.

2. **RLSP 프레임워크 소개**
- 연구진은 LLM에 사고하는 능력을 부여하기 위해 자기 대전을 통한 강화학습(RLSP)이라는 사후 훈련 프레임워크를 제안합니다. RLSP는 세 가지 단계로 구성됩니다:
1) 인간 또는 합성된 추론 과정 시연 시 고도의 지도 기반 미세 조정(SFT),
2) 다양한 탐색 행위를 권장하는 탐색 보상 신호 사용,
3) 보상 해킹을 방지하면서 해의 정확성을 보장하는 결과 검증기를 활용한 RL 훈련.

3. **실험결과 및 기여**
- RLSP 프레임워크는 간단한 탐색 보상만으로도 백트래킹, 아이디어 탐색, 검증 등 다양한 발현적 행동을 보였습니다. 이 프레임워크는 여러 모델 계열, 크기, 도메인 전반에 걸쳐 발현적 행동을 가능하게 했습니다.

4. **결론 및 미래 연구 방향**
- RLSP는 LLM의 복잡한 추론 능력 발달에 중요한 역할을 할 가능성이 있습니다. 향후 더 큰 규모의 실험과 분석이 필요하며, 이는 모델이 보다 고차원적인 추론 능력, 예를 들어 추상화 및 이론 생성, 해결되지 않은 문제 해결 등을 달성하는 데 필요한 훈련 레시피를 찾는 데에 집중할 것입니다.

### 종합 요약
이 논문은 LLM이 더 높은 품질의 출력을 생성하도록 추론이나 사고 능력을 갖추기 위한 RLSP라는 새로운 프레임워크를 제안합니다. RLSP는 LLM이 다양한 도메인에서 더 복잡한 추론 능력을 발휘할 수 있게 하며, 특히 백트래킹이나 아이디어 탐색, 자기 검증 등 인간적 사고 과정과 유사한 행동을 가능하게 합니다. 이 연구는 모델 훈련에 대한 새로운 접근 방식을 제시하며, LLM이 더욱 발전된 사고 능력을 가질 수 있는 길을 열고 있습니다.

0 comments on commit 51c12ad

Please sign in to comment.