Add papers

emphasis10 · Feb 18, 2025 · 9eb496e · 9eb496e
1 parent 5c067d5
commit 9eb496e
Show file tree

Hide file tree

Showing 28 changed files with 621 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,7 +1,30 @@
 # Paper List
 ## 2502
+#### [Learning Getting-Up Policies for Real-World Humanoid Robots](summaries/2502.12152.md)
+#### [HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation](summaries/2502.12148.md)
+#### [Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening](summaries/2502.12146.md)
+#### [MagicArticulate: Make Your 3D Models Articulation-Ready](summaries/2502.12135.md)
+#### [SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?](summaries/2502.12115.md)
+#### [PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning](summaries/2502.12054.md)
 #### [Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity](summaries/2502.11901.md)
+#### [Intuitive physics understanding emerges from self-supervised pretraining on natural videos](summaries/2502.11831.md)
+#### [video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model](summaries/2502.11775.md)
+#### [Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance](summaries/2502.11578.md)
+#### [Large Language Models and Mathematical Reasoning Failures](summaries/2502.11574.md)
+#### [SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL](summaries/2502.11438.md)
+#### [System Message Generation for User Preferences using Open-Source Models](summaries/2502.11330.md)
 #### [Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest](summaries/2502.11275.md)
+#### [How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training](summaries/2502.11196.md)
+#### [ReLearn: Unlearning via Learning for Large Language Models](summaries/2502.11190.md)
+#### [The Mirage of Model Editing: Revisiting Evaluation in the Wild](summaries/2502.11177.md)
+#### [SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors](summaries/2502.11167.md)
+#### [Dyve: Thinking Fast and Slow for Dynamic Process Verification](summaries/2502.11157.md)
+#### [Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems](summaries/2502.11098.md)
+#### [Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention](summaries/2502.11089.md)
+#### [Towards Data-Efficient Pretraining for Atomic Property Prediction](summaries/2502.11085.md)
+#### [Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning](summaries/2502.10550.md)
+#### [I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models](summaries/2502.10458.md)
+#### [One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs](summaries/2502.10454.md)
 #### [Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding](summaries/2502.10392.md)
 #### [MM-RLHF: The Next Step Forward in Multimodal LLM Alignment](summaries/2502.10391.md)
 #### [Region-Adaptive Sampling for Diffusion Transformers](summaries/2502.10389.md)
@@ -29,11 +52,14 @@
 #### [ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation](summaries/2502.09411.md)
 #### [SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models](summaries/2502.09390.md)
 #### [Logical Reasoning in Large Language Models: A Survey](summaries/2502.09100.md)
+#### [Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking](summaries/2502.09083.md)
 #### [CoSER: Coordinating LLM-Based Persona Simulation of Established Roles](summaries/2502.09082.md)
+#### [CRANE: Reasoning with constrained LLM generation](summaries/2502.09061.md)
 #### [An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging](summaries/2502.09056.md)
 #### [Typhoon T1: An Open Thai Reasoning Model](summaries/2502.09042.md)
 #### [The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding](summaries/2502.08946.md)
 #### [InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU](summaries/2502.08910.md)
+#### [Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model](summaries/2502.08820.md)
 #### [Cluster and Predict Latents Patches for Improved Masked Image Modeling](summaries/2502.08769.md)
 #### [Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation](summaries/2502.08690.md)
 #### [Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges](summaries/2502.08680.md)
@@ -42,6 +68,7 @@
 #### [Light-A-Video: Training-free Video Relighting via Progressive Light Fusion](summaries/2502.08590.md)
 #### [LLM Pretraining with Continuous Concepts](summaries/2502.08524.md)
 #### [mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data](summaries/2502.08468.md)
+#### [Better Embeddings with Coupled Adam](summaries/2502.08441.md)
 #### [LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention](summaries/2502.08213.md)
 #### [SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation](summaries/2502.08168.md)
 #### [Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance](summaries/2502.08127.md)

diff --git a/summaries/2502.08441.md b/summaries/2502.08441.md
@@ -0,0 +1,20 @@
+# Better Embeddings with Coupled Adam
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.08441.pdf](https://arxiv.org/pdf/2502.08441.pdf)
+
+1. 섹션 요약:
+
+   - **서론 (Introduction):** 이 논문은 대형 언어 모델(LLM)의 학습에서 발생하는 비등방성 임베딩 문제를 다룹니다. 비등방성은 모델의 표현력과 일반화 가능성을 제한합니다.
+
+   - **비등방성 임베딩의 근본 원인 (On the Root Cause of Anisotropic Embeddings):** 비등방성의 원인은 Adam 최적화 알고리즘이 사용된 결과입니다. 이는 임베딩 벡터의 집단적인 이동을 야기하여 성능을 저하시키는 요인으로 작용합니다.
+
+   - **결합 Adam (Coupled Adam):** 표준 Adam 최적화 알고리즘을 수정한 "결합 Adam"을 제안합니다. 이는 임베딩 벡터에 동일한 학습률을 적용하여 비등방성을 줄이는 데 효과적입니다.
+
+   - **실험 (Experiments):** 결합 Adam의 성능을 평가하기 위해 다양한 크기의 모델과 데이터셋을 사용하여 소규모 및 대규모 실험을 수행했습니다. 그 결과, 대규모 데이터셋에서는 결합 Adam이 더 우수한 성능을 보였습니다.
+
+   - **결론 (Conclusions):** 결합 Adam은 임베딩 특정 메트릭을 개선할 뿐만 아니라 대규모 데이터셋의 상하위 성능까지 향상시켰습니다. 이러한 결과는 LLM 학습에 있어 중요한 시사점을 제공합니다.
+
+2. 전체 요약:
+
+   이 논문은 대형 언어 모델의 임베딩 벡터가 집단적으로 이동하여 비등방성을 보이는 문제를 다루고 있습니다. 이는 Adam 최적화 알고리즘이 원인이라고 지적하며, 결합 Adam이라는 수정된 알고리즘을 제안합니다. 결합 Adam은 임베딩 벡터 간의 균일한 학습률을 적용하여 이러한 문제를 해결하고, 대규모 데이터셋에서 성능을 향상시킵니다. 연구 결과는 결합 Adam이 모델의 표현력과 일반화 가능성을 높이는 데 기여할 수 있음을 보여줍니다.
diff --git a/summaries/2502.08820.md b/summaries/2502.08820.md
@@ -0,0 +1,20 @@
+# Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.08820.pdf](https://arxiv.org/pdf/2502.08820.pdf)
+
+1. 섹션별 요약:
+
+- **서론**: 이 논문은 CALM(Conversational Agentic Language Model)이라는 모델을 소개합니다. 이 모델은 다중 턴 대화와 복잡한 기능 호출을 동시에 처리할 수 있는 단일 대화형 에이전트를 목표로 합니다.
+
+- **관련 연구**: TOD(대화 지향 작업) 시스템과 LLM(대형 언어 모델) 기반 언어 에이전트의 차이점을 설명하고, CALM이 이 둘의 장점을 결합하는 방법을 제안합니다.
+
+- **방법론**: CALM-IT라는 하이브리드 데이터셋을 사용하여 CALM 모델을 학습합니다. 이 데이터셋은 다중 턴 대화와 복잡한 API 사용 시나리오를 포함하고 있으며, CALM은 이 데이터를 통해 대화 기술과 기능 호출 능력을 동시에 갖춘 모델로 진화하게 됩니다.
+
+- **실험 결과**: CALM 모델은 기존의 공개 및 비공개 모델을 능가하는 성능을 입증하였습니다. MultiWOZ 2.4, API-Bank, BFCL V3 등의 벤치마크에서 GPT-4o 보다 우수한 결과를 보였습니다.
+
+- **결론 및 미래 작업**: CALM은 다중 턴 대화 관리와 API 사용이 모두 가능한 단일 모델을 목표로 하며, 향후 연구 방향으로는 강화 학습 및 다중 턴 기능 호출 능력 향상을 꼽습니다.
+
+2. 전체 요약:
+
+이 논문은 CALM(Conversational Agentic Language Model)을 소개하며, 이 모델은 다중 턴 대화와 복잡한 API 호출을 동시에 처리할 수 있는 능력을 지닌 단일 대화형 에이전트의 개발을 목표로 합니다. CALM은 CALM-IT라는 특별한 데이터셋을 사용해 다중 대화 상태 추적과 정확한 API 호출을 통해 복합적인 사용자 요청에 대응할 수 있습니다. 실험 결과, CALM은 다양한 대화 및 기능 호출 벤치마크에서 우수한 성능을 보였으며, 특히 MultiWOZ 2.4와 같은 TOD 벤치마크와 API-Bank, BFCL V3 등의 에이전트 테스트에서 GPT-4o 등 기존 모델을 능가하는 성과를 나타냈습니다. 이러한 성과는 AI 기술의 발전을 위한 중요한 기여로 평가받습니다.
diff --git a/summaries/2502.09061.md b/summaries/2502.09061.md
@@ -0,0 +1,19 @@
+# CRANE: Reasoning with constrained LLM generation
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.09061.pdf](https://arxiv.org/pdf/2502.09061.pdf)
+
+### 1. 섹션별 요약 및 주요 기여와 혁신적 부분 설명
+
+- **소개 (Introduction)**
+  이 논문은 AI 시스템에서 코드 생성 및 수리적 추론, 논리적 연산 등을 수행하는 대형 언어 모델(LLM)의 제한 조건 하에서의 생성 기법을 다룹니다. 과거의 연구들은 엄격한 형태적 제약이 LLM의 추론 능력을 떨어뜨릴 수 있다고 밝혔습니다. 이 논문은 이러한 제약 하에서 LLM의 추론 능력이 떨어지는 이유를 이론적으로 설명하고, 추가적인 규칙을 통해 추론 능력을 유지하면서도 문법적 정확성을 보장하는 방법을 제안합니다.
+
+- **CRANE 알고리즘 및 이론적 기초 (CRANE Algorithm and Theoretical Foundation)**
+  CRANE 알고리즘은 제한된 생성과 자유로운 생성 간의 균형을 맞추며, 이론적인 통찰력을 바탕으로 개발되었습니다. 이는 신중하게 설계된 규칙을 통해 LLM의 추론 능력 손실을 방지하면서도 문법적 정확성을 보장합니다. CRANE은 여러 오픈 소스 LLM 및 벤치마크에서 기존의 타 알고리즘들보다 성능이 뛰어남을 실험적으로 입증하였습니다.
+
+- **기여 및 결론 (Contributions and Conclusion)**
+  이 논문은 제한적 문법의 사용이 LLM의 문제 해결 능력을 저해할 수 있음을 이론적으로 설명하며, LLM의 표현력을 보전할 수 있는 문법을 제안합니다. CRANE은 전통적 제한적 디코딩 전략보다 최대 10% 더 높은 정확도를 기록하여 LLM의 기능적 정확성을 크게 개선합니다. 또한, 제안된 방법이 수리적 추론 벤치마크에서 효과적으로 작용함을 보였습니다.
+
+### 2. 전반적 요약
+
+이 논문은 대형 언어 모델이 엄격한 제약 하에서 생성되는 경우 추론 능력의 저하가 발생한다는 점을 이론적으로 설명하고, 이러한 문제를 해결하기 위해 CRANE이라는 알고리즘을 제안합니다. CRANE은 제한된 생성과 자유로운 생성 간의 최적의 균형을 이루며, 기존 방법들보다 높은 정확도와 문법적 정확성을 제공합니다. 이 논문의 연구는 LLM이 상호작용하는 복잡한 소프트웨어 환경에서 발생하는 시스템 기능 향상에 기여합니다.
diff --git a/summaries/2502.09083.md b/summaries/2502.09083.md
@@ -0,0 +1,20 @@
+# Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.09083.pdf](https://arxiv.org/pdf/2502.09083.pdf)
+
+1. 각 섹션의 요약 및 논문의 주요 기여와 혁신적인 부분:
+
+- 도입부: 논문은 최근 온라인 미디어의 대중화와 생성 AI의 발달로 팩트 체킹의 필요성이 대두되고 있다고 설명합니다. 팩트 체킹 조직들은 늘어나는 허위정보를 검증하기 위해 AI 기반 도구 개발이 필요하며, 이러한 도구가 어떻게 팩트 체커의 작업 흐름에 통합될 수 있는지를 조사합니다.
+
+- 연구 방법론: 반구조화된 인터뷰를 통해 팩트체킹 전문가들의 작업 방식, 자동화된 도구 사용 방식, 설명 필요성 등을 파악하였습니다. 주어진 데이터를 통해 팩트체크의 각 단계에서 AI 도구가 어떻게 사용되며, 설명력이 어떻게 요구되는지 분석합니다.
+
+- 자동화된 팩트체킹의 현황: AI 시스템이 인간의 논리와 완전히 일치하지 않음을 지적하며, 이러한 간극을 메우기 위한 인간 중심 접근의 필요성을 강조합니다.
+
+- 설명 가능한 AI의 필요성: 팩트체크의 자동화에서 설명의 중요성에 대해 다루며, 시스템이 결과를 추론한 과정에 대한 설명을 요구하는 팩트체커들의 요구사항을 강조합니다.
+
+- 연구 결과: 자동화된 팩트체킹 시스템이 팩트체커의 작업 과정과 충분히 연결되지 않음을 밝혔고, AI 도구의 설명력이 불충분하다고 판단됩니다. 이에 대응하여, 인간의 맥락에 맞춘 설명력 있는 도구 개발의 필요성을 제안합니다.
+
+2. 전체 요약:
+
+이 논문은 허위정보 문제의 심각성과 이를 해결하기 위한 자동화된 팩트체킹 시스템의 필요성을 강조합니다. 이를 위해 인간 중심의 접근법을 강조하며, AI 시스템이 어떻게 설명력을 갖춰야 팩트체커의 작업방식에 통합될 수 있는지 분석합니다. 팩트체커들이 필요로 하는 설명력의 기준을 조사하고, 현재의 자동화 시스템이 이러한 필요성에 부합하지 못함을 지적하며, 설명 가능한 AI 시스템의 개발 방향을 제안합니다.
diff --git a/summaries/2502.10454.md b/summaries/2502.10454.md
@@ -0,0 +1,24 @@
+# One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.10454.pdf](https://arxiv.org/pdf/2502.10454.pdf)
+
+### 1. 각 섹션의 요약:
+
+#### 소개
+논문은 수학적 대형 언어 모델(LLMs)의 증명 생성 능력 강화를 목표로 합니다. 현재의 LLMs는 학습 중에 관련된 증명 과정을 경험한 경우에만 주장을 증명할 수 있습니다. 이 연구는 LLM이 수학적 추론과 증명을 향상시키기 위해 대항 사례 증명을 사용하도록 고안되었습니다.
+
+#### COUNTERMATH 데이터셋 구축
+COUNTERMATH는 다양한 수학 분야에서의 대항 사례를 포함하여 번역되고 검토된 데이터를 기반으로 구축된 데이터셋입니다. 이 데이터셋은 LLMs가 대항 사례를 제공하여 수학적 명제를 증명하는 능력을 평가하기 위해 설계되었습니다.
+
+#### 실험 및 분석
+COUNTERMATH 데이터셋으로 다양한 수학적 LLMs를 평가한 결과, 현재의 LLMs는 특히 위상수학과 실해석학에서 대항 사례 기반의 추론 능력이 부족함이 드러났습니다. 또한, 대항 사례를 활용한 모델이 다른 모델에 비해 우수한 성능을 보여주었으며, 이는 대항 사례에 기반한 학습이 수학적 추론 학습에 효과적임을 시사합니다.
+
+#### 주요 기여
+본 연구는 대항 사례 기반의 증명 기법을 활용하여 LLMs의 수학적 이해를 강화하는 새로운 패러다임을 제시하였습니다. 실험을 통해 대항 사례 기반 학습 모델이 베이스라인 모델들보다 우수한 성능을 발휘함을 입증했습니다. 이는 대항 사례를 통한 개념 학습이 일반적인 수학적 도메인에서의 개념 추론을 향상시킬 수 있음을 나타냅니다.
+
+#### 결론
+본 연구의 COUNTERMATH 데이터셋은 LLMs에 대한 심층적 개념 추론 능력의 성숙도를 평가하기 위한 도전적인 벤치마크를 제공하며, 미래 연구의 중요한 방향성을 제시합니다.
+
+### 2. 전체 요약:
+이 논문은 수학적 대형 언어 모델의 개념 이해와 증명 능력을 강화하기 위한 새로운 벤치마크인 COUNTERMATH를 도입했습니다. 연구는 대항 사례(proof by counterexamples)를 통해 LLM의 수학적 추론 능력을 평가하고 향상시키는 것을 목표로 합니다. 실험 결과, 대항 사례 기반 학습이 LLMs가 일반적인 수학적 개념을 더 깊이 이해하고 처리 가능하게 만드는 데 효과적임을 보여주었습니다. 이는 LLM 연구 커뮤니티에 중요한 기여를 합니다.
diff --git a/summaries/2502.10458.md b/summaries/2502.10458.md
@@ -0,0 +1,30 @@
+# I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.10458.pdf](https://arxiv.org/pdf/2502.10458.pdf)
+
+### 1. 각 섹션 요약
+
+**서론**  
+이 논문은 'ThinkDiff'라는 새로운 방법론을 제안하여 VLM (비전-언어 모델)의 다중 모드 맥락에서의 추론 능력을 확산 모델에 통합합니다. 기존의 텍스트-이미지 확산 모델이 높은 품질의 이미지를 생성할 수 있지만, 맥락 내 추론 기능이 부족하다는 문제를 지적합니다.
+
+**관련 연구**  
+다양한 접근법과 모델을 비교하면서, ThinkDiff가 기존의 방식과는 달리 비전-언어 훈련을 통해 다중 모드 추론을 개선함으로써 차별화된다는 점을 강조합니다.
+
+**방법론**  
+ThinkDiff는 비전-언어 모델(VLM)에서 확산 디코더로 추론 기능을 전송하기 위한 '매개 과제'를 도입했으며, 이 매개 과제는 VLM과 대형 언어 모델(LLM) 디코더를 정렬하여 다중 모드 추론을 가능하게 합니다.
+
+**실험 결과**  
+ThinkDiff-LVLM은 CoBSAT 벤치마크에서 다른 기존 방법을 능가하며, 10개의 다중 모드 맥락 추론 생성 과제 중 9개에서 최고 성능을 기록했습니다.
+
+**결론**  
+ThinkDiff는 다중 모드 맥락에서의 추론을 확산 모델에 통합하는 데 탁월한 성능을 보였으며, 향후 오디오 및 비디오와 같은 새로운 모드로의 확장이 기대됩니다.
+
+**영향 및 전망**  
+ThinkDiff가 텍스트-이미지 확산 모델을 발전시키며, 교육, 디자인 등 다양한 분야에서의 응용 가능성을 가지고 있음을 강조합니다. 그러나 오용될 가능성도 있어 이를 예방하기 위한 책임감 있는 배포와 강력한 안전장치의 필요성을 언급합니다.
+
+---
+
+### 2. 전체 요약
+
+이 논문에서는 'ThinkDiff'라는 새로운 정렬 방법론을 통해 비전-언어 모델(VLM)의 다중 모드 맥락 추론 능력을 확산 모델에 통합하는 방법을 제안합니다. ThinkDiff는 VLM과 대형 언어 모델(LLM) 디코더를 정렬하여, 기존의 확산 모델이 가지지 못했던 고급 다중 모드 추론 기능을 실현합니다. 실험 결과, ThinkDiff는 CoBSAT 벤치마크에서 기존 방법을 크게 능가하였으며, 향후 오디오 및 비디오와 같은 다른 모드로의 확장 가능성을 보이고 있습니다. 다만, 모델의 오용 가능성을 경계하며, 이를 예방할 수 있는 안전장치의 필요성 역시 강조됩니다.