Add papers

emphasis10 · Mar 1, 2025 · 2d2e590 · 2d2e590
1 parent 70066b5
commit 2d2e590
Show file tree

Hide file tree

Showing 11 changed files with 230 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,9 +1,12 @@
 # Paper List
 ## 2502
+#### [Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs](summaries/2502.19411.md)
+#### [General Reasoning Requires Learning to Reason from the Get-go](summaries/2502.19402.md)
 #### [SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution](summaries/2502.18449.md)
 #### [OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference](summaries/2502.18411.md)
 #### [ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation](summaries/2502.18364.md)
 #### [WebGames: Challenging General-Purpose Web-Browsing AI Agents](summaries/2502.18356.md)
+#### [LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers](summaries/2502.18139.md)
 #### [SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference](summaries/2502.18137.md)
 #### [GCC: Generative Color Constancy via Diffusing a Color Checker](summaries/2502.17435.md)
 #### [X-Dancer: Expressive Music to Human Dance Video Generation](summaries/2502.17414.md)
@@ -12,7 +15,10 @@
 #### [Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective](summaries/2502.17262.md)
 #### [VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing](summaries/2502.17258.md)
 #### [MegaLoc: One Retrieval to Place Them All](summaries/2502.17237.md)
+#### [IGDA: Interactive Graph Discovery through Large Language Model Agents](summaries/2502.17189.md)
 #### [DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks](summaries/2502.17157.md)
+#### [CodeSwift: Accelerating LLM Inference for Efficient Code Generation](summaries/2502.17139.md)
+#### [Applications of Large Models in Medicine](summaries/2502.17132.md)
 #### [Thus Spake Long-Context Large Language Model](summaries/2502.17129.md)
 #### [Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration](summaries/2502.17110.md)
 #### [Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam](summaries/2502.17055.md)
@@ -34,7 +40,9 @@
 #### [Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models](summaries/2502.15499.md)
 #### [TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning](summaries/2502.15425.md)
 #### [Evaluating Multimodal Generative AI with Korean Educational Standards](summaries/2502.15422.md)
+#### [Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs](summaries/2502.15224.md)
 #### [M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment](summaries/2502.15167.md)
+#### [Investigating the Adaptive Robustness with Knowledge Conflicts in LLM-based Multi-Agent Systems](summaries/2502.15153.md)
 #### [MONSTER: Monash Scalable Time Series Evaluation Repository](summaries/2502.15122.md)
 #### [Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models](summaries/2502.15086.md)
 #### [UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning](summaries/2502.15082.md)
@@ -112,6 +120,7 @@
 #### [The snake in the Brownian sphere](summaries/2502.13074.md)
 #### [Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity](summaries/2502.13063.md)
 #### [Eager Updates For Overlapped Communication and Computation in DiLoCo](summaries/2502.12996.md)
+#### [Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing](summaries/2502.12962.md)
 #### [Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options](summaries/2502.12929.md)
 #### [Soundwave: Less is More for Speech-Text Alignment in LLMs](summaries/2502.12900.md)
 #### [PAFT: Prompt-Agnostic Fine-Tuning](summaries/2502.12859.md)
@@ -3783,6 +3792,7 @@
 ## 2207
 #### [Confident Adaptive Language Modeling](summaries/2207.07061.md)
 ## 2206
+#### [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models](summaries/2206.04615.md)
 #### [ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers](summaries/2206.01861.md)
 #### [NIPQ: Noise proxy-based Integrated Pseudo-Quantization](summaries/2206.00820.md)
 ## 2205

diff --git a/summaries/2206.04615.md b/summaries/2206.04615.md
@@ -0,0 +1,22 @@
+# Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2206.04615.pdf](https://arxiv.org/pdf/2206.04615.pdf)
+
+I'm now ready to provide the summaries in Korean based on the paper's contents.
+
+1. 각 섹션의 요약:
+
+- **소개 (Introduction):** 이 연구는 대형 언어 모델(Big Language Models, 이하 BLM)이 학습 데이터 확장에 따라 예상대로 성능이 향상된다는 것에 중점을 둡니다. 그러나 단순히 규모를 늘리는 것만으로는 충분하지 않으며, 교육 방법과 새로운 기술적 개선이 필요하다는 점이 강조됩니다.
+
+- **BIG-bench의 내용 (What is in BIG-bench?):** BIG-bench는 다양한 언어 작업을 포함하여 BLM의 성능을 평가할 수 있는 벤치마크입니다. 이 벤치마크는 새로운 과제를 지속적으로 수용하며, 이는 BLM의 개발을 촉진하는 역할을 합니다.
+
+- **모델의 행동 분석 (Behavior of language models and human raters on BIG-bench):** BLM의 성능은 모델의 크기를 늘릴수록 향상되지만, 인적 평가와 비교하면 떨어집니다. 사회적 편향과 같은 문제점도 여전히 남아있습니다.
+
+- **선택된 작업 성과 (Behavior on selected tasks):** 체스나 화학 원소 등 특정 과제에서 모델의 성능은 향상되는 것으로 나타났습니다. 이는 BLM이 더 복잡한 규칙을 학습할 수 있음을 시사합니다.
+
+- **논의 (Discussion):** BLM은 비영어권 언어 작업에서 성능이 저조하며, 이는 데이터 세트와 교육 방식의 부족에 기인합니다. BIG-bench는 계속해서 검토할 과제를 추가하여 BLM의 향후 발전에 기여하고자 합니다.
+
+2. 전체 요약:
+
+본 논문은 대형 언어 모델의 성능을 측정하고 그 한계를 탐구하는 데 중점을 둡니다. BIG-bench라는 포괄적인 벤치마크를 통해 다양한 언어 작업에서 모델의 행동을 평가합니다. BLM은 규칙적이고 예상 가능한 성능 향상을 보이지만, 사람의 판단과 사회적 편향 문제 등에서는 여전히 한계를 드러냅니다. 비영어권 언어 작업에서는 특히 성능이 떨어지며, 이러한 문제를 해결하기 위해서는 단순한 모델 확대 외에도 새로운 학습 및 평가 방법의 도입이 필요합니다. The BIG-bench serves as a dynamic tool to continuously contribute to the field by including new tasks and encouraging diverse community involvement.
diff --git a/summaries/2502.12962.md b/summaries/2502.12962.md
@@ -0,0 +1,25 @@
+# Infinite Retrieval: Attention Enhanced LLMs in Long-Context Processing
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.12962.pdf](https://arxiv.org/pdf/2502.12962.pdf)
+
+1. **섹션별 요약**
+
+   **소개 (Introduction)**
+   - 이 논문은 대형 언어 모델(LLM)의 긴 문맥 처리능력을 향상시키는 방법에 초점을 맞춥니다. LLM이 긴 텍스트를 처리하는 데 있어 문맥 창 크기의 한계와 비효율적인 키-값(KV) 캐시 방법론을 극복하기 위해 주의를 분배하는 방식을 활용하는 새로운 방법 'InfiniRetri'를 제안합니다.
+
+   **기존 연구 분석 (Related Works)**
+   - LLM의 긴 문맥 처리 능력을 높이기 위해 문맥 창 크기 확대가 주요한 방법이었으나, 이는 큰 비용 문제를 초래했습니다. 새로운 방법론이 필요하다는 의견이 대두되었습니다.
+
+   **InfiniRetri 방법론**
+   - InfiniRetri는 LLM의 내재된 주의 분배 능력을 활용하여 추가 훈련 없이도 긴 문맥을 처리할 수 있습니다. 외부 임베딩 모델에 의존하지 않으며, 모델 자체의 주의 정보를 사용함으로써 성능을 향상시킵니다.
+
+   **실험 결과 (Experiments)**
+   - InfiniRetri는 니들 인 어 헤이택(Needle In a Haystack) 문제에서 100% 정확도를 기록하며, 다른 기법들보다 우수한 성능을 보였습니다. 이는 무한한 길이의 토큰을 효과적으로 처리할 수 있음을 보여줍니다.
+
+   **결론 (Conclusion)**
+   - InfiniRetri는 훈련 없이 장문의 문맥을 효과적으로 처리할 수 있는 방법론을 제시하며, LLM의 긴 텍스트 처리 능력의 미래 연구에 박차를 가할 것입니다.
+
+2. **전체 요약**
+
+   이 논문에서는 긴 문맥을 효과적으로 처리하기 위해 대형 언어 모델의 내재된 능력을 활용하는 InfiniRetri 방법론을 제안합니다. 이 방법론은 훈련 없이도 장문의 텍스트를 정확하게 검색할 수 있으며, 기존 KV 캐시 기법들보다 효율적입니다. 실험 결과, InfiniRetri는 긴 텍스트 처리 문제를 효과적으로 해결하며, 이는 향후 LLM 연구에 중요한 기여를 할 것입니다.
diff --git a/summaries/2502.15153.md b/summaries/2502.15153.md
@@ -0,0 +1,30 @@
+# Investigating the Adaptive Robustness with Knowledge Conflicts in LLM-based Multi-Agent Systems
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.15153.pdf](https://arxiv.org/pdf/2502.15153.pdf)
+
+I'm currently processing the paper to provide you with detailed summaries of each section and the main contributions, as well as an overall summary. This might take some time. I'll update you with the detailed information in Korean shortly. 각 섹션에 대한 요약은 다음과 같습니다:
+
+1. **서론**
+   이 논문은 대형 언어 모델(LLM)의 진화를 다루며, 이들이 인간의 언어 생성기를 넘어 외부 도구와 상호 작용할 수 있는 지능형 에이전트로 발전했음을 설명합니다. 특히 다중 에이전트 시스템(MAS)이 복잡한 문제 해결 능력을 갖출 수 있도록 다양한 분야의 전문 지식을 결합하면서 협력적인 결정을 내릴 수 있는 가능성을 탐구합니다.
+
+2. **관련 작업**
+   LLM 기반의 MAS는 다양한 전문성과 관점을 바탕으로 복잡한 문제를 해결하는 강력한 패러다임으로 등장했습니다. 본 논문은 지식 충돌이 개별 편향을 완화하고 문제 해결을 위한 더 포괄적인 탐색을 가능하게 한다고 강조합니다.
+
+3. **MAS에서 지식 충돌의 역할 조사**
+   MAS의 협력 기반은 다양한 지식 관점을 결합하여 새로운 해결책을 도출하는 데 있습니다. 지식 충돌이 발생할 경우 협력의 장점을 강화할 수 있으며 이로 인해 다각적인 의사 결정 과정이 촉진됩니다.
+
+4. **실험 설정 및 메트릭**
+   본 연구는 LLM 기반의 MAS의 의사 결정 로버스트니스를 연구하기 위해 다중 에이전트 협력 프로그래밍 시나리오를 구축합니다. 성능 평가는 여러 에이전트가 코딩 작업을 수행한 결과를 다각도로 측정합니다.
+
+5. **실험 결과**
+   다양한 시나리오에서 MAS의 성능을 측정한 결과, 지식 편집을 통한 작업-중요 지식 충돌은 일부 시스템의 전반적인 로버스트니스에 크게 영향을 미치지 않았습니 다. 오히려 일부 경우 성능이 약간 향상되는 결과도 관찰되었습니다.
+
+6. **결론**
+   설사 중대한 지식 충돌이 발생하더라도 MAS는 뛰어난 회복력을 보이며 성능 저하가 최소화됩니다. 더 나아가 지식 충돌을 도입함으로써 에이전트 간의 브레인스토밍을 유도하고 의사 결정 과정을 개선할 수 있습니다.
+
+**주요 기여와 혁신**
+이 논문의 혁신적인 기여는 지식 충돌이 MAS의 협력적이고 창의적인 의사 결정에 미치는 영향을 분석한 점입니다. 다수의 에이전트가 참여하는 복잡한 문제 해결 시나리오에서 지식의 불일치가 시스템 성능을 높이는 데 기여할 수 있음을 입증했습니다.
+
+**전반적인 요약**
+이 논문은 다중 에이전트 시스템(MAS)에서 지식 충돌이 의사 결정 프로세스에 미치는 영향을 체계적으로 분석하고 실험을 통해 그 효과를 확인했습니다. 지식 충돌은 부정적인 영향을 미칠 수도 있지만, 오히려 에이전트 간의 새로운 브레인스토밍 기회를 제공하여 협력적 의사 결정 능력을 향상할 수 있다는 점에서 긍정적인 측면을 가지고 있습니다.
diff --git a/summaries/2502.15224.md b/summaries/2502.15224.md
@@ -0,0 +1,24 @@
+# Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.15224.pdf](https://arxiv.org/pdf/2502.15224.pdf)
+
+1. 각 섹션의 주요 내용 요약:
+
+- **서론 및 배경**:
+  이 논문은 대형 언어 모델(LLM)이 과학적 발견을 어떻게 하는지 분석합니다. 현재의 LLM은 자연어 처리에서 뛰어난 성능을 보이고 있지만, 차세대 LLM은 과학 연구와 발견을 수행할 수 있는 능력을 갖출 필요가 있습니다.
+
+- **주요 기여 및 혁신**:
+  이 논문은 LLM의 과학적 연구 능력을 평가하기 위한 새로운 벤치마크를 제시합니다. 특히, 인과 그래프 발견을 통해 LLM이 숨겨진 구조를 밝혀내는 능력을 테스트합니다. 실험을 통해 LLM의 성능이 문제의 복잡성에 따라 감소한다는 것을 확인했습니다. 또한 체인 오브 소트(Chain-of-Thought) 프롬팅의 효과를 조사하여 미래의 LLM 개발에 대한 인사이트를 제공합니다.
+
+- **관련 연구**:
+  기존의 벤치마크는 LLM의 추론 능력을 평가하지만, 과학적 발견의 잠재성을 충분히 포착하지 못합니다. 이 연구는 LLM이 결정을 내리는 과정에서 학습한 정보를 통합하는 능력을 중점적으로 평가합니다.
+
+- **방법론**:
+  연구팀은 화학 및 사회 네트워크라는 두 가지 벤치마크를 도입했습니다. 이 벤치마크들은 인과 그래프의 구조 발견을 바탕으로 LLM의 의사결정 능력을 평가합니다. LLM은 오라클과의 지속적인 상호작용을 통해 학습을 개선하고, 실험을 통해 새로운 인사이트를 얻습니다.
+
+- **실험 및 결과 분석**:
+  LLM은 화학 및 사회 네트워크 환경에서 인과 관계를 이해하고 추론할 수 있는 능력이 제한적임이 드러났습니다. 특히, 복잡한 사회 네트워크에서 LLM의 성능은 크게 감소했으며, 오라클과의 상호작용을 통해 데이터를 수집하는 것이 중요하다는 점을 발견했습니다.
+
+2. 종합 요약:
+이 논문은 LLM의 과학적 발견 능력을 평가하기 위한 새로운 벤치마크인 Auto-Bench를 소개하며, LLM이 복잡한 인과 관계를 이해하고 적절한 결정을 내릴 수 있는지를 테스트합니다. 실험 결과를 통해 LLM은 현재 성능 면에서 인간 지능과 차이가 있으며, 특히 복잡한 문제에서 성능이 감소한다는 점이 밝혀졌습니다. 이 연구는 LLM의 미래 개발 방향성에 중요한 인사이트를 제공하며, LLM의 학습 및 추론 능력을 향상시키기 위한 추가 연구가 필요함을 시사합니다.
diff --git a/summaries/2502.17132.md b/summaries/2502.17132.md
@@ -0,0 +1,6 @@
+# Applications of Large Models in Medicine
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.17132.pdf](https://arxiv.org/pdf/2502.17132.pdf)
+
+I'm sorry, but I'm unable to complete your request, as it involves reading and analyzing the entire PDF document, which exceeds the capabilities I can provide in this setting. However, you can use the extracted pieces of text from the file to manually review and create summaries or key points for a presentation. If you have specific sections or questions about the document, feel free to ask, and I can help extract and interpret specific information for you.
diff --git a/summaries/2502.17139.md b/summaries/2502.17139.md
@@ -0,0 +1,25 @@
+# CodeSwift: Accelerating LLM Inference for Efficient Code Generation
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2502.17139.pdf](https://arxiv.org/pdf/2502.17139.pdf)
+
+1. **섹션별 요약**
+
+- **서론**
+  이 논문은 대형 언어 모델(LLM)을 사용한 코드 생성 속도를 높이기 위해 제안된 CODESWIFT라는 새로운 접근 방법을 소개합니다. 기존의 접근법에서는 코드의 고유한 문법과 의미론적 특성을 간과하고 있으며, 코드 생성 시 모델의 추론 시간을 크게 단축시키는 데 한계가 있습니다.
+
+- **관련 연구**
+  기존 연구에서는 오토레그레시브 디코딩 방식으로 인해 코드 생성 작업이 느리고 비용이 많이 든다고 지적하였습니다. 이를 개선하기 위해 제안된 다양한 방법들은 대체로 코드의 고유 특성을 반영하지 못합니다.
+
+- **CODESWIFT 방법론**
+  CODESWIFT는 다중 소스 데이터 저장소와 LLM 선호를 고려한 캐싱을 활용하여 추론 효율성을 높입니다. 이를 통해 생성된 초안을 검증하는 동안 발생하는 불필요한 작업을 줄이며, 실험 결과 Repository-level, Standalone 코드 생성 작업 모두에서 뛰어난 속도 개선을 보였습니다.
+
+- **실험 결과**
+  CODESWIFT는 기존 최첨단 접근 방법에 비해 최대 88% 뛰어난 성능을 보였습니다. Repository-level과 Standalone 코드 생성 작업 모두에서 2배 이상의 안정적인 속도 향상을 유지하였습니다.
+
+- **결론 및 한계**
+  CODESWIFT는 코드 생성 속도를 효율적으로 개선하는 반면, 파이썬 언어에만 실험적 결과가 제한되어 있으며, 다양한 프로그램 언어로 확장이 가능하지만 추가적인 검증이 필요합니다. 또한 CODESWIFT의 구현은 오픈소스 데이터셋과 모델을 기반으로 하므로 훈련이 필요 없으며, 생성 결과에 영향을 미치지 않습니다.
+
+2. **전체 요약**
+
+이 논문에서는 CODESWIFT라는 혁신적인 접근법을 제안하여 대형 언어 모델의 코드 생성 추론 속도를 크게 개선하였습니다. 다중 소스 데이터 저장소와 지능적인 캐싱 전략을 통해 기존 방법보다 높은 성능을 달성하였으며, 실험적으로 코드 생성 작업에서 뛰어난 속도 및 품질 향상을 입증했습니다. 이 접근법은 특히 저자들이 강조하는 바와 같이, 다양한 프로그래밍 언어로의 확장이 가능하다는 점에서 주목할 만합니다.