Add papers

emphasis10 · Jun 26, 2024 · ef33f37 · ef33f37
1 parent 0fc0777
commit ef33f37
Show file tree

Hide file tree

Showing 4 changed files with 96 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -10,11 +10,13 @@
 #### [Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers](summaries/2406.16747.md)
 #### [AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models](summaries/2406.16714.md)
 #### [Scaling Laws for Linear Complexity Language Models](summaries/2406.16690.md)
+#### [Repulsive Score Distillation for Diverse Sampling of Diffusion Models](summaries/2406.16683.md)
 #### [VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models](summaries/2406.16338.md)
 #### [Video-Infinity: Distributed Long Video Generation](summaries/2406.16260.md)
 #### [Confidence Regulation Neurons in Language Models](summaries/2406.16254.md)
 #### [Preference Tuning For Toxicity Mitigation Generalizes Across Languages](summaries/2406.16235.md)
 #### [Evaluating D-MERIT of Partial-annotation on Information Retrieval](summaries/2406.16048.md)
+#### [Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization](summaries/2406.16008.md)
 #### [Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs](summaries/2406.15927.md)
 #### [BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions](summaries/2406.15877.md)
 #### [Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models](summaries/2406.15718.md)
@@ -51,6 +53,7 @@
 #### [PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents](summaries/2406.13923.md)
 #### [StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images](summaries/2406.13735.md)
 #### [Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation](summaries/2406.13663.md)
+#### [Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations](summaries/2406.13632.md)
 #### [Improving Visual Commonsense in Language Models via Multiple Image Generation](summaries/2406.13621.md)
 #### [Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models](summaries/2406.13542.md)
 #### [4K4DGen: Panoramic 4D Generation at 4K Resolution](summaries/2406.13527.md)

diff --git a/summaries/2406.13632.md b/summaries/2406.13632.md
@@ -0,0 +1,33 @@
+# Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.13632.pdf](https://arxiv.org/pdf/2406.13632.pdf)
+
+### 요약 및 분석
+
+#### 1. 각 섹션의 요약
+
+**1. 서론**
+- **내용 요약:** 긴 컨텍스트가 포함된 질문 응답(QA) 작업에서 대형 언어 모델(LLM)이 직면하는 어려움에 대해 논의하고, 이 문제를 완화하기 위한 새로운 접근 방식인 `DOUBLEDIPPER`방법을 제시합니다. 이 방법은 컨텍스트 재활용을 통해 자동으로 생성된 몇 개의 샘플 예를 활용하여, 모델이 긴 텍스트에서 실제로 필요한 정보를 식별하도록 돕습니다.
+
+**2. 배경 지식**
+- **내용 요약:** 긴 컨텍스트에서 LLM의 성능 저하 문제와 몇 가지 기존 해결법들을 설명합니다. 예를 들어, 구조적 변경을 통해 긴 입력을 처리하거나, 훈련 데이터에 장문의 입력을 추가하는 방법이 있습니다. 그러나, `DOUBLEDIPPER`는 이러한 변경 없이 성능을 개선하는 새로운 접근 방식입니다.
+
+**3. 방법론 (DOUBLEDIPPER)**
+- **내용 요약:** DOUBLEDIPPER는 입력 컨텍스트에서 직접 몇 개의 QA 샘플을 생성하고, 이를 통해 모델이 정확한 답을 찾을 수 있도록 돕습니다. 이 방법은 특정 단락을 식별하는 작업을 추가하여 모델의 이해력을 높이고, 이는 효율성 면에서도 기존 방법보다 우수합니다.
+
+**4. 실험**
+- **내용 요약:** 다양한 LLM (예: Gemini, Gemma, Llama, Mistral)에 DOUBLEDIPPER 방법을 적용해 실험을 진행하였으며, 모든 모델에서 성능이 향상되었습니다. 특히 답변이 중간이나 여러 단락에 걸쳐 있는 경우에도 성과가 좋았습니다.
+
+**5. 결과**
+- **내용 요약:** 도출된 결과는 모든 실험에서 DOUBLEDIPPER가 기존의 In-Context Learning(ICL)보다 우수한 성능을 보이며, 입력 컨텍스트 내에서 관련 정보를 보다 신속하고 정확하게 식별하게 됩니다.
+
+**6. 논의**
+- **내용 요약:** DOUBLEDIPPER의 효율성과 성능 향상 이유를 논의하면서, 몇 가지 제한사항도 언급합니다. 예를 들면, 질문-답변 쌍을 생성하는 시간이 늘어날 수 있으며, 다양한 언어와 토큰 범위로 확장할 필요가 있습니다. 또한, 모델 성능을 더 높이기 위해 최적의 단락 선택 방법을 탐구할 필요가 있습니다.
+
+**7. 결론**
+- **내용 요약:** DOUBLEDIPPER는 긴 컨텍스트 QA 작업에서 LLM 성능을 크게 향상시키며, 모든 QA 설정에서 전통적인 ICL보다 우수한 성과를 보였습니다. 향후 연구에서는 더욱 작고 특화된 모델을 사용해 이러한 접근 방식을 최적화할 수 있습니다.
+
+#### 2. 전체 요약
+
+이 논문은 대형 언어 모델(LLM)이 긴 컨텍스트 내에서의 질문 응답(QA) 작업에서 겪는 주요 문제를 해결하기 위해, DOUBLEDIPPER라는 혁신적인 방법을 제시합니다. DOUBLEDIPPER는 입력 컨텍스트를 재활용하여 QA 샘플을 생성하고, 모델이 관련 정보를 명확히 식별하도록 함으로써 성능을 향상시킵니다. 실험 결과, DOUBLEDIPPER는 모든 테스트된 모델에서 전통적인 In-Context Learning(ICL)보다 훨씬 높은 성과를 보였고, 특히 답변이 텍스트 중간이나 여러 단락에 걸쳐 있을 때 성과가 두드러졌습니다. 이 방법은 모델의 효율성을 높여줌과 동시에, 사람이 평가하기도 용이하게 만듭니다. 이 연구는 미래의 연구와 개발에 중요한 기초를 제공하며, 장문의 텍스트를 효과적으로 처리하는 데 크게 기여할 것으로 기대됩니다.
diff --git a/summaries/2406.16008.md b/summaries/2406.16008.md
@@ -0,0 +1,29 @@
+# Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.16008.pdf](https://arxiv.org/pdf/2406.16008.pdf)
+
+### 1. 각 섹션 요약
+
+#### 서론 (Introduction)
+이 논문은 대형 언어 모델(LLMs)이 긴 입력 컨텍스트에서 중간에 위치한 중요한 정보를 적절히 강조하지 못하는 문제를 다루고 있습니다. 이를 해결하기 위해 LLM의 고유한 주의 편중(attention bias)이 이 문제와 어떻게 연결되는지 설명하고, 이를 교정하기 위한 메커니즘(finding-in-the-middle)을 제안합니다.
+
+#### 문헌 검토 (Literature Review)
+연구자들은 기존의 연구들에서 LLM이 입력의 시작과 끝 부분에 더 높은 주의를 기울이는 U자형 주의 편중을 보인다는 것을 밝혔습니다. 이는 위치 편중이 모델의 컨텍스트 이용에 영향을 미친다는 것을 시사합니다. 기존의 RAG (Retrieval-Augmented Generation) 기법들이 이 문제를 어떻게 다루려는지 등에 대해서도 논의합니다.
+
+#### 방법론 (Methodology)
+연구진은 위치 편중을 교정하는 'found-in-the-middle' 메커니즘을 제안합니다. 구체적으로, 상대적인 입력 위치에 따른 주의 변화를 측정하여 이것이 성능에 미치는 영향을 분석한 후, 교정된 주의값을 이용하여 모델이 실제로 중요한 문서를 더 잘 찾을 수 있도록 합니다.
+
+#### 실험 (Experiments)
+실험에서는 주로 두 가지 데이터 셋인 NaturalQuestion과 SynthWiki에서 Vicuna와 Tulu 모델을 사용하여 교정된 주의 메커니즘의 성능을 평가합니다. 실험 결과, 교정된 주의 메커니즘이 기존의 RAG 기법들과 비교했을 때 더 높은 성능을 보여주었고, 특히 골드 문서가 중간에 위치할 때 성능 향상이 두드러졌습니다.
+
+#### 결과 (Results)
+교정된 주의 메커니즘을 적용하면 중간에 위치한 문서의 중요성을 더 잘 파악할 수 있어서 기존 방법들보다 성능이 향상되었습니다. 특히, 가장 어려운 상황에서도 6-15 포인트의 성능 향상이 관찰되었습니다.
+
+#### 결론 (Conclusion)
+이 연구는 LLM의 위치 편중 문제를 해결하기 위한 중요한 진전을 이루었으며, 이 교정 메커니즘이 다양한 모델과 태스크에서 성능을 향상시킬 수 있음을 보여주었습니다. 이러한 결과는 향후 연구 방향에 중요한 시사점을 제공합니다.
+
+### 2. 전체 요약
+이 논문은 대형 언어 모델(LLMs)이 긴 입력에서 중간 부분의 중요한 정보를 적절히 강조하지 못하는 문제를 다룹니다. 'lost-in-the-middle' 현상의 원인으로 모델의 위치 편중(U자형 주의 분포)을 제시하고, 이를 교정하기 위한 'found-in-the-middle' 메커니즘을 제안합니다. 이 메커니즘은 모델이 실제로 중요한 문서의 정보를 더 잘 파악할 수 있도록 주의를 교정합니다. 실험 결과, 교정된 메커니즘이 기존의 방법보다 뛰어난 성능을 보여, 특히 중간에 위치한 문서에서도 높은 성능을 유지할 수 있음을 확인했습니다.
+
+이 연구는 향후 LLM의 위치 편중 문제를 해결하고 RAG 성능을 향상시키는 데 중요한 기여를 합니다.
diff --git a/summaries/2406.16683.md b/summaries/2406.16683.md
@@ -0,0 +1,31 @@
+# Repulsive Score Distillation for Diverse Sampling of Diffusion Models
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.16683.pdf](https://arxiv.org/pdf/2406.16683.pdf)
+
+### 1. Section Summaries
+
+#### 서론 (Introduction)
+이 논문은 "Repulsive Score Distillation (RSD)"이라는 새로운 기법을 소개합니다. RSD는 다양성을 높이기 위해 입자 상호작용을 통해 KL(Kullback-Leibler) 발산의 그래디언트 흐름을 근사하여 새로운 변량 샘플링 방법을 제안합니다. 이 방법은 텍스트-이미지 생성 및 역문제 해결에서 유효성이 입증되었습니다. 
+
+#### 관련 연구 (Related Works)
+이 논문의 연구는 두 가지 주요 주제와 관련이 있습니다. 첫째, 다양성과 모드 붕괴를 해결하기 위한 점수 증류; 둘째, 역문제를 해결하기 위한 확산 모델입니다. 기존 연구는 모드 붕괴 문제를 해결하기 위해 몇 가지 방법을 제안했지만, 높은 차원에서의 샘플링 문제로 고통받았습니다. 
+
+#### 배경 (Background)
+논문은 KL 발산과 Wasserstein 공간에서의 밀도 사이의 관계를 다루고, 점수 일치를 위한 규제와 반발 규제를 제안합니다. 이것은 다양한 샘플을 얻기 위한 두 가지 규제를 포함한 접근법입니다.
+
+#### 주요 공헌 및 혁신 부분 (Main Contributions and Innovations)
+- "Repulsive Score Distillation (RSD)"이라는 새롭고 변량 샘플링 방법을 제안하여 KL 발산의 그래디언트 흐름을 통한 상호작용 입자 근사를 통해 다양성을 증진시킵니다.
+- RSD는 간단하고 해석 가능한 그래디언트 규제 두 가지를 포함하여 이중 규제 효과를 제공합니다. 하나는 품질을 높이는 잡음제거 규제, 다른 하나는 다양성을 높이는 반발 규제입니다. 이 두 가지 규제를 통해 사용자는 무게를 조절하여 다양성과 품질의 균형을 맞출 수 있습니다.
+- RSD를 역문제에 적용하여 다양한 샘플을 촉진함과 동시에 기존 작업의 한계를 극복할 수 있습니다.
+- RSD의 유효성을 입증하는 실험을 통해, 다양한 샘플을 제공하면서도 높은 품질을 유지하는 것을 확인했습니다.
+
+#### 실험 결과 (Experiments)
+RSD는 텍스트-이미지 및 역문제 해결에서 다양성과 품질을 균형 있게 유지하는 데 있어 기존 방법보다 더 우수한 성능을 보였습니다. 특히 inpainting 실험에서, RSD는 반발 규제와 함께 더 높은 다양성을 달성했으며, 이미지 품질 또한 높은 평가를 받았습니다.
+
+#### 결론 (Conclusion)
+이 논문은 RSD를 통해 모드 붕괴 문제를 해결하고 다양한 이미지 생성을 촉진하는 방법을 제시했습니다. 이 방법은 단순히 다른 기술들과 결합할 수 있으며, 역문제를 해결하는 데 있어 더 나은 다양성을 제공합니다. 다만, 반발 규제로 인해 실시간 애플리케이션에서의 사용은 아직 도전적입니다. 또한, 새로운 방법이 더 실제적인 장면을 생성하는 데 한계가 있음이 지적되었습니다.
+
+### 2. 전체 요약
+
+이 논문은 "Repulsive Score Distillation (RSD)"이라는 새로운 기법을 통해 다양성을 높이고 모드 붕괴 문제를 해결하려는 접근법을 제안합니다. RSD는 입자 상호작용을 통해 KL 발산의 그래디언트 흐름을 근사하여 다양한 샘플을 얻습니다. 이를 통해 텍스트-이미지 생성 및 역문제 해결에서 높은 품질과 다양성을 유지하는 것을 목표로 합니다. 이 방법은 간단한 규제 효과와 함께 기존 기술들과 쉽게 통합될 수 있으며, 다양한 실험을 통해 그 유효성을 입증하였습니다. 다만, 실시간 애플리케이션에서의 사용은 아직 도전적이며, 더 실제적인 장면을 생성하는 데 한계가 있습니다.