Add papers

emphasis10 · Jun 21, 2024 · 72980fe · 72980fe
1 parent a5bd375
commit 72980fe
Show file tree

Hide file tree

Showing 20 changed files with 623 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,6 +1,18 @@
 # Paper List
 ## 2406
+#### [Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities](summaries/2406.14562.md)
+#### [Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs](summaries/2406.14544.md)
+#### [Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps](summaries/2406.14539.md)
+#### [MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding](summaries/2406.14515.md)
 #### [Instruction Pre-Training: Language Models are Supervised Multitask Learners](summaries/2406.14491.md)
+#### [$\nabla^2$DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials](summaries/2406.14347.md)
+#### [LiveMind: Low-latency Large Language Models with Simultaneous Inference](summaries/2406.14319.md)
+#### [ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning](summaries/2406.14130.md)
+#### [PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents](summaries/2406.13923.md)
+#### [Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation](summaries/2406.13663.md)
+#### [Improving Visual Commonsense in Language Models via Multiple Image Generation](summaries/2406.13621.md)
+#### [Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models](summaries/2406.13542.md)
+#### [GLiNER multi-task: Generalist Lightweight Model for Various Information Extraction Tasks](summaries/2406.12925.md)
 #### [Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation](summaries/2406.12849.md)
 #### [VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing](summaries/2406.12831.md)
 #### [From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries](summaries/2406.12824.md)
@@ -11,6 +23,7 @@
 #### [Estimating Knowledge in Large Language Models Without Generating a Single Token](summaries/2406.12673.md)
 #### [Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models](summaries/2406.12649.md)
 #### [Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models](summaries/2406.12644.md)
+#### [From Insights to Actions: The Impact of Interpretability and Analysis Research on NLP](summaries/2406.12618.md)
 #### [HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors](summaries/2406.12459.md)
 #### [Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models](summaries/2406.12311.md)
 #### [Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment](summaries/2406.12303.md)
@@ -22,15 +35,19 @@
 #### [BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM](summaries/2406.12168.md)
 #### [Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks](summaries/2406.12066.md)
 #### [Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning](summaries/2406.12050.md)
+#### [$τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains](summaries/2406.12045.md)
 #### [Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models](summaries/2406.12042.md)
 #### [Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts](summaries/2406.12034.md)
 #### [Large Scale Transfer Learning for Tabular Data via Language Modeling](summaries/2406.12031.md)
 #### [From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline](summaries/2406.11939.md)
 #### [DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence](summaries/2406.11931.md)
+#### [REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark](summaries/2406.11927.md)
 #### [AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology](summaries/2406.11912.md)
 #### [Mixture-of-Subspaces in Low-Rank Adaptation](summaries/2406.11909.md)
+#### [DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning](summaries/2406.11896.md)
 #### [mDPO: Conditional Preference Optimization for Multimodal Large Language Models](summaries/2406.11839.md)
 #### [WPO: Enhancing RLHF with Weighted Preference Optimization](summaries/2406.11827.md)
+#### [Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level](summaries/2406.11817.md)
 #### [VideoLLM-online: Online Video Large Language Model for Streaming Video](summaries/2406.11816.md)
 #### [RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content](summaries/2406.11811.md)
 #### [Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations](summaries/2406.11801.md)
@@ -40,12 +57,14 @@
 #### [Tokenization Falling Short: The Curse of Tokenization](summaries/2406.11687.md)
 #### [Long Code Arena: a Set of Benchmarks for Long-Context Code Models](summaries/2406.11612.md)
 #### [Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization](summaries/2406.11431.md)
+#### [HARE: HumAn pRiors, a key to small language model Efficiency](summaries/2406.11410.md)
 #### [Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis](summaries/2406.11402.md)
 #### [Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models](summaries/2406.11230.md)
 #### [Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion](summaries/2406.11196.md)
 #### [Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance](summaries/2406.11139.md)
 #### [WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences](summaries/2406.11069.md)
 #### [THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation](summaries/2406.10996.md)
+#### [The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing](summaries/2406.10601.md)
 #### [From Pixels to Prose: A Large Dataset of Dense Image Captions](summaries/2406.10328.md)
 #### [L4GM: Large 4D Gaussian Reconstruction Model](summaries/2406.10324.md)
 #### [VideoGUI: A Benchmark for GUI Automation from Instructional Videos](summaries/2406.10227.md)

diff --git a/summaries/2406.10601.md b/summaries/2406.10601.md
@@ -0,0 +1,26 @@
+# The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.10601.pdf](https://arxiv.org/pdf/2406.10601.pdf)
+
+### 요약: AI 및 머신러닝 논문
+
+#### 1. 섹션별 요약
+
+**초록 및 소개**
+이 논문에서는 StyleFeatureEditor라는 새로운 기법을 소개하며, StyleGAN의 나선 공간에서 이미지를 변환하는 방법을 논의합니다. 이 기법은 현실 세계의 이미지를 높은 품질로 재현하고, 편집 가능한 상태로 변환하도록 고안되었습니다.
+
+**관련 연구**
+기존의 최고의 GAN 나선 공간 이미지를 다루는 기법은 W+와 Fk 공간을 사용합니다. W+ 공간은 편집에는 유리하지만 세부 재현에서는 부족합니다. 반면, Fk 공간은 세부 재현에는 우수하지만 편집 가능성은 떨어집니다. 기존의 연구들은 이 두 공간을 어떻게 균형 있게 사용할지에 초점을 맞추고 있습니다.
+
+**방법론**
+제안된 방법론은 크게 두 가지 단계로 나눌 수 있습니다. 첫 번째는 인버터 학습 단계이며, 두 번째는 피처 편집기 학습 단계입니다. 인버터는 입력 이미지를 재현하는 역할을 하고, 피처 편집기는 재현된 이미지의 특정 부분을 편집합니다. 이러한 두 단계 학습을 통해 높은 품질의 이미지를 빠르게 재현하고 편집할 수 있게 됩니다.
+
+**실험 및 결과**
+실험 결과, 제안된 방법론은 기존의 최고 성능을 보이는 방법론에 비해 더 뛰어난 성능을 보였습니다. 특히, LPIPS와 L2 기준에서 4배 이상의 성능 향상이 있었습니다. 단, 실행 시간은 기존의 인코더 기반 방법과 동등한 수준을 유지했습니다.
+
+**결론**
+StyleFeatureEditor는 StyleGAN 나선 공간에서 높은 품질의 이미지를 빠르게 재현하고 편집할 수 있는 강력한 도구입니다. 이는 현실 세계의 이미지와 가상의 이미지 간의 경계를 효과적으로 허물며, 실제 응용 분야에서도 즉시 사용할 수 있는 잠재력을 가지고 있습니다.
+
+#### 2. 전체 요약
+StyleFeatureEditor는 한계와 문제점을 보완하여 StyleGAN의 나선 공간에서 이미지를 재현하고 편집하는 새로운 기법을 제시합니다. 이 논문에서는 기존의 W+와 Fk 공간을 활용하는 방법론의 장단점을 분석하고, 이를 극복하기 위한 두 단계 학습 방식을 도입하였습니다. 제안된 방법은 특히 높은 세부 재현 능력과 편집 가능성을 동시에 달성하였으며, 다양한 테스트 결과에서도 기존 방법론 대비 우수한 성능을 입증하였습니다. 이로 인해 StyleFeatureEditor는 AI 및 머신러닝 기술의 실제 응용 가능성을 크게 확장할 수 있는 중요한 도구로 평가됩니다.
diff --git a/summaries/2406.11410.md b/summaries/2406.11410.md
@@ -0,0 +1,30 @@
+# HARE: HumAn pRiors, a key to small language model Efficiency
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.11410.pdf](https://arxiv.org/pdf/2406.11410.pdf)
+
+## 주요 기여와 혁신 부분 요약
+
+이 논문은 소형 언어 모델(Small Language Models, SLMs)의 데이터 학습 효율을 높이기 위해 인간의 사전 지식을 활용하는 방법을 제안하고 있습니다. 이 방법은 대규모 벤치마크 데이터 유출을 방지하면서도 의미의 다양성과 데이터 품질 일관성을 유지할 수 있게 해줍니다. 이를 바탕으로, HARE-1.1B라는 이름의 SLM을 훈련하고, 다양한 벤치마크 테스트에서 최첨단 모델들과 비교했을 때 유리한 성능을 보여줍니다.
+
+### 1. 서론
+소형 언어 모델(SLM)은 계산 효율성과 실시간 응답성 면에서 주목받고 있습니다. 그러나 대부분의 기존 SLM들은 웹에서 스크랩한 대규모 데이터를 사용하여 훈련되며, 이는 일관되지 않은 데이터 품질과 의미의 다양성 부족으로 인해 훈련 효율을 저해합니다.
+
+### 2. 데이터 구성
+데이터 구성 과정은 크게 네 가지 단계로 이루어집니다:
+1. **고품질 데이터 추출:** 대규모 웹 스크랩 데이터셋에서 고품질 데이터를 추출하여 의미의 다양성을 보장하고 데이터 품질을 유지.
+2. **데이터 클러스터링과 합성:** 대규모 데이터를 다양한 주제로 클러스터링하고 주제별 데이터를 사용하여 고성능 LLM을 통해 합성 데이터를 생성, 의미의 다양성을 높이며 일관된 데이터 품질을 유지.
+3. **NLP 작업 데이터 생성:** 자연 언어 형식으로 대규모 NLP 작업 데이터를 구축하여 의미의 다양성과 NLP 작업 해결 능력을 향상.
+4. **데이터 정화:** 벤치마크 데이터 유출을 방지하기 위해 철저한 정화 절차를 시행.
+
+### 3. 훈련
+HARE-1.1B 모델은 Mistral 아키텍처를 사용해 1.1B 파라미터로 축소되고, 16개의 Nvidia-H800 GPU를 사용하여 두 단계에 걸쳐 훈련됩니다. 첫 번째 단계에서는 고품질 데이터를 사용해 520억 개의 토큰을 처리하고, 두 번째 단계에서는 최종 데이터셋을 사용해 6000억 개의 토큰을 처리합니다.
+
+### 4. 실험
+HARE-1.1B는 다양한 벤치마크 데이터셋에서 최첨단 소형 언어 모델들과 비교하여 다음과 같은 결과를 얻습니다:
+- **MMLU, ARC-C, TruthfulQA** 등 벤치마크 테스트에서 평균 점수가 우수함을 보여줍니다.
+- 기존 모델들에 비해 벤치마크 데이터 유출 가능성이 낮습니다.
+
+## 종합 요약
+
+이 논문은 소형 언어 모델의 데이터 효율을 높이기 위해 인간의 사전 지식을 활용하는 새로운 데이터 구성 원칙을 제안합니다. 이 방법은 의미의 다양성과 데이터 품질을 유지하면서 벤치마크 데이터 유출을 방지합니다. HARE-1.1B 모델은 이 새로운 방법론을 통해 훈련되었으며, 다양한 벤치마크 테스트에서 최첨단 모델들과 비교했을 때 우수한 성능을 보여주었습니다. 이 방법론은 소형 언어 모델의 학습 효율을 높이는 데 중요한 기여를 할 것으로 기대됩니다.
diff --git a/summaries/2406.11817.md b/summaries/2406.11817.md
@@ -0,0 +1,26 @@
+# Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.11817.pdf](https://arxiv.org/pdf/2406.11817.pdf)
+
+### 1. 세부 섹션 요약
+
+**1. 서론**
+논문은 Direct Preference Optimization (DPO)의 반복적 접근법(iterative approach)을 제안합니다. DPO는 인공지능 언어 모델을 인간의 선호에 맞추는 기술입니다. 이 논문에서는 DPO의 반복적 방법을 적용해 7B 모델을 GPT-4 수준으로 향상시키는 방법을 탐구합니다.
+
+**2. 반복적인 길이 조정 DPO 소개** 
+기존의 DPO는 대답의 길이가 길어지는 문제를 가지고 있습니다. 이를 해결하기 위해 길이를 조정한 반복적 DPO(iLR-DPO)를 도입하였습니다. iLR-DPO는 응답의 길이를 패널티로 삼아 대답의 질을 유지합니다. 
+
+**3. 실험**
+실험 섹션에서는 iLR-DPO가 다양한 평가에서 높은 성능을 보였습니다. iLR-DPO를 7B 모델에 적용하여 AlpacaEval 2.0에서 GPT-4와 유사한 성능을 보였습니다.
+
+**4. 관련 작업**
+기존의 DPO와 비교해 iLR-DPO가 얼마나 효과적인지 분석합니다. 특히 사람의 선호를 반영하는 데 있어 보상 모델을 사용하는 것이 중요하다고 강조합니다.
+
+**5. 결론**
+논문은 iLR-DPO의 유효성을 입증하며, 제안한 모델이 다양한 벤치마크에서 우수한 성능을 보인다고 결론짓습니다. 특히, 길이를 조정하는 방식을 통해 모델이 더 효율적으로 동작할 수 있음을 보여주었습니다.
+
+### 2. 전체 요약
+이 논문은 Direct Preference Optimization (DPO)의 반복적 접근법을 통해 7B 언어 모델을 GPT-4 수준으로 향상시키는 연구를 제안합니다. 특히, 길이를 조정한 반복적 DPO(iLR-DPO)를 도입하여 응답의 길이를 통제하면서도 높은 성능을 유지할 수 있음을 입증하였습니다. 실험 결과, iLR-DPO는 AlpacaEval 2.0을 포함한 다양한 벤치마크에서 GPT-4와 유사한 성능을 보였습니다. 중요한 것은 이 방법이 응답의 길이를 불필요하게 늘리지 않으면서도 효과적으로 동작한다는 점입니다. 이를 통해 언어 모델을 사람의 선호에 더 정확하게 맞출 수 있게 되었습니다.
+
+이 요약을 바탕으로 발표 자료를 작성할 수 있습니다. 논문의 주요 기여점과 혁신 부분을 강조하며, iLR-DPO의 효과와 실험 결과를 중심으로 설명하면 됩니다.
diff --git a/summaries/2406.11896.md b/summaries/2406.11896.md
@@ -0,0 +1,38 @@
+# DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2406.11896.pdf](https://arxiv.org/pdf/2406.11896.pdf)
+
+### 1. 섹션별 요약
+
+#### Abstract (요약문)
+
+이 연구는 전통적인 VLMs (Vision Language Models)가 실제 GUI(그래픽 사용자 인터페이스) 제어에서 겪는 문제를 해결하기 위한 DigiRL이라는 새로운 자율 강화 학습 접근 방식을 제안합니다. 두 단계로 이루어지며, 첫째는 오프라인 RL을 통해 모델을 초기화하고, 둘째는 오프라인에서 온라인으로의 RL을 통해 모델을 미세 조정합니다. 이 접근 방식은 Android-in-the-Wild(AitW) 데이터셋에서 49.5%의 성공률 상승을 기록하며, 이는 기존 최고 성능을 크게 능가합니다.
+
+#### 1. Introduction (소개)
+
+AI 어시스턴트가 GUI를 통해 디지털 장치를 제어하고 다양한 작업을 수행할 수 있도록 하는 것에 대한 필요성을 설명합니다. DigiRL은 강화 학습을 통해 이러한 능력을 획득하도록 설계되었습니다. 이는 기존의 정적 시연 기반 교육이 실제 환경에서 마주하는 비결정론적 특성과 비정상성을 처리할 수 없다는 문제를 해결하고자 합니다.
+
+#### 2. Related Work (관련 연구)
+
+다양한 방식의 디지털 에이전트 훈련 접근 방식을 다룹니다. 기존 연구들은 주로 언어 모델에 기반한 접근 방식이나, 정적 시연 데이터만을 사용한 강화 학습 방법에 집중하고 있었습니다. 그러나 이러한 방법들은 비결정적이고 예측 불가능한 실제 환경에서는 한계가 있습니다. DigiRL은 이러한 문제를 해결하기 위해 설계되었습니다.
+
+#### 3. Problem Setup and Preliminaries (문제 설정 및 기초)
+
+디바이스 제어 문제를 Markov 결정 과정(MDP)으로 모델링 하고, DigiRL의 주요 연구 목적과 배경을 설명합니다. 이 섹션에서는 RL에 사용되는 기본 정의와 개념을 소개합니다.
+
+#### 4. DigiRL: Autonomous RL for Building a Strong Device-Control Agent (DigiRL: 강력한 디바이스 제어 에이전트를 구축하기 위한 자율 강화 학습)
+
+DigiRL의 기본 구조와 작동 방식을 설명합니다. 여기에는 오프라인-RL의 초기 단계와 온라인-RL을 통한 추가 미세 조정 단계가 포함됩니다. 이 접근 방식을 통해 DigiRL은 높은 성공률을 달성할 수 있으며, 이는 기존 최고 성능을 상회합니다.
+
+#### 5. Experimental Evaluation (실험 평가)
+
+DigiRL을 사용하여 Android-in-the-Wild 데이터셋에서 다양한 지시문 수행을 평가하고, 그 성능을 다른 최신 에이전트와 비교합니다. DigiRL은 38.5%에서 67.2%의 성공률로 기존 방법들을 크게 능가합니다.
+
+#### 6. Discussion and Limitations (논의 및 한계)
+
+연구의 한계를 설명하며, 특히 컴퓨팅 자원의 제한과 다양한 태스크 에 코우 적용할 가능한 방법들의 필요성을 언급합니다. 이러한 한계에도 불구하고, DigiRL의 설계는 향후 연구를 위한 기초 알고리즘으로 활용될 수 있습니다.
+
+### 2. 전반적 개요
+
+이 논문에서는 DigiRL이라는 새로운 자율 강화 학습 방법을 통해 디바이스 제어 에이전트를 훈련시키는 방법을 제안합니다. DigiRL은 실제 비결정론적 환경에서 GUI를 통해 디바이스를 제어할 수 있는 능력을 갖추도록 설계되었습니다. 이 연구는 기존의 정적 시연 데이터 기반 접근 방식이 비결정론적 특성과 비정상성을 처리하는 데 한계가 있음을 지적하며, DigiRL은 이를 해결하기 위해 두 단계의 학습 과정(오프라인-RL과 온라인-RL)을 제안합니다. DigiRL은 Android-in-the-Wild 데이터셋에서 대규모 테스트를 거쳐 기존 최고 성능을 크게 능가하는 결과를 보였습니다. 이러한 혁신적인 접근 방식은 향후 연구와 응용 가능성에 큰 기여를 할 것으로 기대됩니다.