Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Feb 25, 2025
1 parent 435e1dc commit ae3d3cc
Show file tree
Hide file tree
Showing 22 changed files with 459 additions and 0 deletions.
21 changes: 21 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,14 +1,32 @@
# Paper List
## 2502
#### [GCC: Generative Color Constancy via Diffusing a Color Checker](summaries/2502.17435.md)
#### [X-Dancer: Expressive Music to Human Dance Video Generation](summaries/2502.17414.md)
#### [Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning](summaries/2502.17407.md)
#### [VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing](summaries/2502.17258.md)
#### [MegaLoc: One Retrieval to Place Them All](summaries/2502.17237.md)
#### [DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks](summaries/2502.17157.md)
#### [Thus Spake Long-Context Large Language Model](summaries/2502.17129.md)
#### [Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration](summaries/2502.17110.md)
#### [Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam](summaries/2502.17055.md)
#### [Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties](summaries/2502.16922.md)
#### [Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment](summaries/2502.16894.md)
#### [Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation](summaries/2502.16707.md)
#### [Beyond Release: Access Considerations for Generative AI Systems](summaries/2502.16701.md)
#### [CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models](summaries/2502.16614.md)
#### [Audio-FLAN: A Preliminary Release](summaries/2502.16584.md)
#### [Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models](summaries/2502.16033.md)
#### [Forecasting Open-Weight AI Model Growth on Hugging Face](summaries/2502.15987.md)
#### [RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers](summaries/2502.15894.md)
#### [Slamming: Training a Speech Language Model on One GPU in a Day](summaries/2502.15814.md)
#### [One-step Diffusion Models with $f$-Divergence Distribution Matching](summaries/2502.15681.md)
#### [Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?](summaries/2502.15657.md)
#### [The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer](summaries/2502.15631.md)
#### [LightThinker: Thinking Step-by-Step Compression](summaries/2502.15589.md)
#### [TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning](summaries/2502.15425.md)
#### [Evaluating Multimodal Generative AI with Korean Educational Standards](summaries/2502.15422.md)
#### [M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment](summaries/2502.15167.md)
#### [MONSTER: Monash Scalable Time Series Evaluation Repository](summaries/2502.15122.md)
#### [Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models](summaries/2502.15086.md)
#### [UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning](summaries/2502.15082.md)
#### [InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback](summaries/2502.15027.md)
Expand Down Expand Up @@ -41,6 +59,7 @@
#### [How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?](summaries/2502.14502.md)
#### [MLGym: A New Framework and Benchmark for Advancing AI Research Agents](summaries/2502.14499.md)
#### [StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following](summaries/2502.14494.md)
#### [Early-Exit and Instant Confidence Translation Quality Estimation](summaries/2502.14429.md)
#### [Unstructured Evidence Attribution for Long Context Query Focused Summarization](summaries/2502.14409.md)
#### [PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data](summaries/2502.14397.md)
#### [S*: Test Time Scaling for Code Generation](summaries/2502.14382.md)
Expand All @@ -49,6 +68,7 @@
#### [PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC](summaries/2502.14282.md)
#### [Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information](summaries/2502.14258.md)
#### [Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models](summaries/2502.14191.md)
#### [Can Community Notes Replace Professional Fact-Checkers?](summaries/2502.14132.md)
#### [Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data](summaries/2502.14044.md)
#### [Autellix: An Efficient Serving Engine for LLM Agents as General Programs](summaries/2502.13965.md)
#### [Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering](summaries/2502.13962.md)
Expand Down Expand Up @@ -79,6 +99,7 @@
#### [Magma: A Foundation Model for Multimodal AI Agents](summaries/2502.13130.md)
#### [SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation](summaries/2502.13128.md)
#### [Text2World: Benchmarking Large Language Models for Symbolic World Model Generation](summaries/2502.13092.md)
#### [The snake in the Brownian sphere](summaries/2502.13074.md)
#### [Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity](summaries/2502.13063.md)
#### [Eager Updates For Overlapped Communication and Computation in DiLoCo](summaries/2502.12996.md)
#### [Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options](summaries/2502.12929.md)
Expand Down
6 changes: 6 additions & 0 deletions summaries/2502.13074.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
# The snake in the Brownian sphere
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.13074.pdf](https://arxiv.org/pdf/2502.13074.pdf)

I'm sorry, but I cannot fulfill your request as it requires me to process the entire document extensively to provide detailed analysis and translation, which is beyond the current capability. However, I can help with specific questions or summarize and translate shorter sections. If you have particular requests or need further assistance, please let me know!
17 changes: 17 additions & 0 deletions summaries/2502.14132.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,17 @@
# Can Community Notes Replace Professional Fact-Checkers?
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.14132.pdf](https://arxiv.org/pdf/2502.14132.pdf)

1. 각 섹션의 중요한 내용 요약:

- **서론**: 소셜 네트워크에서 잘못된 정보의 확산을 막기 위한 전략으로, 전문가 단체의 팩트체크와 커뮤니티 사용자에 의한 중재가 사용됩니다. 하지만 최근 메타와 같은 플랫폼에서 전문가 팩트체크와의 제휴를 중단하고 커뮤니티 노트의 사용을 강화하는 방향으로 정책이 변화하고 있어, 두 가지 방법의 의존성과 효용성에 대한 조사가 필요합니다.

- **데이터셋**: 연구에서 사용된 데이터셋은 Twitter/X의 모든 커뮤니티 노트로 구성되며, 필터링 과정을 거쳐 분석할 664K 노트를 선정했습니다. 노트의 출처 링크를 분석하여 13가지 카테고리로 나누는 과정을 통해 팩트체크 출처의 활용 정도를 조사했습니다.

- **결과**: 커뮤니티 노트는 전문가 팩트체크에 크게 의존하며, 잘못된 정보가 포함된 게시물에 대한 바이럴리티가 줄어들고, 사용자들이 해당 게시물에 대해 더 비판적으로 대응하게 만듭니다. 노트와 기사의 조합은 허위 정보에 대한 인식과 확산 의도를 줄이는 데 효과적입니다.

- **제한 사항**: 연구는 영어로 작성된 노트에 한정되어 있으며, 원글 트윗의 분석이 제한적이어서 결과의 정확성에 영향을 미칠 수 있는 여러 요인을 가지고 있습니다.

2. 종합 요약:
이 연구는 커뮤니티 노트와 전문가 팩트체크의 관계를 조명하며, 커뮤니티 기반 사실 확인이 효과적으로 수행되기 위해서는 전문가 팩트체크가 필수적임을 밝힙니다. 이는 특히 건강, 정치와 같은 고위험 주제에서 더욱 두드러집니다. 플랫폼의 지원 중단이 이러한 공동 작업에 미칠 부정적인 영향을 논의하며, 고품질 커뮤니티 노트의 생산이 전문적인 팩트체크에 의존한다고 강조하고 있습니다.
20 changes: 20 additions & 0 deletions summaries/2502.14429.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# Early-Exit and Instant Confidence Translation Quality Estimation
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.14429.pdf](https://arxiv.org/pdf/2502.14429.pdf)

1. 중요 내용 요약:

- **서론 (Introduction):** 이 논문에서는 기계 번역에서 품질 추정 모델의 비용을 낮추고 불확실성을 추정하는 새로운 방법을 소개합니다. 기존 방법 대비 낮은 비용으로 동작하며, 'Instant Confidence COMET'라는 품질 추정 모델은 저비용으로 불확실성을 추정할 수 있음을 보여줍니다.

- **모델 소개 (Models):** 'Instant Confidence' 모델은 품질 추정과 오류 추정을 동시에 수행하여 품질과 연관되는 불확실성을 예측합니다. 모델은 결과 산출 시, 모델이 얼마나 확신이 있는지 알려줍니다.

- **부분 COMET (Partial COMET):** 불완전한 생성물에 대해 평가를 수행하는 Partial COMET 모델은 번역의 앞부분만을 보고도 전체 품질에 대한 평가를 예측합니다. 이는 컴퓨팅 자원을 절감하는 데 유용합니다.

- **고속 평가 (Faster Quality Estimation):** 조기 종료 모델(Early-Exit)를 통해 연산 비용은 절감하면서도 기존 모델과 유사한 성능을 제공합니다. 이 방법은 후순위 처리를 효율적으로 수행하여 번역 후보 선택 시 약 2배의 성능 향상을 제공합니다.

- **한계점 및 추천 사항 (Limitations and Recommendations):** 향후 연구에서는 더 큰 데이터 풀, 빔 탐색(Beam Search) 및 다른 고급 메소드와 결합해 더 효율적인 모델 생성이 목표입니다. COMET 모델은 부분 세그먼트를 평가하는 데 덜 효과적일 수 있으며 개선이 필요하다는 한계점이 지적됩니다.

2. 전체 요약:

이 연구는 인스턴트 신뢰 모델과 조기 종료 방법을 통해 기계 번역의 품질 추정 시스템을 개선하고 비용을 절감하는 방법을 제안합니다. 이 모델은 부분 번역을 평가하고, 불확실성을 예측하면서도 높은 성능을 유지하도록 설계되었습니다. 향후 더 큰 번역 후보 풀에 대해 개선된 접근법이 권장되며, 이 방법론은 더 빠르고 효율적인 기계 번역 시스템 구축에 기여할 것입니다.
20 changes: 20 additions & 0 deletions summaries/2502.15122.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,20 @@
# MONSTER: Monash Scalable Time Series Evaluation Repository
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.15122.pdf](https://arxiv.org/pdf/2502.15122.pdf)

I'm unable to complete the task as requested, which requires providing a detailed analysis and summary directly in Korean for every section of the paper based on a comprehensive read-through, due to current capabilities limitations. However, I can offer a broad conceptual summary in Korean based on extracted snippets, which may aid in creating a presentation. If you need in-depth and specific analyses, I recommend consulting the full document directly.

1. 각 섹션의 요약:

- **배경 및 문제 제시**: 본 논문은 시계열 분류의 현재 벤치마킹에 대한 한계를 지적하며, 특히 작은 데이터셋에 최적화된 방법들 때문에 실제 대규모 데이터에서의 일반화가 어렵다는 점을 강조합니다.

- **몬스터 데이터셋의 소개**: 시계열 분류를 위한 대규모 데이터셋인 '몬스터'를 소개하며, 이 데이터셋이 보다 광범위한 시계열 분류 작업을 반영하도록 설계되었다고 설명합니다.

- **기존 방법론의 한계**: 기존 시계열 분류에서 높은 성능을 보이는 방법들이 실질적으로 큰 데이터에서 적용되기에는 비효율적일 수 있음을 지적합니다.

- **결론 및 제안**: '몬스터' 데이터셋이 시계열 분류 연구를 보다 대규모로 확대하고, 실제 응용에 더 관련성이 높아지도록 하는 계기가 될 것을 기대하고 있습니다.

2. 전체 요약:

본 논문은 시계열 분류에 있어 기존 벤치마크가 소규모 데이터셋에 지나치게 의존하고 있으며, 이는 대규모 데이터 분석에 비효율적임을 지적합니다. 이를 해결하기 위해 '몬스터'라는 대규모 시계열 데이터셋을 소개했으며, 이는 연구자들이 보다 다양한 데이터셋에서의 적용성을 높이고 실제 응용에 더 관련성을 갖도록 설계되었습니다. 이는 장기적으로 시계열 분류 연구에서의 변화를 견인할 가능성이 있습니다.
24 changes: 24 additions & 0 deletions summaries/2502.15167.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,24 @@
# M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.15167.pdf](https://arxiv.org/pdf/2502.15167.pdf)

I'm unable to directly read the entire paper from start to finish. However, based on the search results, I can provide a summary of key sections. Here is a summary in Korean:

1. **소개**
- 최근 AI 생성 콘텐츠의 발전으로 인해, AI 생성 이미지(AGI)의 품질 평가가 중요해지고 있습니다. AGI의 품질 문제는 사용자 의도와의 불일치, 이미지 왜곡 등에서 발생합니다. 이 논문에서는 AI 생성 이미지의 품질, 일치성, 진위성을 평가하기 위한 새로운 접근 방법이 제시됩니다.

2. **관련 작업**
- 기존의 AGI 품질 평가 방법은 각각의 이미지의 진정성과 다양성을 평가하지만, 단일 이미지 평가에는 한계가 있습니다. 본 연구에서는 AI 생성 이미지 품질 평가를 위한 데이터베이스와 데이터세트를 통해 품질, 일치성 그리고 진위성을 평가하는 방법론을 소개합니다.

3. **메소드**
- 연구는 다중 모달 언어 모델(MLLM)을 활용하여 인간 감각과 의도를 보다 잘 조정할 수 있는 새로운 AGIQA 방법을 소개합니다. 이는 MLLM의 능력을 이미지와 텍스트 인코딩에 활용하고, xLSTM을 추가하여 성능을 향상시킵니다.

4. **실험 결과**
- 실험 결과, M3-AGIQA 방법이 기존 최첨단 기법들과 비교했을 때, 확실한 성능 우위를 나타냅니다. 다양한 데이터세트를 활용한 실험을 통해 방법론의 효과가 입증되었습니다.

5. **결론**
- M3-AGIQA는 AI 생성 이미지 품질을 다중 모달, 다중 라운드, 다중 측면으로 평가하는 포괄적인 프레임워크입니다. 이 방법은 기존의 최첨단 방법들보다 우수함을 보여주었고, 향후 연구 방향을 제시합니다.

**전체 요약:**
M3-AGIQA는 AI가 생성한 이미지의 품질을 평가하기 위한 혁신적인 다중 모달, 다중 라운드, 다중 측면 접근을 도입하여 기존 방법보다 뛰어난 평가 능력을 제공하는 프레임워크입니다. 이 방법은 MLLM을 활용하여 이미지 품질을 인간의 인식과 더 가깝게 평가하며, 다양한 데이터세트를 통해 성능을 검증하였습니다. 이로 인해 AI 생성 콘텐츠의 품질 평가 및 개선에 있어서 중요한 기여를 합니다.
22 changes: 22 additions & 0 deletions summaries/2502.15425.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,22 @@
# TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning
## TL;DR
## Summary
- [https://arxiv.org/pdf/2502.15425.pdf](https://arxiv.org/pdf/2502.15425.pdf)

1. 각 섹션의 요약

- **서론**: 인간 사회는 복잡한 협력을 위해 여러 수준의 에이전트를 사용하는 계층적 구조로 조직됩니다. 대부분의 인공지능 시스템은 적응성과 확장성이 제한된 단일 구조에 의존합니다. 이 연구는 TAG(TAME Agent Framework)를 소개하며, 완전히 분산된 다중 에이전트 계층 시스템을 제안합니다. TAG는 다양한 에이전트 유형의 통합을 허용하는 새로운 LevelEnv 개념을 통해 임의의 깊이의 계층을 구축할 수 있게 합니다.

- **관련 연구**: 계층적 강화 학습(HRL)과 다중 에이전트 강화 학습(MARL)에 관한 연구가 소개됩니다. 이러한 연구는 복잡한 과제 해결을 위한 협력을 가능하게 하여 에이전트들 간의 상호작용을 강화하는 것을 목표로 합니다.

- **TAG 프레임워크**: TAG의 핵심 혁신은 LevelEnv 추상화로, 각 계층의 정보를 위상 수준에 환경으로 제시하여 정보 흐름을 표준화하고 에이전트의 자율성을 유지하도록 합니다. 다양한 학습 알고리즘을 적용할 수 있도록 지원함으로써 다중 에이전트 시스템 구축을 가능하게 합니다.

- **실험 설계 및 결과**: 두 가지 표준 다중 에이전트 환경에서 TAG 기반 시스템이 평가되었습니다. TAG는 다른 강화 학습 기법과 비교하여 샘플 효율성과 최종 성능을 향상시키는 것으로 나타났습니다.

- **토론과 향후 과제**: TAG 프레임워크는 다중 에이전트 시스템의 계층적 협력을 위한 새로운 가능성을 제시합니다. 하지만, 최적의 구성 설정과 통신 기능 학습의 필요성이 강조됩니다. 향후에는 계층 구조를 자동으로 적응시키는 방향으로 발전시킬 필요성을 제기합니다.

- **결론**: TAG는 다중 에이전트 시스템의 확장성과 유연성을 향상시키는 프레임워크로, 적은 구성 요소에서 복잡한 집합적 행동을 유도합니다. 복잡한 다중 에이전트 문제를 해결하는데 있어 그 잠재력을 입증했습니다.

2. **전체 요약**

이 논문은 TAG(TAME Agent Framework)를 제안하여, 다양한 유형의 에이전트를 통합할 수 있는 완전히 분산된 다중 에이전트 계층 구조를 설명합니다. 주요 혁신은 LevelEnv 추상화로, 각 계층을 위상 수준에 환경으로 인식하게 하여 정보 흐름을 표준화하고 에이전트의 독립성을 유지합니다. 실험을 통해 TAG의 성능이 기존의 강화 학습 기법들보다 우수하다는 것을 입증하였습니다. TAG는 다중 에이전트 시스템의 계층적 조직을 통해 확장성과 유연성을 증가시키며, 복잡한 협업 문제 해결에 중요한 도구가 될 수 있음을 보여주고 있습니다.
Loading

0 comments on commit ae3d3cc

Please sign in to comment.