Add papers

emphasis10 · Dec 16, 2024 · 50c1758 · 50c1758
1 parent 73181c8
commit 50c1758
Show file tree

Hide file tree

Showing 10 changed files with 221 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -1,13 +1,17 @@
 # Paper List
 ## 2412
+#### [Apollo: An Exploration of Video Understanding in Large Multimodal Models](summaries/2412.10360.md)
 #### [SCBench: A KV Cache-Centric Analysis of Long-Context Methods](summaries/2412.10319.md)
 #### [Large Action Models: From Inception to Implementation](summaries/2412.10047.md)
+#### [Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images](summaries/2412.09910.md)
 #### [FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion](summaries/2412.09626.md)
 #### [GenEx: Generating an Explorable World](summaries/2412.09624.md)
 #### [LoRACLR: Contrastive Adaptation for Customization of Diffusion Models](summaries/2412.09622.md)
 #### [SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training](summaries/2412.09619.md)
 #### [EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM](summaries/2412.09618.md)
+#### [FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers](summaries/2412.09611.md)
 #### [AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials](summaries/2412.09605.md)
+#### [SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding](summaries/2412.09604.md)
 #### [InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions](summaries/2412.09596.md)
 #### [Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion](summaries/2412.09593.md)
 #### [Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders](summaries/2412.09586.md)
@@ -16,28 +20,33 @@
 #### [JuStRank: Benchmarking LLM Judges for System Ranking](summaries/2412.09569.md)
 #### [Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition](summaries/2412.09501.md)
 #### [The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective](summaries/2412.09460.md)
+#### [Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation](summaries/2412.09428.md)
 #### [Learned Compression for Compressed Learning](summaries/2412.09405.md)
 #### [Word Sense Linking: Disambiguating Outside the Sandbox](summaries/2412.09370.md)
 #### [DisPose: Disentangling Pose Guidance for Controllable Human Image Animation](summaries/2412.09349.md)
+#### [InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption](summaries/2412.09283.md)
 #### [Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages](summaries/2412.09025.md)
 #### [Arbitrary-steps Image Super-resolution via Diffusion Inversion](summaries/2412.09013.md)
 #### [RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios](summaries/2412.08972.md)
 #### [Phi-4 Technical Report](summaries/2412.08905.md)
 #### [Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions](summaries/2412.08737.md)
 #### [VisionArena: 230K Real World User-VLM Conversations with Preference Labels](summaries/2412.08687.md)
 #### [StreamChat: Chatting with Streaming Video](summaries/2412.08646.md)
+#### [ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation](summaries/2412.08645.md)
 #### [Multimodal Latent Language Modeling with Next-Token Diffusion](summaries/2412.08635.md)
 #### [FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models](summaries/2412.08629.md)
 #### [LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations](summaries/2412.08580.md)
 #### [StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements](summaries/2412.08503.md)
 #### [Learning Flow Fields in Attention for Controllable Person Image Generation](summaries/2412.08486.md)
 #### [Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel](summaries/2412.08467.md)
 #### [POINTS1.5: Building a Vision-Language Model towards Real World Applications](summaries/2412.08443.md)
+#### [SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs](summaries/2412.08347.md)
 #### [Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?](summaries/2412.08174.md)
 #### [3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark](summaries/2412.07825.md)
 #### [Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation](summaries/2412.07797.md)
 #### [Video Motion Transfer with Diffusion Transformers](summaries/2412.07776.md)
 #### [UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics](summaries/2412.07774.md)
+#### [BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities](summaries/2412.07769.md)
 #### [SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints](summaries/2412.07760.md)
 #### [3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation](summaries/2412.07759.md)
 #### [StyleMaster: Stylize Your Video with Artistic Generation and Translation](summaries/2412.07744.md)

diff --git a/summaries/2412.07769.md b/summaries/2412.07769.md
@@ -0,0 +1,23 @@
+# BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.07769.pdf](https://arxiv.org/pdf/2412.07769.pdf)
+
+I'm sorry, I am not able to provide a detailed analysis of the entire document in one go due to the length and complexity of the text. However, I can give you a concise summary of the information I've gathered so far. Here’s the Korean summary followed by an overall summary:
+
+1. **섹션별 요약**
+
+- **소개**:
+BiMediX2 소개에서는, 기존의 의학 인공지능 모델들이 대부분 영어 중심으로 개발되어 있는 상황에서, 영어와 아랍어를 포함한 다국어 모델의 필요성을 강조합니다. BiMediX2는 Llama3.1 아키텍처 기반으로, 다양한 의료 이미지 모달리티와 텍스트 기반의 질의를 지원하며 다언어 대화를 가능하게 합니다.
+
+- **기술 보고서 및 성과**:
+BiMediX2는 의학 이미지 이해와 텍스트 기반 질문 응답에 모두 뛰어난 성과를 보이며, 아랍어 평가에서는 20% 이상의 개선을 이루었습니다. 이는 다국어 및 다모달리티 분야에서 새로운 기준을 제시하는 것입니다.
+
+- **결론**:
+이 모델은 영문과 아랍어의 다중 모달 의료 AI로서 포괄적이고 포용적인 의료 솔루션을 제공합니다. BiMediX2는 다양한 전문적인 의료 시나리오에서 탁월한 능력을 발휘하여, 포괄적이고 다중 언어 및 다중 모달 의료 응용프로그램을 위한 길을 마련합니다.
+
+2. **전체 요약**
+
+BiMediX2는 영어와 아랍어를 지원하는 바이링구얼 멀티모달 의학 인공지능 모델로, 다양한 의료 이미지를 분석하고, 다중 턴 대화를 통해 복잡한 의료 정보를 처리할 수 있는 기술을 제시합니다. 이는 기존의 단일 언어 중심 모델의 한계를 극복하고, 의료 서비스의 접근성을 크게 향상시킬 수 있는 잠재력을 보여줍니다. BiMediX2의 주요 기여는 다국어로 구성된 BiMed-V 데이터셋을 사용하여 다양한 의료 교육을 지원하며, 최초의 바이링구얼 GPT-4o 기반의 의료 벤치마크를 소개하였다는 점입니다. 이 모델은 세계적으로 포괄적이고 품질 높은 의료 지원의 접근성을 크게 높이며, 다국어, 다모달리티 의료 응용 프로그램의 가능성을 열어줍니다.
+
+이 요약을 기반으로 프레젠테이션을 제작하시면, BiMediX2의 혁신성과 기여도를 충분히 전달할 수 있을 것입니다.
diff --git a/summaries/2412.08347.md b/summaries/2412.08347.md
@@ -0,0 +1,30 @@
+# SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.08347.pdf](https://arxiv.org/pdf/2412.08347.pdf)
+
+### 1. 섹션별 요약 
+
+**서론**
+이 논문은 소규모 언어 모델의 성능을 향상시키기 위한 새로운 최적화 기법을 다룬다. 특히 학습률과 배치 크기 사이의 관계를 통해 작은 모델에서의 성능 최적화를 추구하고 있다.
+
+**관련 연구**
+최신의 포스트 트레이닝 기술들이 대형 모델에서는 잘 적용되나, 소형 모델에서는 추가적인 최적화 전략이 필요함을 보여준다. Tulu 3 같은 오픈소스 파이프라인이 작은 모델에 어떻게 적용될 수 있는지를 설명하고 있다.
+
+**데이터셋 및 실험**
+작은 모델에서도 최적의 성능을 발휘하는 학습률과 배치 크기의 비율을 제안한다. 높은 비율은 복잡한 추론 작업에 유리하며, 낮은 비율은 패턴 인식 작업에서 더 나은 성능을 보인다.
+
+**직접 선호 최적화(Direct Preference Optimization)**
+선호 학습에 대한 간소화된 접근법인 DPO를 소개하며, 이는 별도의 보상 모델 없이도 선호 데이터를 학습할 수 있는 기법을 제시한다.
+
+**보상 모델링**
+보상 모델이 작은 아키텍처에 어떻게 더 효과적으로 활용될 수 있는지를 논의한다. 최적화 전략이 적절히 조정된 경우, 보상 모델링이 작은 모델에서도 효과적으로 작동할 수 있음을 보여준다.
+
+**제한점**
+최적화 전략의 다단계 이해와 모델 의존성 등 몇 가지 제한점을 논의하며, 향후 연구 방향을 제시한다.
+
+### 2. 전체 요약
+
+이 연구는 소규모 언어 모델(SmolLM)에도 최신의 포스트 트레이닝 기술을 적용하여 큰 모델만큼의 성능을 이끌어내기 위한 다양한 최적화 전략을 소개한다. 특히 학습률과 배치 크기 비율의 최적화를 통해 사용자가 원하는 작업 성능을 강화할 수 있음을 입증했다. 이를 통해 소규모 모델에서도 효율적인 학습 동역학을 통해 고품질의 언어 모델을 더욱 광범위한 환경에 배포할 수 있는 가능성을 열어두고 있다. 
+
+이 연구는 소형 모델을 대형 모델처럼 최적화할 때 기존 방식과는 다른 접근 방법을 필요로 하며, 각기 다른 작업에 따라 최적의 학습 동역학이 달라짐을 보여준다. 따라서 작은 모델의 성능을 극대화하기 위해서는 다양한 작업별 최적화 전략을 고려해야 한다.
diff --git a/summaries/2412.08645.md b/summaries/2412.08645.md
@@ -0,0 +1,22 @@
+# ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.08645.pdf](https://arxiv.org/pdf/2412.08645.pdf)
+
+1. 각 섹션 요약:
+
+- **서론 및 문제 정의**:
+  본 문서는 객체 삽입과 주제 중심 생성이라는 두 가지 주요 작업을 다루며, 객체 삽입은 주어진 객체를 배경 이미지에 삽입하고, 주제 중심 생성은 주어진 텍스트 설명에 따라 이미지를 생성하는 것을 목표로 합니다. 이 작업은 객체의 정체성을 유지하고 사진처럼 자연스럽게 구성하는 데 중점을 둡니다.
+
+- **객체 재귀 프라이어**:
+  일상에서 흔히 볼 수 있는 물체가 인터넷 기반 데이터셋에 반복적으로 등장하는 점을 활용하여 대규모 지도 데이터셋을 생성합니다. 이러한 재귀성은 객체의 다양한 포즈와 장면 조건에서의 학습에 유용한 자료로 사용될 수 있습니다.
+
+- **방식 소개 - ObjectMate**:
+  ObjectMate는 이러한 객체 재귀 프라이어를 사용하여 새로운 객체 합성 방법을 제안합니다. 대규모 데이터셋에서 객체를 탐지하고, 깊은 정체성 피쳐를 통해 유사한 객체를 검색하는 방법으로 다수가 중복되는 객체로 구성된 대규모 데이터셋을 만듭니다. 또한, 이 데이터를 기반으로 장면 설명과 객체 뷰를 컴포지트 이미지로 매핑하는 디퓨전 모델을 훈련합니다.
+
+- **평가 및 개선 이점**:
+  ObjectMate는 객체 삽입과 주제 생성 모두에서 최고 성능을 자랑하며, 개선된 평가 프로토콜을 통해 정확한 객체 정체성 보존 평가 기준을 제안합니다. 이는 사용자 실험을 통해 검증되었습니다.
+
+2. 전체 요약:
+
+본 논문은 일상 속 대량 생산되는 객체들을 대규모 데이터셋에서 식별하고 이를 활용하여 물체 합성을 위한 지도 학습 데이터셋을 만드는 새로운 방법론을 소개합니다. 특히 ObjectMate라는 방법은 이러한 데이터셋을 통해 강력한 디퓨전 모델을 훈련하여 최첨단 결과를 얻을 수 있도록 합니다. 이는 객체의 정체성을 유지하면서도 포토리얼리틱한 합성을 하는데 상당한 장점을 가집니다. 또한, 새로운 평가 지표를 도입하여 더 정확한 성능 평가가 가능해졌습니다.
diff --git a/summaries/2412.09283.md b/summaries/2412.09283.md
@@ -0,0 +1,24 @@
+# InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.09283.pdf](https://arxiv.org/pdf/2412.09283.pdf)
+
+### 1. 각 섹션의 요약
+
+**서론**
+이 논문은 텍스트-비디오 생성에서 인스턴스 수준의 정밀한 비디오 캡션을 위한 새로운 프레임워크인 `InstanceCap`을 제안합니다. 기존의 비디오 캡션은 종종 세부 정보가 부족하고 환각 현상이나 부정확한 모션 표현으로 인해 생성된 영상의 몰입감을 해치고 있었습니다.
+
+**관련 연구**
+비디오 재캡셔닝 분야에서는 두 가지 주요 방식인 수동 주석과 멀티모달 대형 언어 모델을 사용한 종단 간 재캡셔닝이 존재합니다. 수동 주석은 정확도가 높지만, 대규모 데이터셋을 구축하는 데 한계가 있습니다.
+
+**방법론**
+`InstanceCap` 파이프라인을 도입하여 비디오를 인스턴스 단위로 분해하고, 구조화된 구문으로 재구성합니다. 이를 통해 밀도가 높은 프롬프트를 정밀하고 간결한 묘사로 변화시킬 수 있습니다. 이 방법론에서는 AMC와 같은 보조 모델을 사용하여 전역 비디오를 인스턴스로 변환하며, 인스턴스 충실도를 높입니다.
+
+**실험 결과**
+실험 결과, `InstanceCap`은 기존 모델에 비해 비디오와 캡션 사이의 충실도를 크게 향상시켰으며, 환각 및 반복을 줄이는 데 매우 효과적임을 보여줍니다.
+
+**논의 및 결론**
+이 논문의 주요 기여는 `InstanceCap`을 활용하여 캡션과 비디오 사이의 높은 충실도를 보장하면서도 환각 현상 및 반복성을 줄이는 것입니다. 향후 연구에서는 더 큰 비디오 데이터셋에 `InstanceCap`을 적용하고 강력한 T2V 모델을 훈련할 계획입니다.
+
+### 2. 전체 요약
+이 논문은 기존의 비디오 캡션이 만연한 정보 부족과 환각 문제를 해결하고자 `InstanceCap` 프레임워크를 제안합니다. 이 방법은 비디오를 인스턴스 단위로 변환하여 충실도가 높은 구조화된 캡션을 제공하며, 영상과 캡션 간의 일관성을 높입니다. 실험 결과 `InstanceCap`은 기존 기법들보다 더 나은 성과를 보여주며, 향후 대규모 데이터셋에 적용할 가능성을 엿볼 수 있습니다.
diff --git a/summaries/2412.09428.md b/summaries/2412.09428.md
@@ -0,0 +1,16 @@
+# Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.09428.pdf](https://arxiv.org/pdf/2412.09428.pdf)
+
+1. 본 논문은 음향, 이미지, 텍스트 등의 다양한 입력 모달리티로부터 음악을 생성하는 새로운 시스템인 VMB(Visuals Music Bridge) 를 제안하고 있습니다. 이 시스템은 텍스트와 음악을 연결 매개체로 사용하여, 보다 정확하고 설명력 있는 다중 모달 음악 생성에 기여합니다. 주요 기여는 다음과 같이 요약할 수 있습니다:
+
+   - **시각 입력의 설명**: 다양한 시각 입력을 음악 설명으로 전환하는 다중 모달 음악 설명 모델을 제안합니다. 사용자는 음악 생성 과정에서 세부적인 제어가 가능하며, 이는 시각적 입력 및 감정적 단서와 조화를 이루어, 보다 직관적이고 감정적인 연결을 가능케 합니다.
+
+   - **이중 경로 음악 검색**: 음악 생성 시, 모달리티 간의 세밀한 조정과 탐색을 위해 이중 경로 음악 검색 모듈을 도입하였습니다. 이를 통해 입력 콘텐츠와의 유사성을 높이고 창의성을 향상시킬 수 있습니다.
+
+   - **음악 생성 프레임워크**: 명시적으로 조건이 주어진 음악 생성 프레임워크를 설계하여, 사용자가 음악 생성에 있어 주요 요소에 대한 세밀한 통제를 가능하게 합니다.
+
+2. 본 논문의 전반적인 요약:
+
+   연구에서 제시된 VMB 시스템은 영상, 이미지를 포함한 다양한 입력 모달리티가 텍스트와 음악의 연결을 통해 통합되는 새로운 음악 생성 시스템입니다. 이 시스템은 다중 모달 텍스트-음악 생성의 중요한 문제들을 해결하며, 다양한 모달리티와의 조화로운 음악 생성 및 세밀한 컨트롤을 가능하게 합니다. 실험 결과, VMB는 높은 품질의 음악을 생성하며, 사용자가 원하는 스타일과 일치하도록 음악을 성공적으로 조정할 수 있음을 보여줍니다. 이 시스템은 게임, 가상현실 등 여러 멀티미디어 분야에 있어 사용자 맞춤형 음악 생성에 혁신적인 잠재력을 지니고 있습니다.
diff --git a/summaries/2412.09604.md b/summaries/2412.09604.md
@@ -0,0 +1,24 @@
+# SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding
+## TL;DR
+## Summary
+- [https://arxiv.org/pdf/2412.09604.pdf](https://arxiv.org/pdf/2412.09604.pdf)
+
+### 1. 각 섹션 요약 및 기여와 혁신 부분
+
+#### 1.1. 소개 (Introduction)
+이 논문에서는 기존 복잡한 설계의 문제를 해결하기 위해, 단순하면서도 강력한 SynerGen-VL이라는 MLLM을 제안합니다. 이는 이미지 이해 및 생성 모두를 위한 통합 모델로, 학습의 복잡성을 줄이는 여러 전략을 도입하여 탁월한 성능을 자랑합니다.
+
+#### 1.2. 관련 작업 (Related Work)
+기존의 MLLM들은 복잡한 아키텍처를 사용하였으나, SynerGen-VL은 멀티모달 전문가와 토큰 접기 전략을 통해 이러한 복잡성을 줄이고 효율성을 높였습니다.
+
+#### 1.3. 제안 방법 (Proposed Method)
+SynerGen-VL은 비어휘적 이산 이미지 토큰을 사용하여 이미지를 표현하며, 이는 고해상도 이미지 이해와 생성을 동시에 지원합니다. בנוסף, 비전 전문가와 토큰 폴딩 메커니즘을 이용하여 프리트레인된 LLM에 비전 기량을 통합합니다.
+
+#### 1.4. 실험 결과 (Experimental Results)
+본 모델은 여러 이미지 이해와 생성 벤치마크에서 뛰어난 성능을 보였으며, 특히 고해상도 이미지 처리에서 우수한 능력을 입증했습니다.
+
+#### 1.5. 결론 (Conclusion)
+SynerGen-VL은 간단한 설계를 통해 기존의 복잡한 MLLM보다 적은 파라미터로도 비슷한 성능을 발휘하면서, 이미지 이해와 생성의 갭을 좁히는 데 성공했습니다.
+
+### 2. 전체 요약
+SynerGen-VL은 이미지 이해 및 생성의 두 가지 작업을 통합하는 혁신적인 모델로, 복잡한 아키텍처와 과잉 파라미터의 문제를 해결하고자 합니다. 모델은 고해상도 이미지 처리에 뛰어나며, 실험 결과 기존 모델들과 비교 시 상위 성능을 보여줍니다. 이를 통해 MLLM의 확장성 및 효율성을 보여주며, 차세대 MLLM의 발전의 길을 제시하고 있습니다.