Skip to content

Commit

Permalink
Add papers
Browse files Browse the repository at this point in the history
  • Loading branch information
emphasis10 committed Jun 27, 2024
1 parent a891722 commit 6a8d22a
Show file tree
Hide file tree
Showing 4 changed files with 104 additions and 0 deletions.
3 changes: 3 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -161,6 +161,7 @@
#### [ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation](summaries/2406.09961.md)
#### [GEB-1.3B: Open Lightweight Large Language Model](summaries/2406.09900.md)
#### [Bootstrapping Language Models with DPO Implicit Rewards](summaries/2406.09760.md)
#### [Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection](summaries/2406.09617.md)
#### [Decoding the Diversity: A Review of the Indic AI Research Landscape](summaries/2406.09559.md)
#### [Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models](summaries/2406.09416.md)
#### [An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels](summaries/2406.09415.md)
Expand Down Expand Up @@ -228,6 +229,7 @@
#### [Merging Improves Self-Critique Against Jailbreak Attacks](summaries/2406.07188.md)
#### [Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent "Middle" Enhancement](summaries/2406.07138.md)
#### [AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising](summaries/2406.06911.md)
#### [Synthetic Query Generation using Large Language Models for Virtual Assistants](summaries/2406.06729.md)
#### [SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound](summaries/2406.06612.md)
#### [The Prompt Report: A Systematic Survey of Prompting Techniques](summaries/2406.06608.md)
#### [Improve Mathematical Reasoning in Language Models by Automated Process Supervision](summaries/2406.06592.md)
Expand Down Expand Up @@ -810,6 +812,7 @@
#### [Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases](summaries/2312.15011.md)
#### [PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU](summaries/2312.12456.md)
#### [LLM in a flash: Efficient Large Language Model Inference with Limited Memory](summaries/2312.11514.md)
#### [Conformer-Based Speech Recognition On Extreme Edge-Computing Devices](summaries/2312.10359.md)
#### [LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin](summaries/2312.09979.md)
#### [Mamba: Linear-Time Sequence Modeling with Selective State Spaces](summaries/2312.00752.md)
## 2311
Expand Down
38 changes: 38 additions & 0 deletions summaries/2312.10359.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
# Conformer-Based Speech Recognition On Extreme Edge-Computing Devices
## TL;DR
## Summary
- [https://arxiv.org/pdf/2312.10359.pdf](https://arxiv.org/pdf/2312.10359.pdf)

### 1. 각 섹션의 중요 내용 요약

#### 초록 (Abstract)
이 논문은 Conformer 기반의 최신 스트리밍 자동 음성 인식 (ASR) 시스템을 자원 제한 환경인 스마트폰, 스마트 웨어러블 기기, 소형 가정 자동화 장치에서 구현하기 위한 다양한 모델 구조 조정 및 최적화 방법에 대해 소개합니다. 제안된 방법은 정확도를 저하시키지 않으면서, 소형 웨어러블에서 5.26배 빠른 실시간 음성 인식을 달성하며 에너지 소비를 최소화합니다. 이러한 방법은 다른 트랜스포머 기반 서버 없는 AI 응용 프로그램에도 널리 적용될 수 있습니다.

#### 1. 서론 (Introduction)
Conformer 기반의 엔드 투 엔드(End-to-End, E2E) ASR 시스템은 최근 상당한 발전을 이루었으며, 자원 제한 모바일 장치에서도 완전한 신경 음성 인식을 가능하게 했습니다. 이 시스템은 기존의 혼합 HMM 기반 ASR 시스템에 비해 단순화된 훈련 절차와 더 나은 단어 오류율(WER)을 제공합니다.

#### 2. 선행 연구 (Prior Work)
트랜스포머 아키텍처의 효율성을 개선하기 위한 연구는 상당한 관심을 받고 있습니다. 기존 연구들은 주로 모델 아키텍처 개선 및 하드웨어 구성에 중점을 두고 있습니다. 본 연구는 모델 재훈련 없이 추론 효율성을 향상시키는 후처리 기법에 주로 초점을 맞추고 있습니다.

#### 3. 백본 모델 (Backbone Model)
우리의 백본 모델은 Conformer 신경 아키텍처를 기반으로 하고 있으며, 이 모델은 다중 작업 학습 메커니즘을 통해 CTC 및 Attention 기반 인코더 디코더를 결합한 듀얼 디코더로 구성되어 있습니다.

#### 4. 제안된 최적화 (Proposed Optimizations)
- **깊이 분리형 합성곱 (Depthwise Separable Convolution)**: Conformer 인코더의 기존 바닐라 합성곱 계층을 깊이 분리형 합성곱으로 대체하여 계산 비용을 줄였습니다.
- **메모리 인식 그래프 실행 (Memory-aware Graph Execution)**: Apple Neural Engine(ANE)에 최적화된 트랜스포머를 구현하기 위해 ANE의 4차원 및 채널 우선 아키텍처에 맞추어 데이터 형식을 선택하고, 캐시 상주를 증가시키는 작업을 수행하였습니다.
- **층 정규화의 안정성 (Stability of Layer Normalization)**: 저정밀 하드웨어 환경에서 발생하는 수치적인 불안정을 해결하기 위해 Lp-노름을 안정화시키는 최적의 프리-정규화 방법을 도입하였습니다.

#### 5. 성능 및 품질 평가 (Performance and Quality)
- **실시간 인자 (RTF) 성능**: Apple Watch에서 5.26배 빠른 실시간 인식을 달성하여 성능 목표를 충족했습니다.
- **에너지 소비**: 하드웨어 가속기를 사용하여 에너지 소비를 한 단계 줄였습니다.
- **수치적 안정성 (Numeric Stability)**: 수치적 안정성을 개선하여, 저정밀 환경에서 발생할 수 있는 오버플로우 및 언더플로우 문제를 해결했습니다.
- **WER 비교**: FP16과 FP32 사이의 WER 차이는 미미하며, DWS와 바닐라 합성곱은 거의 동일한 정확도를 제공합니다.

#### 6. 결론 (Conclusions)
제안된 최적화 방법은 Conformer CTC ASR 모델이 모바일 폰 및 웨어러블 기기와 같은 자원 제한 장치에서 실행될 수 있도록 하며, 인식 정확도를 유지하면서 실시간보다 빠르게 동작하고 더 적은 에너지를 소비할 수 있도록 합니다. 이론적인 수치적 안정화 기술은 다양한 딥러닝 모델과 컴퓨팅 작업에 적용될 수 있습니다.



### 2. 전체 요약

이 논문은 자원 제한 환경에서 Conformer 기반의 최신 스트리밍 자동 음성 인식(ASR) 시스템을 구현하기 위한 다양한 최적화 방법을 제안합니다. 제안된 방법은 모델 구조 조정 및 수치적인 최적화를 통해 모바일 폰, 웨어러블 기기 및 소형 가정 자동화 장치에서 정확도를 저하시키지 않으면서 빠르고 효율적인 음성 인식을 가능하게 합니다. 이를 통해 Apple Watch에서 5.26배 빠른 실시간 인식을 달성하였으며, 에너지 소비도 한 단계 줄었습니다. 또한, 수치적 안정성을 높이는 최적의 프리-정규화 방법을 도입하여, 저정밀 하드웨어 환경에서 발생하는 오버플로우 및 언더플로우 문제를 해결했습니다. 이러한 최적화 방법은 다른 트랜스포머 기반 서버 없는 AI 응용 프로그램에도 널리 적용될 수 있습니다.
31 changes: 31 additions & 0 deletions summaries/2406.06729.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,31 @@
# Synthetic Query Generation using Large Language Models for Virtual Assistants
## TL;DR
## Summary
- [https://arxiv.org/pdf/2406.06729.pdf](https://arxiv.org/pdf/2406.06729.pdf)

### 주요 내용 요약

#### 1. 서론
이 논문은 AI 및 머신러닝 방법을 활용하여 가상 비서(VA)를 위한 합성 질의를 생성하는 내용을 다룹니다. 주된 목적은 기존 사용자의 질의와 유사한 합성 질의를 생성하여 VA의 정보 검색 성능을 향상시키는 것입니다. 합성 질의를 생성하는 데 있어 큰 언어 모델(LLM)을 활용하고, 이를 템플릿 기반 방법과 비교 분석합니다.

#### 2. 방법론
주요 방법론은 다음과 같습니다:
- **지식 베이스 구축**: 위키피디아와 음악 스트리밍 서비스를 활용하여 음악 아티스트의 지식 베이스를 구축합니다.
- **프롬프트 및 LLM 사용**: 아티스트 설명과 관련 텍스트를 LLM에 입력하여 합성 질의를 생성합니다.

#### 3. 실험 설정
여러 방법으로 합성 질의를 생성하고 이를 평가합니다:
- **비교 방법**: 템플릿 기반 방법과 LLM 기반 방법을 비교하여 각 방법이 생성한 질의의 빈도와 특이성을 분석합니다.
- **평가 지표**: 생성된 질의의 부정확도(NLL)와 역순위(RR)를 통해 질의의 구체성과 적합성을 측정합니다.

#### 4. 결과
LLM 기반 방법이 더 길고 구체적인 질의를 생성하는 경향이 있습니다. 하지만 템플릿 기반 방법은 일반적인 사용 사례를 다루는 데 더 효율적입니다. 두 접근법은 상호 보완적으로 사용될 수 있습니다.

#### 5. 결론
LLM과 템플릿 기반 방법은 상호 보완적이며, 각각 빈번한 사용 사례와 특이한 사용 사례를 효과적으로 다룰 수 있습니다. LLM 기반 방법은 특정 아티스트에 대한 더 구체적인 질의를 생성할 수 있지만, 계산 비용이 높다는 단점이 있습니다.

### 전체 요약

이 논문은 가상 비서(VA)를 위한 합성 질의 생성을 위해 템플릿 기반 방법과 큰 언어 모델(LLM)을 비교 분석합니다. 연구 결과, 템플릿 기반 방법은 빈번한 사용 사례를 효과적으로 처리할 수 있으며, LLM 기반 방법은 특이하고 구체적인 질의를 생성하는 데 유리함을 발견했습니다. 두 접근법을 함께 사용하면 더 풍부하고 다양한 합성 질의를 생성할 수 있습니다.

논문의 주된 기여는 VA의 음성 인식 시스템을 개선하기 위해 LLM을 활용한 새로운 합성 질의 생성 방법론을 제안하고, 이를 템플릿 기반 접근법과 비교하여 상호 보완적임을 증명한 것입니다. 이로써 VA 시스템의 정확성 및 효율성을 높이는 데 기여할 수 있습니다.
32 changes: 32 additions & 0 deletions summaries/2406.09617.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,32 @@
# Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection
## TL;DR
## Summary
- [https://arxiv.org/pdf/2406.09617.pdf](https://arxiv.org/pdf/2406.09617.pdf)

### 1. 각 섹션의 요약

#### 서론 (Introduction)
이 논문은 음성 어시스턴트(Voice Assistant)의 성능 향상을 위해, 텍스트 데이터에만 사전 학습된 LLM(대규모 언어 모델)에 오디오 및 비디오 데이터를 융합하는 방법을 다룹니다. 'Fusion Low Rank Adaptation(FLoRA)' 기법을 제안하여 텍스트 기반 LLM을 멀티모달 LLM으로 변환하며, 이를 통해 실제 환경에서 발생하는 잡음과 모호한 경계 문제를 해결하고자 합니다.

#### FLoRA 접근법 (Approach)
'Low Rank Adaptation' (LoRA) 기법을 확장하여 멀티모달 데이터를 수용할 수 있도록 했습니다. 오디오 및 비디오 데이터를 텍스트 임베딩 차원으로 매핑하는 작은 프리픽스 네트워크를 통해, 텍스트 기반 LLM에 새로운 모달리티를 추가합니다. 이를 통해 전체 모델 파라미터의 부분적인 튜닝만으로도 성능 향상을 이끌어낼 수 있습니다.

#### 모달리티별 어댑터 (Modality-specific Adapters)
FLoRA는 각 모달리티(오디오, 비디오, 텍스트)에 대해 별도의 어댑터를 훈련시킬 수 있는 유연성을 제공합니다. 이는 각 모달리티에 대해 독립적으로 학습될 수 있으며, 데이터가 없는 상황에서도 효과적으로 작동할 수 있는 환경을 만듭니다.

#### 어댑터 드롭아웃 (Adapter Dropout)
모달리티가 일부 누락된 데이터셋에서도 효과적으로 작동할 수 있도록 설계된 기법입니다. 데이터를 모두 포함하지 않는 상황에서도 그에 맞는 어댑터만 사용하여 모델을 훈련시키며, 테스트 시에도 동일한 방식으로 적용됩니다.

#### 실험 설정 (Experimental Setup)
DDSD(기기 지향 음성 탐지) 과제를 적용 대상으로 하여 훈련 및 테스트를 진행하였습니다. B2B-1, B2B-2, B2B-3과 같은 다양한 데이터셋을 사용하여, 각각의 데이터 특성에 맞춰 실험을 설계했습니다. 주요 평가 지표로는 EER(Equal Error Rate)와 FA@10(False Accept Rate at 10% False Reject Rate)을 사용했습니다.

#### 결과 및 논의 (Results and Discussion)
FLoRA는 전체 모델 파라미터의 1-5%만 튜닝하여도, 전체 파라미터를 튜닝한 것과 비슷한 성능을 보였습니다. 특히, 데이터가 일부 누락된 상황에서도 강한 성능을 보였으며 모델의 확장성 역시 유망함을 확인했습니다. B2B-3 데이터를 통해 모델 크기 증가에 따른 성능 변화를 실험한 결과, 모델 크기가 커질수록 성능이 향상됨을 보였습니다.

#### 결론 (Conclusion)
FLoRA는 텍스트 만을 학습한 LLM을 멀티모달 입력을 수용할 수 있도록 변환하는 효과적인 방법을 제시합니다. 적은 양의 파라미터만 업데이트하여도 높은 성능을 유지하며, 데이터가 누락된 상황에서도 강한 성능을 보입니다. 다양한 모델 크기에서 높은 확장성을 보이며, 실용적인 응용 가능성을 확인했습니다.

---

### 2. 전반적인 요약
이 논문은 멀티모달 LLM을 구현하기 위한 새로운 기법인 FLoRA를 제안합니다. FLoRA는 특정 모달리티에 특화된 작은 어댑터를 훈련시켜, 텍스트 기반 LLM을 멀티모달 학습에 적합하게 변환합니다. 이 기법은 전체 모델의 1-5%의 파라미터만 튜닝하여도 높은 성능을 유지할 수 있으며, 특히 데이터가 일부 누락된 상황에서도 효과적으로 작동합니다. 다양한 데이터셋과 모델 크기에 대한 실험을 통해, 이 접근 방식이 실용적이고 확장 가능한 솔루션임을 입증했습니다. 이를 통해 실제 환경에서의 음성 어시스턴트 성능을 크게 향상시킬 수 있는 가능성을 확인하였습니다.

0 comments on commit 6a8d22a

Please sign in to comment.