Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2025.01.22 - #22 - NVIDIA NIM, Cosmos, new Hesai/Robosense LiDAR, MatchAnything, HF smolagents, DeepSeek-R1 #24

Open
changh95 opened this issue Jan 12, 2025 · 2 comments

Comments

@changh95
Copy link
Owner

changh95 commented Jan 12, 2025

NVIDIA NIM (Neural inference microservices?)

개인 GPU 없이, 최신 NVIDIA 모델 및 LLM 모델들을 돌려보세요! NVIDIA 엔지니어가 최적화도 다 해놔서 속도도 HuggingFace보다 훨씬 빠릅니다.

https://build.nvidia.com/explore/discover

Physical AI

cosmos-nemotron-34b (�Video summarization, Video captioning)

  • "Elaborate what the worker is doing, why he would be taking this action and also provide information on what he is wearing."

Image

  • "How many people are in this video?" (틀림...)
Image

cosmos-1.0-diffusion-7b (Text-to-world, Image-to-world 동영상 생성)

  • "A first person view from the perspective from a dog sized robot as it works in a car manufacturing site. The robot has many unfinished cars and engine components nearby. The camera on moving forward. Photorealistic"

Image

  • "A first person view from the perspective from a quadrupled robot as it works in a car manufacturing site. The robot has many unfinished cars and engine components nearby. The camera on moving forward. Photorealistic"

Image

cosmos-1.0-autoregressive-5b (Video-to-world, Image-to-world 동영상 생성. 짧은 동영상을 길게 만들기)

Image

API list

  • 서버 없이 LLM을 돌려보기 딱 좋음
  • 기본적으로 NVIDIA 아키텍처에서 필요한 모든 가속이 들어가있음.
    • 엔비디아 엔지니어들에게 들어보니, 이걸 전부 다 손으로 만든다고 😭
Image
  • Qwen2.5-coder:32b-Instruct

Image

Blueprints

Image

Price

  • 개발자 프로그램 참여하면 무료로 API 무제한 사용 된다고 들었던거 같은데... 확인 필요
  • 스타트업이라면 NVIDIA Inception 프로그램 참가하면 API 크레딧 엄청 많이 준다고 알고있음.
Image

LLM

한국말 잘하는 LLM

챗봇 만들때 굿

  • 마이크로소프트 Phi4 (14B)
  • 알리바바 Qwen 2.5 (7B, 14B, 32B, 70B)
  • 구글 Gemma2 (9B, 27B)

코딩할 때 좋은 LLM

  • DeepSeek DeepSeek-R1-distilled-Qwen2.5 (32B) 아키텍처 용으로 최고.
  • 알리바바 Qwen 2.5-coder (32B 이상)
  • 마이크로소프트 Phi4 (14B) 범용성 최고
  • Llama 3.2 (3B) - auto-complete용 모델로 속도 빠름

DeepSeek-R1

  • OpenAI o1 급 성능?
  • MIT 라이센스 (상업적 사용 가능)
  • 성능 굿 👍👍
  • QwQ 보다 좋음.
  • 질문 제대로 안하면 무한루프에 빠져들음
  • 이전 채팅 기록에 이어서 질문하는거 잘 안됨
  • 태그 필터링 필요
  • 알고리즘/자료구조 문제 기가막히게 잘풀음
  • 중국 역사 질문 피함

Image

@U-AMC
Copy link

U-AMC commented Jan 22, 2025

Industry NEWS


Hesai, Robosense의 새로운 라이다

Image

Image

Robotics Application을 노린 고해상도 라이다의 지속적인 출시

Interesting Research

TLS, global optimization with GLIM

XPr4ohBtbKxF-7D4.mp4

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

bwyvk2ERd5RU8PfV.mp4

@james-joobs
Copy link
Collaborator

james-joobs commented Jan 22, 2025

Hugging Face smolagents Summary

Original Blog Link

에이전트란?

에이전트는 LLM이 외부 도구를 호출하거나 특정 작업을 수행하면서 실제 세계와 상호작용할 수 있도록 하는 프로그램임.
에이전시(agency)는 LLM의 출력이 프로그램 워크플로우에 미치는 영향을 나타내는 스펙트럼으로 설명 가능.
예: 단순 출력부터 다중 단계 제어까지 다양한 수준의 에이전시 존재함.

언제 에이전트를 사용해야 하는가?

  1. 워크플로우가 사전 정의되기 어렵고 복잡한 요청을 처리해야 할 때 유용함.
  2. 간단히 사전 정의된 처리 방식으로 해결 가능한 경우에는 에이전트를 사용하지 않는 것이 더 적합함.

코드 에이전트

다중 단계 에이전트에서 LLM이 외부 도구 호출을 코드로 작성함.
JSON 같은 형식보다 코드가 작업 표현에 더 효율적임.

smolagents 주요 특징

  1. 단순성: 약 천 줄의 코드로 구성. 추상화 최소화하여 직접적이고 간결함.
  2. 코드 에이전트 지원: 작업을 코드로 작성 가능. E2B 기반 샌드박스로 안전하게 실행.
  3. 다양한 모델 호환: Hugging Face 허브 모델 및 OpenAI, Anthropic 등 다양한 LLM 지원.
  4. 허브 통합: 도구를 공유하거나 로드 가능.

에이전트 구축

에이전트를 생성하기 위해 필요한 기본 요소:

  • 도구(tools): 에이전트가 접근 가능한 도구들.
  • 모델(model): 에이전트의 엔진 역할을 하는 LLM.

중요 사항

  • smolagents는 현재 실험적인 API임.
  • 향후 업데이트될 가능성이 있음.

Google LLM Agent 백서

Original Link

저자: Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic
발행일: 2024년 9월


소개

  • 생성형 AI 에이전트는 단순 언어 모델의 한계를 넘어서 논리, 추론, 도구 사용을 결합하여 실제 세계에서 작업을 수행하도록 설계됨.
  • 핵심 개념: 에이전트는 의사결정, 계획, 실행을 외부 도구와 통합하여 수행함.

에이전트란?

  • 정의: 에이전트는 관찰과 도구를 활용해 목표를 달성하는 자율 응용 프로그램임.
  • 기존 모델과의 차이점:
    • 에이전트는 주도적으로 작업을 수행하고, 명시적인 지시 없이도 목표를 위해 추론 가능.
  • 핵심 아키텍처는 세 가지 요소로 구성됨:
    1. 모델: 의사결정을 내리는 중심 (특정 작업을 위해 미세 조정된 언어 모델).
    2. 도구: 외부 시스템과의 상호작용을 가능하게 함.
    3. 오케스트레이션 레이어: 추론 및 반복적인 의사결정을 관리.

주요 구성 요소

1. 모델

  • 중심 의사결정 기구로, ReAct나 Chain-of-Thought 같은 추론 프레임워크를 사용.
  • 작업별 성능 향상을 위해 미세 조정 가능.
  • 텍스트와 이미지를 결합하는 멀티모달 모델은 에이전트의 다양성을 증대시킴.

2. 도구

  • 내부 추론과 외부 시스템 간의 연결 고리를 제공.
  • 예시: 날씨 정보 API, 데이터베이스, RAG(Retrieval Augmented Generation).
  • 도구 유형:
    • 확장(Extensions): API와의 원활한 통합 제공.
    • 함수(Functions): 클라이언트 측 실행을 통한 유연성 제공.
    • 데이터 스토어(Data Stores): 실시간으로 구조화된 데이터 및 비구조화된 데이터 접근 가능.

3. 오케스트레이션 레이어

  • 추론 및 계획의 제어 루프 역할.
  • 사용 기술:
    • ReAct: 추론과 행동 결합.
    • Chain-of-Thought: 중간 추론 단계를 포함.
    • Tree-of-Thoughts: 전략적인 문제 해결.

고급 기능

확장(Extensions)

  • 에이전트와 API 간의 표준 인터페이스 제공.
  • 동적 예제 학습으로 런타임 중 새로운 도구에 적응 가능.

함수(Functions)

  • API 호출 및 데이터 변환에 대한 더 세밀한 제어를 제공.

데이터 스토어(Data Stores)

  • 벡터 임베딩을 사용해 외부의 동적 데이터를 실시간으로 접근 가능.

모델 성능 향상

  • 목표 학습(Targeted Learning):
    • In-context learning: 예제를 활용해 "실시간"으로 적응.
    • Retrieval-based learning: 외부 데이터로 동적 프롬프트 생성.
    • Fine-tuning: 사전 훈련을 통한 특정 애플리케이션 최적화.

실질적 구현

LangChain 통합

  • LangChain을 사용해 도구와 추론 단계를 연결한 에이전트 프로토타입 구현.
  • SerpAPI 및 Google Places API를 결합한 다단계 쿼리 예시 포함.

Vertex AI

  • 완전 관리형 플랫폼으로 에이전트 구축 간소화.
  • 평가, 디버깅 및 지속적인 개선 도구 제공.

요약

  1. 에이전트는 도구, 추론, 계획을 결합하여 언어 모델의 역량을 확장.
  2. 핵심 요소는 모델, 도구, 오케스트레이션 레이어.
  3. 확장, 함수, 데이터 스토어는 에이전트의 기능을 확장.
  4. LangChain 및 Vertex AI는 실질적 응용 사례를 제공.

미래 전망: 고도화된 에이전트는 점점 더 복잡한 문제를 해결할 수 있도록 진화하며, 모듈형 및 전문화된 아키텍처가 주요 역할을 할 것임.


@changh95 changh95 changed the title 2025.01.15 - #22 2025.01.22 - #22 Jan 22, 2025
@changh95 changh95 changed the title 2025.01.22 - #22 2025.01.22 - #22 - NVIDIA NIM, Cosmos, new Hesai/Robosense LiDAR, MatchAnything, HF smolagents, DeepSeek-R1 Jan 22, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants