Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2024.08.14 - #4 - DeepMind table tennis robot, FLUX, CppCon, MoAI, CoLLaVO, Hydra-MDP, NPUs #6

Open
changh95 opened this issue Aug 8, 2024 · 2 comments

Comments

@changh95
Copy link
Owner

changh95 commented Aug 8, 2024

Interesting papers

  • Yan 2024 - An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion 링크
    • Diffusion을 통해서 64 x 64 크기의 '부품 이미지' (Object image)를 만든 후, 이걸 조립하면 object가 된다는 논문.
image
  • Nakkiran 2024 - Step-by-Step Diffusion: An Elementary Tutorial 링크
    • Diffusion 튜토리얼
    • AI 한글번역본 링크

Industry news

  • DeepMind의 탁구 로봇 논문링크
    • 다수의 low level 스킬 컨트롤러 + 1개의 high level 컨트롤러. High level 컨트롤러가, 어떤 스킬을 사용하면 좋을지 선택함. 각각의 low-level 스킬 컨트롤러는 modular policy architecture를 기반으로 학습됨.
    • Zero-shot sim-to-real을 통해 학습함
    • 실시간으로 처음 보는 상대의 스킬에 적응하는 능력을 갖춤
Screen.Recording.2024-08-14.at.6.46.54.PM.mov
image
  • FLUX + Runway
    • Flux로 리얼한 얼굴 생성 + Runway로 이미지를 동영상화.
    • 해외에서 1. 미디어 관련으로 쓸 게 많다, 2. 얼굴 관련 데이터셋을 만들 수 있을거라고 인기가 많음
Screen.Recording.2024-08-14.at.6.44.50.PM.mov
  • 보스턴 다이나믹스 아틀라스 푸쉬업
Screen.Recording.2024-08-14.at.6.51.40.PM.mov

Useful resources

  • Cppcon 링크
    • 로봇쪽은 C++ 코딩이 많이 사용됨.
    • C++는 굉장히 어려움... 잘 쓰기 너무너무너무 어려움...
    • Good practices를 배우기 어려움
    • 그래서 고수들이 얘기하는 C++를 보고 배우면 좋음
      • Back to basic 코스를 보고 고급 개념들만 잘 익혀도 잘 짤 수 있음
image
@iminolee
Copy link

iminolee commented Aug 14, 2024

Interesting papers

: Development of Open Source LLVMs

  1. MoAI : [GitHub], [Paper]
  2. CoLLaVO [GitHub], [Paper], Huggingface

KAIST 노용만 교수 연구팀에서 최근 공개한 오픈소스 LLVM(Large Language and Vision Model)

두 모델 모두 단순히 모델 사이즈나 고푸질 시각적 조정 데이터셋을 만들지 않고, 가장 최근의 시각-언어 모델(OpenAI의 GPT-4V, Google의 Gemini-pro)보다 시각 성능을 획기적으로 높임.
bench

특히 CoLLaVO 모델에서는 instruction tuning 단계에 프롬프트로 학습한 정보의 소실을 줄이는 학습 전략인 'Dual QLoRA'를 제안하고 있음.
Screenshot from 2024-08-14 12-52-55

CoLLaVO 모델 외에 본 연구팀의 다른 모델들 모두 공개형 LLM으로 릴리즈되어 관련 확장 연구에 활용 가능하다는 점도 주목할만함.

++
위 모델 외에도 NLP 분야 국제 학회인 ACL 2024에 게재된 LLaMa 3.1 기반의 멀티모달 LLM도 추가로 덧붙임.

@rubidiumchain
Copy link

(Pilippeshin)

Interesting papers

Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation

image

image

Interesting Article

Bringing Transformer Networks to the Edge with Arm Ethos-U85

image

image

Recap of GPU,NPU,microNPU On-Device AI

image

image

image

image

@changh95 changh95 changed the title 2024.08.14 - #4 2024.08.14 - #4 - DeepMind table tennis robot, FLUX, CppCon, MoAI, CoLLaVO, Hydra-MDP, NPUs Sep 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants