반응형

2024/01 4

[딥러닝 논문리뷰] MeZO: Fine-Tuning Language Models with Just Forward Passes (NeurIPS 2023)

논문 링크: https://arxiv.org/pdf/2305.17333.pdf 발표 영상: https://neurips.cc/virtual/2023/poster/71437 코드: https://github.com/princeton-nlp/MeZO NeurIPS 2023 Abstract: Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients us..

[딥러닝 논문리뷰] AIM: Scalable Pre-training of Large Autoregressive Image Models (Apple, 2024)

Apple에서 2024년 1월 large pretrained image model인 AIM(Autoregressive Image Models)을 발표했다. 코드와 model weight이 Github에 공개되어 있다. 논문 링크: https://arxiv.org/pdf/2401.08541.pdf GitHub: https://github.com/apple/ml-aim/tree/main AIM은 LLM에 영감을 받아 만들어진 대규모 vision 모델이다. BEiT (2021), Masked autoencoder(MAE) (2021) 등이 masked language modeling (MLM)을 통해 사전학습 시킨 것과 다르게, 주어진 패치로 다음 패치를 예측하는 autoregressive object를 이용..

한국어 오픈소스 멀티모달 모델 모음 (image-text)

혹은 awesome-korean-multimodal 같은것 사실 한국어 LLM도 많이 없거니와, 오픈소스로 공개된 한국어 멀티모달 LLM(MLLM)은 정말 얼마 안되는듯 하다. (참고: 한국어 LLM 모델 모음 - awesome-korean-llm) GitHub - NomaDamas/awesome-korean-llm: Awesome list of Korean Large Language Models. Awesome list of Korean Large Language Models. Contribute to NomaDamas/awesome-korean-llm development by creating an account on GitHub. github.com 한국어 multimodal llm 뿐만 아니라 m..

Apple의 Multimodal LLM Ferret 논문 리뷰

Apple에서 2023년 10월 내놓은 Multimodal LLM인 Ferret의 논문이다. 모델 크기는 7B, 13B 두가지이며 Github에 코드와 checkpoint가 공개되어 있고, 비상업적 용도로 사용가능하다. 논문 링크: https://arxiv.org/pdf/2310.07704.pdf Github: https://github.com/apple/ml-ferret GitHub - apple/ml-ferret Contribute to apple/ml-ferret development by creating an account on GitHub. github.com Introduction Vision-language learning 모델의 주요한 두 capability는 referring과 groun..

반응형