한국어 오픈소스 멀티모달 모델 모음 (image-text)

🌌 Deep Learning/Etc.

한국어 오픈소스 멀티모달 모델 모음 (image-text)

복만 2024. 1. 13. 20:59

혹은 awesome-korean-multimodal 같은것

사실 한국어 LLM도 많이 없거니와, 오픈소스로 공개된 한국어 멀티모달 LLM(MLLM)은 정말 얼마 안되는듯 하다.

(참고: 한국어 LLM 모델 모음 - awesome-korean-llm)

GitHub - NomaDamas/awesome-korean-llm: Awesome list of Korean Large Language Models.

Awesome list of Korean Large Language Models. Contribute to NomaDamas/awesome-korean-llm development by creating an account on GitHub.

github.com

한국어 multimodal llm 뿐만 아니라 multimodal embedding 모델을 함께 정리해보았다.

정확히 말하면 멀티모달 중 image-text (vision-language) 모델들만 정리했다.

여기에 없는 모델이나 새로운 모델이 있으면 댓글로 알려주세요

Multimodal LLM (MLLM)
- tabtoyou/KoLLaVA
- etri-vilab/Ko-LLaVA
Vision-Language Pretraining (VLP) - Multimodal embedding
- jaketae/KoCLIP
- Bingsu/clip-vit-large-patch-ko
- SeanForHim/KoBEiT3

Multimodal LLM

tabtoyou/KoLLaVA

GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA) - GitHub - tabtoyou/KoLLaVA: KoLLaVA: Korean Large Language-and-Vision Assistant (feat.LLaVA)

github.com

GitHub
만든사람: Jeonghyeon, Seongyeon, Seonghwan, Seungwoo, Seonghun, Taebaek
v1:
- backbone: CLIP(ViT)+KoVicuna(7B)
- dataset:
  - KoLLaVA-CC3M-Pretrain-595K: pretrain
  - KoLLaVA_Instruct-150k: instruction tuning
- license: Apache License 2.0
v1.5:
- backbone: CLIP(ViT)+Synatra(7B)
- dataset:
  - KoLLaVA-CC3M-Pretrain-595K: pretrain
  - KoLLaVA-Instrurct-581k: instruction tuning
- license: cc-by-sa-4.0 (non-commercial)
Training: (1) Frozen image encoder / text encoder을 연결하는 projection layer을 학습하는 pretrain stage와, (2) instruction tuning을 하는 fine-tuning stage로 나누어 두단계로 학습

etri-vilab/Ko-LLaVA

Ko-LLaVA - a Hugging Face Space by etri-vilab

huggingface.co

Demo
만든사람: ETRI 시각지능연구실
backbone: LLama(13b)
space만 공개되고 모델 weight이나 데이터셋은 공개된게 없다. 몇가지 테스트해봤을 때 위의 KoLLaVA보다 성능이 많이 떨어지는 것 같다.
예시)

부록) LLaVA와 비교

LLaVA도 한국어를 어느정도 할 수 있다. (demo)

"in Korean" 키워드는 잘 안되는것 같고, 한국어로 물었을 때 영어로 대답하는 단점이 있다.

의외로 영어로 질문한 다음 답변을 한국어로 바꿔달라고 하면 괜찮다.

VLP

jaketae/KoCLIP

GitHub - jaketae/koclip: KoCLIP: Korean port of OpenAI CLIP, in Flax

KoCLIP: Korean port of OpenAI CLIP, in Flax. Contribute to jaketae/koclip development by creating an account on GitHub.

github.com

GitHub
만든사람: GUIJIN SON, Hansol Park, Jake Tae, Trent Oh
backbone: klue/roberta-large + CLIP(ViT)
dataset: MSCOCO AIHub 한국어 번역 데이터
license: Apache License 2.0

Bingsu/clip-vit-large-patch14-ko

Bingsu/clip-vit-large-patch14-ko · Hugging Face

clip-vit-large-patch14-ko Korean CLIP model trained by Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation로 학습된 한국어 CLIP 모델입

huggingface.co

HuggingFace
backbone: CLIP(ViT)
dataset: AIHUB에 있는 모든 한국어-영어 병렬 데이터
license: MIT
training:
- Knowledge distillation 이용 (영어로 text encoder을 teacher model로 하고, 한국어 text encoder을 student model로 해서 학습시키는 방법이다 - Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation)
- training code

SeanForHim/KoBEiT3

SeanForHim/KoBEiT3 · Hugging Face

huggingface.co

HuggingFace
GitHub
backbone: BEiT3-large
- tokenizer: korean sentencepiece tokenizer trained on kor wikipedia
dataset: AIHUB 시각정보 기반 질의응답
license: 기재 안되어 있으나 BEiT3은 Microsoft open source code of conduct를 따름

'🌌 Deep Learning > Etc.' 카테고리의 다른 글

딥러닝 논문 저자들의 paper talk 아카이브 사이트 Papertalk (0)	2022.07.13
EdgesCats (0)	2021.07.19
딥러닝 SOTA 논문 아카이브 사이트 Papers with Code (0)	2020.12.23

현재글한국어 오픈소스 멀티모달 모델 모음 (image-text)

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IBOK