ํน์ awesome-korean-multimodal ๊ฐ์๊ฒ
์ฌ์ค ํ๊ตญ์ด LLM๋ ๋ง์ด ์๊ฑฐ๋์, ์คํ์์ค๋ก ๊ณต๊ฐ๋ ํ๊ตญ์ด ๋ฉํฐ๋ชจ๋ฌ LLM(MLLM)์ ์ ๋ง ์ผ๋ง ์๋๋๋ฏ ํ๋ค.
(์ฐธ๊ณ : ํ๊ตญ์ด LLM ๋ชจ๋ธ ๋ชจ์ - awesome-korean-llm)
ํ๊ตญ์ด multimodal llm ๋ฟ๋ง ์๋๋ผ multimodal embedding ๋ชจ๋ธ์ ํจ๊ป ์ ๋ฆฌํด๋ณด์๋ค.
์ ํํ ๋งํ๋ฉด ๋ฉํฐ๋ชจ๋ฌ ์ค image-text (vision-language) ๋ชจ๋ธ๋ค๋ง ์ ๋ฆฌํ๋ค.
์ฌ๊ธฐ์ ์๋ ๋ชจ๋ธ์ด๋ ์๋ก์ด ๋ชจ๋ธ์ด ์์ผ๋ฉด ๋๊ธ๋ก ์๋ ค์ฃผ์ธ์
๋ชฉ์ฐจ
- Multimodal LLM (MLLM)
- tabtoyou/KoLLaVA
- etri-vilab/Ko-LLaVA
- Vision-Language Pretraining (VLP) - Multimodal embedding
- jaketae/KoCLIP
- Bingsu/clip-vit-large-patch-ko
- SeanForHim/KoBEiT3
Multimodal LLM
tabtoyou/KoLLaVA
- GitHub
- ๋ง๋ ์ฌ๋: Jeonghyeon, Seongyeon, Seonghwan, Seungwoo, Seonghun, Taebaek
- v1:
- backbone: CLIP(ViT)+KoVicuna(7B)
- dataset:
- KoLLaVA-CC3M-Pretrain-595K: pretrain
- KoLLaVA_Instruct-150k: instruction tuning
- license: Apache License 2.0
- v1.5:
- backbone: CLIP(ViT)+Synatra(7B)
- dataset:
- KoLLaVA-CC3M-Pretrain-595K: pretrain
- KoLLaVA-Instrurct-581k: instruction tuning
- license: cc-by-sa-4.0 (non-commercial)
- Training: (1) Frozen image encoder / text encoder์ ์ฐ๊ฒฐํ๋ projection layer์ ํ์ตํ๋ pretrain stage์, (2) instruction tuning์ ํ๋ fine-tuning stage๋ก ๋๋์ด ๋๋จ๊ณ๋ก ํ์ต
etri-vilab/Ko-LLaVA
- Demo
- ๋ง๋ ์ฌ๋: ETRI ์๊ฐ์ง๋ฅ์ฐ๊ตฌ์ค
- backbone: LLama(13b)
- space๋ง ๊ณต๊ฐ๋๊ณ ๋ชจ๋ธ weight์ด๋ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐ๋๊ฒ ์๋ค. ๋ช๊ฐ์ง ํ ์คํธํด๋ดค์ ๋ ์์ KoLLaVA๋ณด๋ค ์ฑ๋ฅ์ด ๋ง์ด ๋จ์ด์ง๋ ๊ฒ ๊ฐ๋ค.
- ์์)
๋ถ๋ก) LLaVA์ ๋น๊ต
LLaVA๋ ํ๊ตญ์ด๋ฅผ ์ด๋์ ๋ ํ ์ ์๋ค. (demo)
"in Korean" ํค์๋๋ ์ ์๋๋๊ฒ ๊ฐ๊ณ , ํ๊ตญ์ด๋ก ๋ฌผ์์ ๋ ์์ด๋ก ๋๋ตํ๋ ๋จ์ ์ด ์๋ค.
์์ธ๋ก ์์ด๋ก ์ง๋ฌธํ ๋ค์ ๋ต๋ณ์ ํ๊ตญ์ด๋ก ๋ฐ๊ฟ๋ฌ๋ผ๊ณ ํ๋ฉด ๊ด์ฐฎ๋ค.
VLP
jaketae/KoCLIP
- GitHub
- ๋ง๋ ์ฌ๋: GUIJIN SON, Hansol Park, Jake Tae, Trent Oh
- backbone: klue/roberta-large + CLIP(ViT)
- dataset: MSCOCO AIHub ํ๊ตญ์ด ๋ฒ์ญ ๋ฐ์ดํฐ
- license: Apache License 2.0
Bingsu/clip-vit-large-patch14-ko
- HuggingFace
- backbone: CLIP(ViT)
- dataset: AIHUB์ ์๋ ๋ชจ๋ ํ๊ตญ์ด-์์ด ๋ณ๋ ฌ ๋ฐ์ดํฐ
- license: MIT
- training:
- Knowledge distillation ์ด์ฉ (์์ด๋ก text encoder์ teacher model๋ก ํ๊ณ , ํ๊ตญ์ด text encoder์ student model๋ก ํด์ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ด๋ค - Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation)
- training code
SeanForHim/KoBEiT3
- HuggingFace
- GitHub
- backbone: BEiT3-large
- tokenizer: korean sentencepiece tokenizer trained on kor wikipedia
- dataset: AIHUB ์๊ฐ์ ๋ณด ๊ธฐ๋ฐ ์ง์์๋ต
- license: ๊ธฐ์ฌ ์๋์ด ์์ผ๋ BEiT3์ Microsoft open source code of conduct๋ฅผ ๋ฐ๋ฆ
'๐ Deep Learning > Etc.' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฅ๋ฌ๋ ๋ ผ๋ฌธ ์ ์๋ค์ paper talk ์์นด์ด๋ธ ์ฌ์ดํธ Papertalk (0) | 2022.07.13 |
---|---|
EdgesCats (0) | 2021.07.19 |
๋ฅ๋ฌ๋ SOTA ๋ ผ๋ฌธ ์์นด์ด๋ธ ์ฌ์ดํธ Papers with Code (0) | 2020.12.23 |