Apple์์ 2024๋ 1์ large pretrained image model์ธ AIM(Autoregressive Image Models)์ ๋ฐํํ๋ค. ์ฝ๋์ model weight์ด Github์ ๊ณต๊ฐ๋์ด ์๋ค.
๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/pdf/2401.08541.pdf
GitHub: https://github.com/apple/ml-aim/tree/main
AIM์ LLM์ ์๊ฐ์ ๋ฐ์ ๋ง๋ค์ด์ง ๋๊ท๋ชจ vision ๋ชจ๋ธ์ด๋ค. BEiT (2021), Masked autoencoder(MAE) (2021) ๋ฑ์ด masked language modeling (MLM)์ ํตํด ์ฌ์ ํ์ต ์ํจ ๊ฒ๊ณผ ๋ค๋ฅด๊ฒ, ์ฃผ์ด์ง ํจ์น๋ก ๋ค์ ํจ์น๋ฅผ ์์ธกํ๋ autoregressive object๋ฅผ ์ด์ฉํ์ฌ ์ฌ์ ํ์ต์ ์งํํ๋ค.
AIM์ ์ฃผ์ contribution์ vision ๋ชจ๋ธ๋ LLM๊ณผ ์ ์ฌํ scaling property๋ฅผ ๋ณด์ผ ์ ์๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๋ค๋ ์ ์ด๋ค. DINOv2 (2023) ์์๋ 142M์ฅ์ ์ด๋ฏธ์ง๋ก 460M ๋ชจ๋ธ์ ํ์ต์์ผฐ์ง๋ง, vision ๋ชจ๋ธ์ LLM์์์ scaling law๋ฅผ ๋ฐ๋ฅด์ง ์๋๋ค๊ณ ์ฃผ์ฅํ๊ณ , MAE์์๋ ๋น์ทํ๊ฒ ์๊ธฐํ๋ค. ๊ทธ๋ฌ๋ AIM์ 2B์ฅ ์ด๋ฏธ์ง์ ๋ํด 7B ๋ชจ๋ธ์ autoregressive objective๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ต์์ผฐ์ผ๋ฉฐ, ์ด ์ ๋์ ๊ท๋ชจ์์๋ saturation์ด ์ผ์ด๋์ง ์๋๋ค๋ ์ ์ ํ ๋๋ก large-scale vision model์ ์๋ก์ด ์งํ์ ์ด ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.
Related works
๋ณธ ์ฐ๊ตฌ์์๋ iGPT (2020) ์์ ์ฌ์ฉํ autoregressive objective๋ฅผ ์ฌ์ ํ์ต์ ์ฌ์ฉํ๋ค. ๋๋ค๋ฅธ pretrained vision model์ธ BEiT, MAE ๋ฑ์ BERT์ ์๊ฐ์ ๋ฐ์ MLM๋ฐฉ์์ ์ฌ์ฉํ๋ค. Contrastive method๋ค๋ ๋ผ๋ฒจ ์์ด ์ฌ์ ํ์ตํ๋ค๋ ์ ์์ ์ ์ฌํ๋ค๊ณ ๋ณผ ์ ์๋ค. ์ด๋ค์ ์์ ๋ชจ๋ธ ์ฌ์ด์ฆ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ง scaling์๋ ์ด๋ ค์์ด ์๋ค.
Method
Dataset
DFN dataset์์ 2B์ฅ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํ๊ณ ์ฌ๊ธฐ์ ImageNet์ ์์ด์ ์ฌ์ฉํ๋ค.
Objective
์ด๋ฏธ์ง๋ฅผ K๊ฐ์ ํจ์น๋ก overlap ์์ด ์๋ฅด๊ณ , next patch prediction์ ํ๋ค.
$\sum_x \sum_k -\log P(x_k|x_{<k})$
MAE์ ์ ์ฌํ๊ฒ, normalized pixel-level regression loss๋ฅผ ์ฌ์ฉํ๋ค.
$\min_\theta \frac1K\sum_{k=1}^K||\hat x _k (\theta)-x_k||_2^2$
Architecture
๊ธฐ๋ณธ์ ์ผ๋ก ViT ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ์์ธํ ํ๋ผ๋ฏธํฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ด์ sequence์ ํจ์น๋ง ์ด์ฉํด attention์ ์ํํ๋๋ก ํ๋ causal mask๋ฅผ ์ ์ฉํ๋ค. ๊ทธ๋ฌ๋ downstream task์์๋ bidirectional self-attention์ ์ํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ฐฉ์์ ์ฑ๋ฅ์ ๋จ์ดํธ๋ฆฐ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ “prefix transformer”๋ฅผ ๋์ ํ๋ค. ์ฒ์ S๊ฐ์ ํจ์น๊ฐ "prefix"์ ํด๋นํ๋ค. ์ด๋ค์ ๋๋จธ์ง ํจ์น๋ฅผ ์์ธกํ๊ธฐ ์ํ context๋ก ์ฌ์ฉ๋๊ณ , ์ด๋ค์ autoregression prediction์์ ์ ์ธ๋๋ค.
Downstream tasks
Downstream task์ ๋ํด ํ๊ฐํ ๋๋ backbone์ ๋ชจ๋ freezeํ๊ณ classification head๋ง trainํ๋ค. Large model ์ด๋๋งํผ ์ ์ฒด๋ฅผ ๋ค์ finetuning ํด์ ์ฐ๋๊ฒ์ ๋๋ฌด ๋ญ๋น์ด๋ค.
๊ทธ๋ฌ๋ pretrain task์์๋ ํจ์น๋จ์ prediction๋ง ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ๋จ์ token์ด ์์๋ค. Classification ๋ฑ์ ์ด๋ฏธ์ง ๋จ์ prediction์ ์ํด์๋ ํจ์น feature๋ค์ global average pooling์ ํ ์๋ ์์ง๋ง, attention pooling operation์ ํตํด global descriptor ๊ณ์ฐํ๋ ๋ก์ง์ ์ถ๊ฐํ๋ค.
Results
Impact of scaling
Pretrain loss์ classification accuracy๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ํ์ธํ ์ ์๋ค. Pretrain loss๊ฐ ์ค์ด๋ค์๋ก downstream task์ ์ฑ๋ฅ์ด ๋์์ง๋ ๊ฒ์ ํตํด pretrain objective๋ฅผ ์ ์ค์ ํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๋ํ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ธ์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด๋ LLM์์์ ์์๊ณผ ์ ์ฌํ๋ค.
Ablations
Method์์ ์ค๋ช ํ ๋ค์ํ ๊ตฌ์กฐ์ ๋ํ ablation. ์ฐธ๊ณ ๋ก autoregression pattern์ ํจ์น๋ฅผ ์ด๋ค ์์๋ก ๋ฃ์ด์ค ๊ฒ์ธ๊ฐ์ ๋ํ ๋ด์ฉ์ธ๋ฐ, ์ผ๋ฐ์ ์ผ๋ก ์๊ฐํ๋ ๊ฐ๋ก-์ธ๋ก ์์๊ฐ ๊ฐ์ฅ ์ข์๋ค๊ณ ํ๋ค.
Pretrain objective
MLM ๋ฐฉ์๊ณผ๋ ๋น๊ต๋ฅผ ์งํํ๋ค. MLM๋ณด๋ค autoregressive๊ฐ ์ข๋ค๊ณ ํ๋ค.
Comparison with other pretrained models
๋ค๋ฅธ pretrained ๋ชจ๋ธ๋ค๊ณผ์ ๋น๊ต์ด๋ค. DINOv2๋ฅผ ์ ์ธํ๊ณ AIM์ด ๋ชจ๋ ์ด๊ฒผ๋๋ฐ, DINOv2๋ ๋ ๋์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ๋ค๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ DINOv2๋ ์ฌ๋ฌ๊ฐ์ง ์์ง๊ตฌ๋ ํ ํ์ต ํธ๋ฆญ๋ค์ ํฌ๊ฒ ์์กดํ๊ณ ์๋๋ฐ, AIM์ ํ์ต ๋ฐฉ๋ฒ์ด ๋งค์ฐ ๊ฐ๋จํ๋ค๊ณ ํ๋ค (...)
๊ทผ๋ฐ AIM์ ์ ์ธํ๊ณ 2๋ฑ์ธ iBOT๊ณผ ๋น๊ตํด๋ด๋ iBOT์ ํ๋ผ๋ฏธํฐ ์๋ 300M๊ฐ์ ๋์ด๋ค. AIM-0.6B์ ์ ๋ฐ ์ ๋์ธ๋ฐ๋ ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์๋ง ํ์ ํ๋ผ๋ฏธํฐ ๊ฐฏ์๋ฅผ ์ ์ ์ด๋์ ๊ฒ์ ์ด๋ฐ ๋ถ๋ฆฌํจ ๋๋ฌธ ์๋์์๊น..
ํ๊ธฐ
์ด์ pretrain vision ๋ชจ๋ธ๋ค์ MLM์ ์ฃผ๋ก ์ฌ์ฉํ๊ณค ํ๋๋ฐ ๋ณธ ๋ ผ๋ฌธ์์๋ 2020๋ iGPT์์ ์ฌ์ฉํ autoregressive task๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. vision ๋ชจ๋ธ์์๋ LLM์ฒ๋ผ ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ scaling law๊ฐ ์์ฉํ ์ ์์์ ๋ณด์๋ค.
๊ทธ๋ฌ๋ ๋ช๊ฐ์ง ์๋ฌธ์ ์ ..
- ๋ง์ง๋ง result์์ ๋ณด๋ฏ์ด ํ๋ผ๋ฏธํฐ ์๊ฐ ์์ฒญ๋๊ฒ ํฐ๊ฒ ์น๊ณ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ์ข์๊ฑด ์๋
- ํ์ต ์ฅ๋น์ ํ์ต์ ์์๋ ์๊ฐ์ ์์ ์ด๋์. ๊ทธ๋ฆฌ๊ณ ๊นํ์ ํ์ต ์ฝ๋์ loss ์ฝ๋๊ฐ ์๋ค.
- ํ๋ผ๋ฏธํฐ ์๋ฅผ 2B๊น์ง ํค์๋ ์ฑ๋ฅ์ด saturation ๋์ง ์์๋ค๊ณ ํ๋๋ฐ, ๊ทธ๋ฌ๋ฉด DINOv2๋ฅผ ์ด๊ธธ๋๊น์ง ํ๋ฒ๋ scaling์ ์ํ ์ด์ ๋..?