Apple์์ 2024๋ 1์ large pretrained image model์ธ AIM(Autoregressive Image Models)์ ๋ฐํํ๋ค. ์ฝ๋์ model weight์ด Github์ ๊ณต๊ฐ๋์ด ์๋ค.
๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/pdf/2401.08541.pdf
GitHub: https://github.com/apple/ml-aim/tree/main
AIM์ LLM์ ์๊ฐ์ ๋ฐ์ ๋ง๋ค์ด์ง ๋๊ท๋ชจ vision ๋ชจ๋ธ์ด๋ค. BEiT (2021), Masked autoencoder(MAE) (2021) ๋ฑ์ด masked language modeling (MLM)์ ํตํด ์ฌ์ ํ์ต ์ํจ ๊ฒ๊ณผ ๋ค๋ฅด๊ฒ, ์ฃผ์ด์ง ํจ์น๋ก ๋ค์ ํจ์น๋ฅผ ์์ธกํ๋ autoregressive object๋ฅผ ์ด์ฉํ์ฌ ์ฌ์ ํ์ต์ ์งํํ๋ค.
AIM์ ์ฃผ์ contribution์ vision ๋ชจ๋ธ๋ LLM๊ณผ ์ ์ฌํ scaling property๋ฅผ ๋ณด์ผ ์ ์๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๋ค๋ ์ ์ด๋ค. DINOv2 (2023) ์์๋ 142M์ฅ์ ์ด๋ฏธ์ง๋ก 460M ๋ชจ๋ธ์ ํ์ต์์ผฐ์ง๋ง, vision ๋ชจ๋ธ์ LLM์์์ scaling law๋ฅผ ๋ฐ๋ฅด์ง ์๋๋ค๊ณ ์ฃผ์ฅํ๊ณ , MAE์์๋ ๋น์ทํ๊ฒ ์๊ธฐํ๋ค. ๊ทธ๋ฌ๋ AIM์ 2B์ฅ ์ด๋ฏธ์ง์ ๋ํด 7B ๋ชจ๋ธ์ autoregressive objective๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ต์์ผฐ์ผ๋ฉฐ, ์ด ์ ๋์ ๊ท๋ชจ์์๋ saturation์ด ์ผ์ด๋์ง ์๋๋ค๋ ์ ์ ํ ๋๋ก large-scale vision model์ ์๋ก์ด ์งํ์ ์ด ๊ฐ๋ฅ์ฑ์ ํ์ธํ๋ค.

Related works
๋ณธ ์ฐ๊ตฌ์์๋ iGPT (2020) ์์ ์ฌ์ฉํ autoregressive objective๋ฅผ ์ฌ์ ํ์ต์ ์ฌ์ฉํ๋ค. ๋๋ค๋ฅธ pretrained vision model์ธ BEiT, MAE ๋ฑ์ BERT์ ์๊ฐ์ ๋ฐ์ MLM๋ฐฉ์์ ์ฌ์ฉํ๋ค. Contrastive method๋ค๋ ๋ผ๋ฒจ ์์ด ์ฌ์ ํ์ตํ๋ค๋ ์ ์์ ์ ์ฌํ๋ค๊ณ ๋ณผ ์ ์๋ค. ์ด๋ค์ ์์ ๋ชจ๋ธ ์ฌ์ด์ฆ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ง scaling์๋ ์ด๋ ค์์ด ์๋ค.
Method
Dataset
DFN dataset์์ 2B์ฅ ์ด๋ฏธ์ง๋ฅผ ์ถ์ถํ๊ณ ์ฌ๊ธฐ์ ImageNet์ ์์ด์ ์ฌ์ฉํ๋ค.
Objective

์ด๋ฏธ์ง๋ฅผ K๊ฐ์ ํจ์น๋ก overlap ์์ด ์๋ฅด๊ณ , next patch prediction์ ํ๋ค.
โxโkโlogP(xk|x<k)
MAE์ ์ ์ฌํ๊ฒ, normalized pixel-level regression loss๋ฅผ ์ฌ์ฉํ๋ค.
minฮธ1KโKk=1||หxk(ฮธ)โxk||22
Architecture
๊ธฐ๋ณธ์ ์ผ๋ก ViT ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ์์ธํ ํ๋ผ๋ฏธํฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.

์ด์ sequence์ ํจ์น๋ง ์ด์ฉํด attention์ ์ํํ๋๋ก ํ๋ causal mask๋ฅผ ์ ์ฉํ๋ค. ๊ทธ๋ฌ๋ downstream task์์๋ bidirectional self-attention์ ์ํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ๋ฐฉ์์ ์ฑ๋ฅ์ ๋จ์ดํธ๋ฆฐ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ โprefix transformerโ๋ฅผ ๋์ ํ๋ค. ์ฒ์ S๊ฐ์ ํจ์น๊ฐ "prefix"์ ํด๋นํ๋ค. ์ด๋ค์ ๋๋จธ์ง ํจ์น๋ฅผ ์์ธกํ๊ธฐ ์ํ context๋ก ์ฌ์ฉ๋๊ณ , ์ด๋ค์ autoregression prediction์์ ์ ์ธ๋๋ค.

Downstream tasks
Downstream task์ ๋ํด ํ๊ฐํ ๋๋ backbone์ ๋ชจ๋ freezeํ๊ณ classification head๋ง trainํ๋ค. Large model ์ด๋๋งํผ ์ ์ฒด๋ฅผ ๋ค์ finetuning ํด์ ์ฐ๋๊ฒ์ ๋๋ฌด ๋ญ๋น์ด๋ค.
๊ทธ๋ฌ๋ pretrain task์์๋ ํจ์น๋จ์ prediction๋ง ํ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง ๋จ์ token์ด ์์๋ค. Classification ๋ฑ์ ์ด๋ฏธ์ง ๋จ์ prediction์ ์ํด์๋ ํจ์น feature๋ค์ global average pooling์ ํ ์๋ ์์ง๋ง, attention pooling operation์ ํตํด global descriptor ๊ณ์ฐํ๋ ๋ก์ง์ ์ถ๊ฐํ๋ค.

Results
Impact of scaling

Pretrain loss์ classification accuracy๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ํ์ธํ ์ ์๋ค. Pretrain loss๊ฐ ์ค์ด๋ค์๋ก downstream task์ ์ฑ๋ฅ์ด ๋์์ง๋ ๊ฒ์ ํตํด pretrain objective๋ฅผ ์ ์ค์ ํ๋ค๊ณ ๋ณผ ์ ์๋ค. ๋ํ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ธ์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด๋ LLM์์์ ์์๊ณผ ์ ์ฌํ๋ค.
Ablations

Method์์ ์ค๋ช ํ ๋ค์ํ ๊ตฌ์กฐ์ ๋ํ ablation. ์ฐธ๊ณ ๋ก autoregression pattern์ ํจ์น๋ฅผ ์ด๋ค ์์๋ก ๋ฃ์ด์ค ๊ฒ์ธ๊ฐ์ ๋ํ ๋ด์ฉ์ธ๋ฐ, ์ผ๋ฐ์ ์ผ๋ก ์๊ฐํ๋ ๊ฐ๋ก-์ธ๋ก ์์๊ฐ ๊ฐ์ฅ ์ข์๋ค๊ณ ํ๋ค.

Pretrain objective
MLM ๋ฐฉ์๊ณผ๋ ๋น๊ต๋ฅผ ์งํํ๋ค. MLM๋ณด๋ค autoregressive๊ฐ ์ข๋ค๊ณ ํ๋ค.

Comparison with other pretrained models

๋ค๋ฅธ pretrained ๋ชจ๋ธ๋ค๊ณผ์ ๋น๊ต์ด๋ค. DINOv2๋ฅผ ์ ์ธํ๊ณ AIM์ด ๋ชจ๋ ์ด๊ฒผ๋๋ฐ, DINOv2๋ ๋ ๋์ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ๋ค๊ณ ํ๋ค. ๊ทธ๋ฆฌ๊ณ DINOv2๋ ์ฌ๋ฌ๊ฐ์ง ์์ง๊ตฌ๋ ํ ํ์ต ํธ๋ฆญ๋ค์ ํฌ๊ฒ ์์กดํ๊ณ ์๋๋ฐ, AIM์ ํ์ต ๋ฐฉ๋ฒ์ด ๋งค์ฐ ๊ฐ๋จํ๋ค๊ณ ํ๋ค (...)
๊ทผ๋ฐ AIM์ ์ ์ธํ๊ณ 2๋ฑ์ธ iBOT๊ณผ ๋น๊ตํด๋ด๋ iBOT์ ํ๋ผ๋ฏธํฐ ์๋ 300M๊ฐ์ ๋์ด๋ค. AIM-0.6B์ ์ ๋ฐ ์ ๋์ธ๋ฐ๋ ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ์๋ง ํ์ ํ๋ผ๋ฏธํฐ ๊ฐฏ์๋ฅผ ์ ์ ์ด๋์ ๊ฒ์ ์ด๋ฐ ๋ถ๋ฆฌํจ ๋๋ฌธ ์๋์์๊น..
ํ๊ธฐ
์ด์ pretrain vision ๋ชจ๋ธ๋ค์ MLM์ ์ฃผ๋ก ์ฌ์ฉํ๊ณค ํ๋๋ฐ ๋ณธ ๋ ผ๋ฌธ์์๋ 2020๋ iGPT์์ ์ฌ์ฉํ autoregressive task๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. vision ๋ชจ๋ธ์์๋ LLM์ฒ๋ผ ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ฆ๊ฐํ๋ scaling law๊ฐ ์์ฉํ ์ ์์์ ๋ณด์๋ค.
๊ทธ๋ฌ๋ ๋ช๊ฐ์ง ์๋ฌธ์ ์ ..
- ๋ง์ง๋ง result์์ ๋ณด๋ฏ์ด ํ๋ผ๋ฏธํฐ ์๊ฐ ์์ฒญ๋๊ฒ ํฐ๊ฒ ์น๊ณ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ์ข์๊ฑด ์๋
- ํ์ต ์ฅ๋น์ ํ์ต์ ์์๋ ์๊ฐ์ ์์ ์ด๋์. ๊ทธ๋ฆฌ๊ณ ๊นํ์ ํ์ต ์ฝ๋์ loss ์ฝ๋๊ฐ ์๋ค.
- ํ๋ผ๋ฏธํฐ ์๋ฅผ 2B๊น์ง ํค์๋ ์ฑ๋ฅ์ด saturation ๋์ง ์์๋ค๊ณ ํ๋๋ฐ, ๊ทธ๋ฌ๋ฉด DINOv2๋ฅผ ์ด๊ธธ๋๊น์ง ํ๋ฒ๋ scaling์ ์ํ ์ด์ ๋..?