ICLR2020์ ๋ฐํ๋ ๋ ผ๋ฌธ์ธ
Deep Double Descent: Where Bigger Models and More Data Hurt
๋ฅผ ๋ฐํ์ผ๋ก ์ ๋ฆฌํ ๊ธ์ ๋๋ค.
๋ค์ํ Deep Learning task์์ ๋ฐ๊ฒฌ๋๋ Double-descent๋ผ๋ ํ์์ Model complexity ๊ด์ ์์ ํด์ํ๊ณ ,
์ด๋ค ๊ฒฝ์ฐ์์๋ Model complexity๋ Train epoch๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ฑ๋ฅ์ ํ๋ฝ์ํฌ ์๋ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค.
Classical Statistics vs. Modern Neural Networks
1) Classical Statistics: Bias-variance trade-off์ ๋ฐ๋ฅด๋ฉด, Model complexity๊ฐ ์ผ์ ์์ค ์ด์ ์ปค์ง๋ฉด Overfitting์ด ๋ฐ์ํด ์คํ๋ ค ์ฑ๋ฅ์ด ํ๋ฝํฉ๋๋ค.
2) Modern Neural Networks: ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์คํ๋ ค ๋ชจ๋ธ์ด ํด์๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. (Bigger models are better)
3) Training time์ ๊ดํด์๋ ์๊ฒฌ์ด ๋ถ๋ถํฉ๋๋ค. ์ด๋ค ๊ฒฝ์ฐ์์๋ Early stopping์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ์ฑ๋ฅ์ด ๋๊ณ , ์ด๋ค ๊ฒฝ์ฐ์์๋ Epoch์ ํฌ๊ฒ ํ ์๋ก ์ข๋ค๊ณ ์๊ธฐํ๊ณ ์์ฃ .
์ ์ํฉ๋ง๋ค ์ด๋ ๊ฒ ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํ ๊น์?
Two Regimes of Deep Learning Setting
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ Setting์ ๋ฐ๋ผ ๋ ๊ฐ์ง Regime์ด ์กด์ฌํ๋ค๊ณ ๋งํฉ๋๋ค.
1. Under-parameterized regime (Classical Regime): Sample์ ์์ ๋นํด ๋ชจ๋ธ์ Complexity๊ฐ ์์ ๊ฒฝ์ฐ.
์ด ๊ฒฝ์ฐ, ๋ชจ๋ธ์ Complexity์ ๋ํ Test error์ ํจ์๋ Classical bias/variance tradeoff๋ฅผ ๋ฐ๋ฅด๋ U๋ชจ์ ํํ๋ฅผ ๋ํ๋ ๋๋ค.
2. Over-parameterized regime (Modern Regime): ๋ชจ๋ธ์ Complexity๊ฐ ์ถฉ๋ถํ ์ปค์ Train error๊ฐ 0์ ์๋ ดํ๋ ๊ฒฝ์ฐ.
์ด ๊ฒฝ์ฐ ๋ชจ๋ธ์ Complexity๋ฅผ ์ฆ๊ฐ์ํฌ์๋ก Test error์ ๊ฐ์ํฉ๋๋ค.
์์ ๋ฌ๋ฆฌ, Modern intuition์ธ "Bigger models are better"์ ๋ฐ๋ฅด๋ ๊ฒฝ์ฐ์ ๋๋ค.
๋จ์ํ ๋งํด, Model Complexity์ ๋ฐ๋ฅธ Test error์ด ๊ฐ์->์ฆ๊ฐ->๊ฐ์์ ํํ๋ฅผ ๋๊ฒ ๋๋๋ฐ์,
์ด๋ฌํ ํ์์ 2018๋ Belkin ๋ฑ์ด "Double descent"๋ผ๊ณ ๋ช ๋ช ํ๊ณ , ๋ค์ํ ML ๋ฐ DL task์์ ๋ํ๋จ์ ๋ณด์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋
- Effective Model Complexity (EMC)๋ผ๋ Complexity measurement๋ฅผ ๋์ ํ์ฌ Double descent์ ๋ํ ์ ์๋ฅผ ์ธ์ ๊ณ ,
- ์คํ์ ํตํด ์ค์ ๋ก ๋งค์ฐ ๋ค์ํ setting์์ Double descent๊ฐ ๋ฐ์ํจ์ ๋ณด์์ต๋๋ค.
Effective Model Complexity (EMC)
Effective Model Complexity (EMC)๋ Model Complexity๋ฅผ ๋ํ๋ด๋ ์ฒ๋์ ๋๋ค. ์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์ S๋ n๊ฐ์ Sample์ ๊ฐ๊ณ ์๋ Train dataset์ ๋๋ค.
๊ฐ๋จํ ๋งํ์๋ฉด, EMC๋ ๋ชจ๋ธ์ Train error์ด 0์ ๊ฐ๊น๊ฒ ์๋ ดํ๊ฒ ๋ง๋๋ ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ์๋ฏธํฉ๋๋ค.
EMC๊ฐ ํด์๋ก Model Complexity๊ฐ ๋์์ ์๋ฏธํฉ๋๋ค.
์ด EMC๋ฅผ ์ด์ฉํ์ฌ Generalized Double Descent hypothesis๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํฉ๋๋ค.
1) EMC๊ฐ Dataset ํฌ๊ธฐ๋ณด๋ค ์ถฉ๋ถํ ์์ ๊ฒฝ์ฐ : Under-parameterized regime
์ด ๋ EMC๋ฅผ ์ฆ๊ฐ์ํค๋ฉด Test error์ ์ค์ด๋ ๋ค.
2) EMC๊ฐ Dataset ํฌ๊ธฐ๋ณด๋ค ์ถฉ๋ถํ ํฐ ๊ฒฝ์ฐ : Over-parameterized regime
์ด ๋ EMC๋ฅผ ์ฆ๊ฐ์ํค๋ฉด Test error์ ์ค์ด๋ ๋ค.
3) EMC๊ฐ Dataset ํฌ๊ธฐ์ ๋น์ทํ ๊ฒฝ์ฐ : Critically parameterized regime
์ด ๋ EMC๋ฅผ ์ฆ๊ฐ์ํค๋ฉด Test error์ ์ค์ด๋ค๊ฑฐ๋ ๋์ด๋๋ค.
์์ ๊ทธ๋ํ์ ๊ฐ ๊ตฌ๊ฐ์ ๋ค์ ํ์ํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
์ด์ ๊ฐ์ด EMC๋ผ๋ ๊ฐ๋ ์ ๋์ ํด Double descent๋ฅผ ์ค๋ช ํ์ต๋๋ค.
๋ฐ๋ผ์ Interpolation threshold(EMC=n์ธ ์ง์ )์ ๊ธฐ์ค์ผ๋ก,
- Critical interval ์ธ๋ถ์์๋ Model complexity๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์ฑ๋ฅ์ ๋์์ด ๋๋
- Critical interval ๋ด๋ถ์์๋ Model complexity๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด ์คํ๋ ค ์ฑ๋ฅ์ ๋จ์ดํธ๋ฆด ์ ์๋ค
๋ผ๊ณ ์๊ธฐํ๊ณ ์์ต๋๋ค.
ํ์ง๋ง Critical interval์ ๋๋น๊ฐ ์ด๋ ์ ๋์ธ์ง๋ Data distribution๊ณผ Training procedure์ ์ข ๋ฅ ๋ฑ์ ๋ฐ๋ผ ๊ฐ๊ฐ ๋ค๋ฅธ๋ฐ, ์ด์ ๋ํด์๋ ์์ง ์ ํํ๊ฒ ์์ง ๋ชปํ๋ค๊ณ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ด hypothesis๊ฐ informalํ๋ค๊ณ ์๊ธฐํ๊ณ ์์ด์.
Experiments
์ ๋ง ๋ค์ํ ์คํ์ ํตํด ์์ hypothesis๋ฅผ ๊ฒ์ฆํ์ต๋๋ค. ๋ช ๊ฐ์ง์ ์คํ ๊ฒฐ๊ณผ๋ง ์๊ฐํ๋๋ก ํ๊ฒ ์ต๋๋ค. ๋ ผ๋ฌธ์์ ์์ธํ ์คํ ๋ด์ฉ๊ณผ ๋ ๋ง์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์ค ์ ์์ต๋๋ค.
- Model-wise Double Descent: ๋ค์ํ Datsaet, model architecture, optimizer, number of train samples, training procedures์ ๋ํด ์คํ์ ์งํํด model size์ ๋ฐ๋ฅธ double descent ํ์์ ๊ด์ฐฐํ๊ณ , test error peak์ด interpolation threshold์์ ๋ํ๋๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค. Bigger models are worse
- Epoch-wise Double Descent: model size ๋ฟ ์๋๋ผ epoch์ ๋ํด์๋ double descent ํ์์ ๊ด์ฐฐํ์์ต๋๋ค. Training longer can correct overfitting