CVPR 2019์ ๋ฐํ๋ ๋ ผ๋ฌธ์ธ
Class-Balanced Loss Based on Effective Number of Samples
๋ฅผ ์ ๋ฆฌํ ๊ธ์ ๋๋ค.
๋ฐ์ดํฐ์ ์ Class Imbalance๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ก์ด Loss Design๋ฅผ ์ ์ํ๋ ๋ ผ๋ฌธ์ ๋๋ค.
Long Tailed Dataset
์ ๊ทธ๋ฆผ์ ๊ฐ Class์ ์ํ๋ Sample์ ๊ฐฏ์๋ฅผ ๋ํ๋ธ ๊ทธ๋ํ์ธ๋ฐ์,
์ผ๋ถ ๋ช ๊ฐ์ Class์๋ง Sample๋ค์ด ๋ชฐ๋ ค ์๊ณ ,
๋๋ถ๋ถ์ Class์๋ ๋งค์ฐ ์ ์ ์์ Sample์ด ์๋ ๋ฐ์ดํฐ์ ์ Long Tailed Dataset์ด๋ผ๊ณ ํฉ๋๋ค.
์ด๋ฌํ ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๊ณ ํ์ตํ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ๋์ค์ง ์๋๋ฐ,
Large-scale, real-world ๋ฐ์ดํฐ์ ๋ค์ ๋ณดํต Long Tailed ํํ๋ฅผ ๋๊ณ ์๋ค๊ณ ํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ Long Tailed Dataset์ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ํค๊ธฐ ์ํ Loss design์ ์ ์ํ๊ณ ์์ต๋๋ค.
Existing Strategies
Long Tailed Dataset์ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ํค๊ธฐ ์ํ ์ฐ๊ตฌ๋ ์ด์ ์๋ ๋ง์ด ์งํ๋์ด ์์ต๋๋ค.
๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ ํฌ๊ฒ ๋ ๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ๋ก ๋๋ ์ ์๋๋ฐ์,
Re-sampling ๊ณผ Re-weighting ์ ๋๋ค.
Re-sampling์ ๋ฐ์ดํฐ์ ์ ์์ ํด Class Imbalance๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
Minor Class์ ์ํ์ ์ค๋ณตํ์ฌ ์ฌ์ฉํ๋ Over-sampling์ด ์๊ณ ,
Major Class์ ์ํ์ ์ผ๋ถ ์ ๊ฑฐํ์ฌ ์ฌ์ฉํ๋ Under-sampling์ด ์์ต๋๋ค.
ํ์ง๋ง ๋น์ฐํ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ๊ทผ๋ณธ์ ์ธ ํด๊ฒฐ์ฑ ์ด ๋์ง๋ ๋ชปํฉ๋๋ค.
Over-sampling์ overfitting์ด ๋ฐ์ํ ์ ์๊ณ , under-sampling์ ๊ท์คํ sample๋ค์ ๋ฒ๋ฆด ์ ์๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
๋ฐ๋ผ์ Re-weighting์ ๋ฐฉํฅ์ผ๋ก ๋ง์ ์ฐ๊ตฌ๊ฐ ์งํ๋์๋๋ฐ์,
์ด๋ Minor Class์ Loss์ ๋ ํฐ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๋ฐฉ์์ ๋๋ค.
(1) Class frequency์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํด์ฃผ๋ ๋ฐฉ์๊ณผ,
์ด๋ฅผ ๋ฐ์ ์์ผ (2) Class frequency์ Square root์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํด์ฃผ๋ ๋ฐฉ์์ด ์ ์๋์์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ์ ์ญ์ Re-weighting์ ํ ์ข ๋ฅ์ ๋๋ค.
๋ค๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ๋ค๋ฅด๊ฒ Sample์ Effective number์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํด์ฃผ๋ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
Effective Number of Samples
๋ณธ ๋ ผ๋ฌธ์ Effective Number of Samples๋ฅผ ์ฌ์ฉํ์ฌ Loss์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํฉ๋๋ค.
๊ทธ๋ ๋ค๋ฉด Effective Number์ด๋ ๋ฌด์์ผ๊น์?
๊ฐ๋จํ๊ฒ ๋งํ๋ฉด Data ๊ฐ์ Information Overlap์ ๋ํ๋ด๋ ์์น์ ๋๋ค.
Sample์ ์๊ฐ ๋์ด๋ ์๋ก, Model์ด Data๋ก๋ถํฐ ์ป์ ์ ์๋ Marginal benefit์ ์ค์ด๋ญ๋๋ค.
์ฒ์ ๋ช ๊ฐ์ Sample๋ง ์์ ๋์๋ ๊ฐ๊ฐ์ Sample๋ค์ด ์๋ก ๋ค๋ฅธ ์ ๋ณด๋ฅผ ์๋ ค์ฃผ์ง๋ง,
Sample์ ์๊ฐ ๋ง์์ง์๋ก ๊ฐ Sample์ด ๊ฐ์ง๊ณ ์๋ ์ ๋ณด ๊ฐ์ Overlap์ด ๋ฐ์ํ๊ธฐ ๋๋ฌธ์,
Model์ด ๋ฐฐ์ฐ๋ ์๋ก์ด ์ ๋ณด์ ์์ ์ ์ ์ค์ด๋ ๋ค๋ ๊ฒ์ด์ฃ .
Effective Number์ ๊ตฌํ๊ธฐ ์ํด Random Covering Problem์ ์ ์ํฉ๋๋ค.
- ์ด๋ค Class์ ํด๋นํ๋ ๋ชจ๋ Data๋ค์ ์งํฉ์ set S๋ผ๊ณ ํ๊ณ , ์ด set์ Volume์ N์ด๋ผ๊ณ ํฉ๋๋ค.
- ๊ฐ๊ฐ์ Sample์ set S์ subset์ ํด๋นํ๊ณ , Volume์ 1์ ๋๋ค.
- Sample๋ค์ ์๋ก Overlapํ ์ ์์ต๋๋ค.
- Sample๋ค์ Randomํ๊ฒ ์ถ์ถ๋๊ณ , ์ ์ฒด set S๋ฅผ Coverํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
Sample๋ค์ด Randomํ๊ฒ ์ถ์ถ๋ ๋, ์ด๋ค์ด Coverํ๋ Volume์ ์ ์ ์ฆ๊ฐํฉ๋๋ค.
ํ์ง๋ง Sample๋ค ๊ฐ์ Overlap์ด ๋ฐ์ํ๊ณ , Sample ์๊ฐ ๋ฐ์ํ ์๋ก Overlapํ ํ๋ฅ ์ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์
Sample์ ์๊ฐ ๋์ด๋ ์๋ก Volume์ ๊ธฐ๋๊ฐ์ ์ ์ ์ค์ด๋ญ๋๋ค.
์ฌ๊ธฐ์ Effective Number์ Sample๋ค์ Expected Volume์ผ๋ก ์ ์ํฉ๋๋ค.
Effective Number์ ๊ณ์ฐ์ ์ํด ๋ฌธ์ ๋ฅผ ์ข ๋ ๋จ์ํ์ํค๊ฒ ์ต๋๋ค.
- Partial Overlapping์ ์กด์ฌํ์ง ์์ต๋๋ค.
- ์ฆ, ์๋ก ๋ค๋ฅธ ๋ ๊ฐ์ Sample์ ์์ ํ Overlappingํ๊ฑฐ๋, ์๋ก Overlappingํ์ง ์์ต๋๋ค.
์์ ๊ฐ์ ์กฐ๊ฑด์ ์ถ๊ฐํ๋ฉด Overlapping์ด ๋ฐ์ํ ํ๋ฅ ๊ณผ, ๋ฐ์ํ์ง ์์ ํ๋ฅ ์ ๊ตฌํ ์ ์์ด
n๊ฐ์ Sample์ ์ถ์ถํ์ ๋์ Effective Number์ ์๋์ ๊ฐ์ด ๊ณ์ฐํ ์ ์์ต๋๋ค.
์ฆ๋ช ๊ณผ์ ์ ๊ฐ๋จํ๊ธฐ ๋๋ฌธ์ ์๋ฌธ์ ์ฒจ๋ถํ๊ฒ ์ต๋๋ค.
Effective Number์ ๋ํ ์์ ํ์ด ์ฐ๋ฉด ์๋์ ๊ฐ์ด ํํํ ์ ์์ต๋๋ค.
์ด๋ i๋ฒ์งธ ์ถ์ถํ Sample์ด Effective Number์ ๐ฝ^i ๋งํผ ๊ธฐ์ฌํจ์ ์๋ฏธํฉ๋๋ค.
Class-Balanced Loss
๋๋์ด ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ Loss Design๊น์ง ์์ต๋๋ค.
๋ฐ๋ก.. Loss์ ๊ฐ Class์ Effective Number์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค์น๋ฅผ ๊ณฑํด ์ฃผ๋ ๊ฒ์ ๋๋ค.
๋ค์์ i๋ฒ์งธ Class์ Effective Number์ธ๋ฐ์, (์์์ ๊ตฌํ ๊ฐ๊ณผ ๋์ผํฉ๋๋ค)
์ด ๋ n_i๋ Class i์ ์ํ๋ Sample์ ๊ฐ์๋ฅผ ์๋ฏธํฉ๋๋ค.
์ค์ ๋ก๋ N์ ๊ฐ์ ์ ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ ํ ๊ฐ์ ์ฐพ์์ผ ํ๋๋ฐ,
๊ฐ๊ฐ์ Class๋ง๋ค N๊ฐ์ ๋ค๋ฅด๊ฒ ํ๋ฉด Parameter์ ๊ฐ์๊ฐ ๋๋ฌด ๋ง์์ง๋๋ค.
๋ฐ๋ผ์ ๋ชจ๋ Class์ N_i ๊ฐ์ ํต์ผ์์ผ ์ฃผ๋ฉด i๋ฒ์งธ Class์ Effective Number์ ๋ค์๊ณผ ๊ฐ๊ฒ ๋ฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ์ ์ด์ฉํ Class-Balanced(CB) Loss๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ๐ฝ ๊ฐ์ ์ ํํ์ฌ ์ฃผ๋ฉด ๋๊ณ ,
Model๊ณผ Loss์ ์ข ๋ฅ์ ๋ฌด๊ดํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
Experiments
์คํ์ ์ฌ์ฉํ Loss์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Softmax Cross-entropy Loss
- Sigmoid Cross-entropy Loss
- Focal Loss
์ด ์ธ๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ต๋๋ค.
- CIFAR-10๊ณผ CIFAR-100์ ์ด์ฉํด ์ง์ ๋ง๋ Long Tailed Dataset (Imbalance์ ์ ๋๋ฅผ 5๊ฐ์ง๋ก ํ์ฌ ๋ง๋ฆ)
- iNaturalist 2017 & 2018 (Real-world Long Tailed Dataset ์ด๋ผ๊ณ ํ๋ค์)
- ImageNet (Long Tailed๊ฐ ์๋ Dataset์๋ ์คํ์ ์งํํด ๋ณด์์ต๋๋ค)
Long Tailed CIFAR-10๊ณผ CIFAR-100์ ๋ํ ์คํ ๊ฒฐ๊ณผ์ ๋๋ค.
๐ฝ๊ฐ์ผ๋ก๋ 0.9, 0.99, 0.999, 0.9999 ๋ค ๊ฐ์ง๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
๊ฐ Loss์ ๋ํ Error rate๋ฅผ ๋ํ๋์ผ๋ฉฐ
์๋ ์ผ๋ฐ์ ์ธ Loss๋ฅผ ์ด์ฉํ์ ๋,
์๋๋ Class-Balanced Loss๋ฅผ ์ด์ฉํ์ ๋์ ๊ฒฐ๊ณผ์ด๋ฉฐ ๊ฐ์ฅ ๊ฒฐ๊ณผ๊ฐ ์ข์๋ Loss์ Hyperparameter๋ง์ ๊ธฐ์ฌํ์ต๋๋ค.
๋ชจ๋ ๊ฒฝ์ฐ์์ CB Loss๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คฌ์ต๋๋ค.
ํน์ดํ ์ ์ผ๋ก๋, ๋ณดํต ๋น์ ์์ญ์์ Softmax Loss๊ฐ ์ฃผ๋ก ์ฌ์ฉ๋๋๋ฐ, CB Loss๋ฅผ ์ด์ฉํ ๊ฒฐ๊ณผ์์๋ Sigmoid์ Focal Loss๊ฐ ์ฑ๋ฅ์ด ๋ ์ข์๊ณ ,
CIFAR-10 ๋ฐ์ดํฐ์ ์์๋ ๐ฝ=0.9999์ผ ๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์์ผ๋, CIFAR-100 ๋ฐ์ดํฐ์ ์์๋ Imbalance์ ์ ๋์ ๋ฐ๋ผ ๊ฐ๊ธฐ ๋ค๋ฅธ ๐ฝ๊ฐ์์ ์ต๊ณ ์ฑ๋ฅ์ด ๋์๋ค๊ณ ํด์.
๐ฝ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ ํ๋ก ๋ํ๋ธ ๊ฒ์ ๋๋ค.
CIFAR-10์ ๊ฒฝ์ฐ ๐ฝ๊ฐ์ด ํด์๋ก ์ฑ๋ฅ์ด ๋ ์ข์์ก๊ณ ,
CIFAR-100์ ๊ฒฝ์ฐ ์์ ๐ฝ๊ฐ์ ์ฌ์ฉํ์ ๋๋ง ์ฑ๋ฅ ํฅ์์ด ์์๋ค๊ณ ํฉ๋๋ค.
๊ทธ ์ด์ ๋ฅผ ์์๋ด ์๋ค..
Effective Number์ ๊ณ์ฐ์์ ๋ค์ ๊ฐ์ ธ์ ๋ณด๊ฒ ์ต๋๋ค.
N์ด ์๋ฏธํ๋ ๊ฒ์ unique prototype์ ์๋ผ๊ณ ํ ์ ์์ต๋๋ค.
๋ณด๋ค Fineํ ๋ฐ์ดํฐ์ ์ Coarseํ ๋ฐ์ดํฐ์ ๋ณด๋ค ์์ N ๊ฐ์ ๊ฐ์ง๋ค๊ณ ์๊ฐํ ์ ์์ต๋๋ค.
CIFAR-100์ Class๋ค์ CIFAR-10๋ณด๋ค ๋ Fineํ๊ธฐ ๋๋ฌธ์ ๋ ์์ N ๊ฐ์ ๊ฐ์ง ๊ฒ์ด๊ณ , (์๋ฅผ ๋ค์๋ฉด CIFAR-100์ ์ฐธ์, ๋น๋๊ธฐ,.. ์ด๋ฐ Class๋ค์ด ์๋ค๋ฉด CIFAR-10์ ์ ๋ผ๋ ๋ ํฐ ๋ฒ์์ Class๋ค๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์ CIFAR-100์ Class๊ฐ ๋ Fineํ๋ค๋ ๊ฒ)๋ฐ๋ผ์ ๋ ์์ ๐ฝ๊ฐ์์ ์ ๋์ํ๋ค.. ๋ผ๊ณ ํด์ํ ์ ์๊ฒ ์ต๋๋ค.
iNaturalist์ ILSVRC ๋ฐ์ดํฐ์ ์ ๋ํ ์คํ๊ฒฐ๊ณผ๋ฅผ ๋ง์ง๋ง์ผ๋ก ๋ง๋ฌด๋ฆฌํ๊ฒ ์ต๋๋ค.
์ญ์ CB Loss์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋์ต๋๋ค.
Loss์ ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํด ์ฃผ๋ ๋ฐฉ์์ผ๋ก ๊ฐ๋จํ๊ฒ ๊ตฌํ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์
์ค์ ๋ก long tailed dataset์ ํ์ตํด์ผ ํ ์ผ์ด ์์ ๊ฒฝ์ฐ ํ ๋ฒ ์๋ํด ๋ณด์๋ ์ข์ ๊ฒ ๊ฐ์ต๋๋คโ๏ธ