๐ŸŒŒ Deep Learning/ํ‰๊ฐ€

T test ์™€ P value

๋ณต๋งŒ 2021. 10. 28. 18:03

T test๋ž€?

T test๋Š” ๋‘ group๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์–ผ๋งˆ๋‚˜ "significant"ํ•œ์ง€๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ฆ‰, ๋‘ group๊ฐ„์˜ ์ฐจ์ด๊ฐ€ "์šฐ์—ฐํžˆ" ์ผ์–ด๋‚œ ์ผ์ผ ํ™•๋ฅ ์„ ์ธก์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ณดํ†ต ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์ ์€ ๊ฒฝ์šฐ์— ์‚ฌ์šฉํ•œ๋‹ค.

 

ํ•˜๋‚˜์˜ ์˜ˆ์‹œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ œ์•ฝํšŒ์‚ฌ์—์„œ ์ƒˆ๋กœ์šด ํ•ญ์•”์ œ๋ฅผ ๊ฐœ๋ฐœํ•ด ์ด๊ฒƒ์ด ๊ธฐ๋Œ€์ˆ˜๋ช…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์กฐ์‚ฌํ•˜๊ณ  ์‹ถ๋‹ค๊ณ  ํ•˜์ž. ์ด๋Ÿฌํ•œ ์‹คํ—˜์„ ์ง„ํ–‰ํ•  ๋•Œ์—๋Š”, ํ•ญ์ƒ ๋Œ€์กฐ๊ตฐ(placebo ๋ณต์šฉ)์ด ์กด์žฌํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋Œ€์กฐ๊ตฐ์˜ ๊ธฐ๋Œ€์ˆ˜๋ช…์ด ํ‰๊ท ์ ์œผ๋กœ 5๋…„ ์ฆ๊ฐ€ํ–ˆ๊ณ , ์‹คํ—˜๊ตฐ(์‹ค์ œ ํ•ญ์•”์ œ ๋ณต์šฉ)์˜ ๊ธฐ๋Œ€์ˆ˜๋ช…์ด ํ‰๊ท ์ ์œผ๋กœ 6๋…„ ์ฆ๊ฐ€ํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค๋ฉด, ์–ธ๋œป ๋ณด๊ธฐ์—๋Š” ํ•ญ์•”์ œ๊ฐ€ ์‹ค์ œ๋กœ ๊ธฐ๋Œ€์ˆ˜๋ช…์„ ๋Š˜๋ ค์ฃผ๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์–ด ๋ณด์ธ๋‹ค. ์‹ค์ œ๋กœ ์ด๊ฒƒ์ด ์šฐ์—ฐ์— ์˜ํ•ด ๋ฐœ์ƒํ•œ ์ผ์ธ์ง€, ์•„๋‹Œ์ง€๋ฅผ T test๋Š” ํ™•๋ฅ ์„ ํ†ตํ•ด ์•Œ๋ ค์ค„ ์ˆ˜ ์žˆ๋‹ค.

 

 

T value์™€ Degrees of Freedom

T test์˜ ๊ฒฐ๊ณผ๋กœ ๋‘ ๊ฐœ์˜ output์„ ์–ป๊ฒŒ ๋œ๋‹ค. ํ•˜๋‚˜๋Š” T value (T score)๋กœ, ๋‘ group ๊ฐ„์˜ ์ฐจ์ด์™€, ๊ฐ group ๋‚ด๋ถ€์˜ ์ฐจ์ด(variance)์˜ ๋น„์œจ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.  T value๊ฐ€ ํฌ๋‹ค๋Š” ๊ฒƒ์€, ๋‘ group ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ํผ์„ ์˜๋ฏธํ•˜๊ณ , T value๊ฐ€ ์ž‘๋‹ค๋Š” ๊ฒƒ์€, ๋‘ group ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์ž‘๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

 

๋‹ค๋ฅธ ํ•˜๋‚˜์˜ output์€ Degrees of Freedom์œผ๋กœ, ๊ฐ ๋ฐ์ดํ„ฐ์˜ ๊ฐ’๋“ค์— ๋Œ€ํ•œ ์ž์œ ๋„๋ฅผ ์ธก์ •ํ•œ๋‹ค. ๋ณดํ†ต ๋ฐ์ดํ„ฐ ๊ฐ’์˜ ๊ฐœ์ˆ˜๋ฅผ ์ด์šฉํ•ด ๊ณ„์‚ฐํ•œ๋‹ค.

 

์ด ๋‘ ๊ฐ’์€ T distribution table์„ ์ด์šฉํ•˜์—ฌ ๋‘ group ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ๋‹จ์ˆœํžˆ ์šฐ์—ฐ์— ์˜ํ•œ ๊ฒƒ์ธ์ง€, ์•„๋‹Œ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๋ฐ์— ์‚ฌ์šฉ๋œ๋‹ค.

 

 

P value

๊ฐ T value๋Š” ํ•˜๋‚˜์˜ P value๋ฅผ ๊ฐ–๋Š”๋‹ค. T value์™€ Degrees of Freedom์„ ์ด์šฉํ•˜์—ฌ, ๋Œ€์‘ํ•˜๋Š” P value๋ฅผ T distribution table์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค. P value๋ž€, ์–ด๋– ํ•œ sample data๋กœ๋ถ€ํ„ฐ ์˜จ ๊ฒฐ๊ณผ๊ฐ€ ์šฐ์—ฐํžˆ ์ผ์–ด๋‚ฌ์„ ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค (0% ~ 100%). ๋”ฐ๋ผ์„œ P value๋Š” ๋‚ฎ์„์ˆ˜๋ก ์ข‹๋‹ค(์šฐ์—ฐ์— ์˜ํ•ด ๋ฐœ์ƒํ•œ ์‚ฌ๊ฑด์ด ์•„๋‹Œ, ์‹ค์ œ๋กœ ์ธ๊ณผ๊ด€๊ณ„๊ฐ€ ์žˆ์–ด์„œ ์ผ์–ด๋‚œ ์ผ์ด๋ฏ€๋กœ). ์ผ๋ฐ˜์ ์œผ๋กœ, P value = 0.05 (5%) ์ดํ•˜์ผ ๋•Œ ํ•ด๋‹น data๊ฐ€ validํ•˜๋‹ค๊ณ  ๋ณด๋ฉฐ, ์ด ๊ธฐ์ค€์น˜๋ฅผ alpha level / significance level์ด๋ผ๊ณ  ํ•œ๋‹ค. Alpha level์˜ ๊ฐ’์€ ์‹คํ—˜์ž๊ฐ€ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋งŒ์•ฝ alpha level = 0.05๋กœ ์„ค์ •ํ•œ๋‹ค๋ฉด, ํ•ด๋‹น ์‹คํ—˜์ด 95%์˜ ์‹ ๋ขฐ๋„(confidence)๋ฅผ ๊ฐ–๊ณ  ์žˆ๋‹ค๊ณ  ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

(Optional) Null Hypothesis (๊ท€๋ฌด๊ฐ€์„ค)

(Null Hypothesis์— ๋Œ€ํ•œ ๋‚ด์šฉ์€ ๋ชฐ๋ผ๋„ T test๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.) Null hypothesis๋ž€ ๊ธฐ๊ฐํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๊ฐ€์„ค๋กœ, T test ์™ธ์—๋„ ๋‹ค์–‘ํ•œ ํ†ต๊ณ„์  ๊ฒ€์ฆ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋…์ด๋‹ค. T test๋Š” '๋‘ group๊ฐ„์˜ ํ‰๊ท  ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์—†๋‹ค (๋‘ group๊ฐ„์˜ ํ‰๊ท ์ด ๊ฐ™๋‹ค - ($\mu_1 = \mu_2$))'๋ผ๋Š” null hypothesis๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ๋งŒ์•ฝ P value๊ฐ€ alpha level๋ณด๋‹ค ์ž‘์œผ๋ฉด null hypothesis๊ฐ€ ๋งž์„ ํ™•๋ฅ ์ด ๋งค์šฐ ๋‚ฎ์€ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋˜์–ด null hypothesis๋ฅผ ๊ธฐ๊ฐํ•˜๊ณ , ๋”ฐ๋ผ์„œ ๋‘ group ๊ฐ„์˜ ํ‰๊ท  ์ฐจ์ด๊ฐ€ ์œ ์˜๋ฏธํ•œ ๊ฒƒ์œผ๋กœ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋Œ€์˜ ๊ฒฝ์šฐ, null hypothesis๋ฅผ ์ง€์ง€ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณธ๋‹ค. ์ด์— ๋Œ€ํ•œ ๋ณด๋‹ค ์ž์„ธํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ(KOR)์™€ ์—ฌ๊ธฐ(ENG)์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

T test์˜ ์ข…๋ฅ˜์™€ ๊ณ„์‚ฐ๋ฐฉ๋ฒ•

T test์—๋Š” ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ์„ธ ๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜๋‚˜๋Š” Correlated (or Paired) T test๋กœ, ๊ฐ™์€ group์—์„œ ๋‚˜์˜จ ๋‹ค๋ฅธ data๋ฅผ ๋น„๊ตํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ•œ ๋ช…์˜ ํ”ผํ—˜์ž์— ๋Œ€ํ•œ ์‹คํ—˜ ์ „/ํ›„์˜ ์ธก์ •๊ฐ’์„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค. Correlated T test์˜ ๊ณ„์‚ฐ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

Paired T test

 

๋‹ค๋ฅธ ๋‘ ๊ฐ€์ง€์˜ T test๋Š” ๋ชจ๋‘ Independent T test์— ์†ํ•œ๋‹ค. ์ด๋Š” ๋‘ group์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ ์ธ ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 100๋ช…์˜ ํ”ผํ—˜์ž๋“ค์„ 50๋ช…์˜ ๋Œ€์กฐ๊ตฐ๊ณผ 50๋ช…์˜ ์‹คํ—˜๊ตฐ์œผ๋กœ ๋‚˜๋ˆ„์–ด ์‹คํ—˜ํ•œ ๊ฒฝ์šฐ๋ฅผ ์ƒ๊ฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

๊ทธ ์ค‘ ํ•˜๋‚˜๋Š” ๋‘ group์˜ sample ์ˆ˜๊ฐ€ ๋™์ผํ•˜๊ฑฐ๋‚˜, ๋‘ group ๊ฐ„์˜ variance๊ฐ€ ์œ ์‚ฌํ•  ๋•Œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” Equal Variance (or Pooled) T test์ด๋‹ค. ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

Equal Variance T test

 

๋งˆ์ง€๋ง‰ type์€ Unequal Variance T test์ด๋‹ค. ๋‘ group ๊ฐ„์˜ sample ์ˆ˜๊ฐ€ ๋‹ค๋ฅด๊ณ , variance๊ฐ€ ๋‹ค๋ฅผ ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค. Welch's T test๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋ฉฐ, ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

 

Unequal Variance T test

 

 

Excel์„ ์ด์šฉํ•œ T test

https://support.microsoft.com/ko-kr/office/t-test-%ED%95%A8%EC%88%98-d4e08ec3-c545-485f-962e-276f7cbed055

 

T.TEST ํ•จ์ˆ˜

์‹œ๊ฐ„์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๊ตฌ๋…

support.microsoft.com

 

Excel์˜ T.TEST() ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ T test๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ์‚ฌ์šฉ๊ตฌ๋ฌธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

T.TEST(array1, array2, tails, type)

 

array1๊ณผ array2์— ๋Œ€ํ•œ T test๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. tails๋Š” T test์— ์‚ฌ์šฉํ•  T ๋ถ„ํฌ์˜ ํ•œ์ชฝ ๋(tail)๋งŒ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€(๋‹จ์ธก๊ฒ€์ •), ์–‘ ์ชฝ ๋์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•  ๊ฒƒ์ธ์ง€(์–‘์ธก๊ฒ€์ •)์— ๋Œ€ํ•œ parameter์ธ๋ฐ, ์ด์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์„ค๋ช…์€ ์—ฌ๊ธฐ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. type์€ ์œ„์—์„œ ์„ค๋ช…ํ•œ, T test์˜ ์ข…๋ฅ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

 

- Type=1 : Paired T test

- Type=2 : Equal Variance 

- Type=3 : Unequal Variance T test

 

์ฐธ๊ณ ์ž๋ฃŒ

https://www.statisticshowto.com/probability-and-statistics/t-test/

https://www.investopedia.com/terms/t/t-test.asp

 

๋ฐ˜์‘ํ˜•

'๐ŸŒŒ Deep Learning > ํ‰๊ฐ€' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Python์œผ๋กœ Multiclass sensitivity, specificity ๊ณ„์‚ฐํ•˜๊ธฐ  (0) 2021.10.14
Nested cross validation  (2) 2021.10.01