T test 와 P value

🌌 Deep Learning/평가

T test 와 P value

복만 2021. 10. 28. 18:03

T test란?

T test는 두 group간의 차이가 얼마나 "significant"한지를 의미한다. 즉, 두 group간의 차이가 "우연히" 일어난 일일 확률을 측정할 수 있다. 보통 데이터 수가 적은 경우에 사용한다.

하나의 예시는 다음과 같다. 제약회사에서 새로운 항암제를 개발해 이것이 기대수명에 미치는 영향을 조사하고 싶다고 하자. 이러한 실험을 진행할 때에는, 항상 대조군(placebo 복용)이 존재한다. 실험 결과 대조군의 기대수명이 평균적으로 5년 증가했고, 실험군(실제 항암제 복용)의 기대수명이 평균적으로 6년 증가했다고 한다면, 언뜻 보기에는 항암제가 실제로 기대수명을 늘려주는 효과가 있어 보인다. 실제로 이것이 우연에 의해 발생한 일인지, 아닌지를 T test는 확률을 통해 알려줄 수 있다.

T value와 Degrees of Freedom

T test의 결과로 두 개의 output을 얻게 된다. 하나는 T value (T score)로, 두 group 간의 차이와, 각 group 내부의 차이(variance)의 비율로 계산한다. T value가 크다는 것은, 두 group 간의 차이가 큼을 의미하고, T value가 작다는 것은, 두 group 간의 차이가 작다는 것을 의미한다.

다른 하나의 output은 Degrees of Freedom으로, 각 데이터의 값들에 대한 자유도를 측정한다. 보통 데이터 값의 개수를 이용해 계산한다.

이 두 값은 T distribution table을 이용하여 두 group 간의 차이가 단순히 우연에 의한 것인지, 아닌지를 판단하는 데에 사용된다.

P value

각 T value는 하나의 P value를 갖는다. T value와 Degrees of Freedom을 이용하여, 대응하는 P value를 T distribution table에서 찾을 수 있다. P value란, 어떠한 sample data로부터 온 결과가 우연히 일어났을 확률을 의미한다 (0% ~ 100%). 따라서 P value는 낮을수록 좋다(우연에 의해 발생한 사건이 아닌, 실제로 인과관계가 있어서 일어난 일이므로). 일반적으로, P value = 0.05 (5%) 이하일 때 해당 data가 valid하다고 보며, 이 기준치를 alpha level / significance level이라고 한다. Alpha level의 값은 실험자가 결정할 수 있다. 만약 alpha level = 0.05로 설정한다면, 해당 실험이 95%의 신뢰도(confidence)를 갖고 있다고 해석할 수 있다.

(Optional) Null Hypothesis (귀무가설)

(Null Hypothesis에 대한 내용은 몰라도 T test를 이해할 수 있다.) Null hypothesis란 기각할 것으로 예상되는 가설로, T test 외에도 다양한 통계적 검증에서 사용되는 개념이다. T test는 '두 group간의 평균 간의 차이가 없다 (두 group간의 평균이 같다 - ($\mu_1 = \mu_2$))'라는 null hypothesis를 검증하는 과정이다. 만약 P value가 alpha level보다 작으면 null hypothesis가 맞을 확률이 매우 낮은 것으로 판단되어 null hypothesis를 기각하고, 따라서 두 group 간의 평균 차이가 유의미한 것으로 판단할 수 있다. 반대의 경우, null hypothesis를 지지하는 것으로 본다. 이에 대한 보다 자세한 설명은 여기(KOR)와 여기(ENG)에서 확인할 수 있다.

T test의 종류와 계산방법

T test에는 사용되는 데이터에 따라 세 가지로 분류할 수 있다. 하나는 Correlated (or Paired) T test로, 같은 group에서 나온 다른 data를 비교한다. 예를 들어, 한 명의 피험자에 대한 실험 전/후의 측정값을 생각해볼 수 있다. Correlated T test의 계산방법은 다음과 같다.

다른 두 가지의 T test는 모두 Independent T test에 속한다. 이는 두 group의 데이터가 서로 독립적인 경우에 사용된다. 예를 들어, 100명의 피험자들을 50명의 대조군과 50명의 실험군으로 나누어 실험한 경우를 생각해 볼 수 있다.

그 중 하나는 두 group의 sample 수가 동일하거나, 두 group 간의 variance가 유사할 때 사용될 수 있는 Equal Variance (or Pooled) T test이다. 계산 방법은 다음과 같다.

마지막 type은 Unequal Variance T test이다. 두 group 간의 sample 수가 다르고, variance가 다를 때 사용된다. Welch's T test라고도 불리며, 계산 방법은 다음과 같다.

Excel을 이용한 T test

https://support.microsoft.com/ko-kr/office/t-test-%ED%95%A8%EC%88%98-d4e08ec3-c545-485f-962e-276f7cbed055

T.TEST 함수

시간을 최대한 활용하기 위한 구독

support.microsoft.com

Excel의 T.TEST() 함수를 이용하여 T test를 수행할 수 있다. 사용구문은 다음과 같다.

T.TEST(array1, array2, tails, type)

array1과 array2에 대한 T test를 수행한다. tails는 T test에 사용할 T 분포의 한쪽 끝(tail)만 사용할 것인지(단측검정), 양 쪽 끝을 모두 사용할 것인지(양측검정)에 대한 parameter인데, 이에 대한 자세한 설명은 여기에서 확인할 수 있다. type은 위에서 설명한, T test의 종류를 의미한다.

- Type=1 : Paired T test

- Type=2 : Equal Variance

- Type=3 : Unequal Variance T test

참고자료

https://www.statisticshowto.com/probability-and-statistics/t-test/

https://www.investopedia.com/terms/t/t-test.asp

'🌌 Deep Learning > 평가' 카테고리의 다른 글

Python으로 Multiclass sensitivity, specificity 계산하기 (0)	2021.10.14
Nested cross validation (2)	2021.10.01

현재글T test 와 P value

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

IBOK

T test 와 P value

T test란?

T value와 Degrees of Freedom

P value

(Optional) Null Hypothesis (귀무가설)

T test의 종류와 계산방법

Excel을 이용한 T test

참고자료

'🌌 Deep Learning > 평가' 카테고리의 다른 글

'🌌 Deep Learning/평가'의 다른글

티스토리툴바

T test 와 P value

T test란?

T value와 Degrees of Freedom

P value

(Optional) Null Hypothesis (귀무가설)

T test의 종류와 계산방법

Excel을 이용한 T test

참고자료

'🌌 Deep Learning > 평가' 카테고리의 다른 글

'🌌 Deep Learning/평가'의 다른글

관련글

티스토리툴바