본문 바로가기

통계

p-value를 올바르게 이해하기(부제: 조심해야하는 p값 해석)

반응형

데이터분석을 하게되면 통계학에 관심이 안갈 수 없다.

데이터를 분석하는 것이 '가설을 설정하고 이를 검증하는 과정' 이기 때문이다.

 

 

 p-value의 정의를 찾아보면 그 중 하나는

p-Value란 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것.

라고 서술한다. 말이 정말 어렵다.

 

저 문장을 해석하기 위해서는 문장 안에 있는 검정통계량, 귀무가설, 대립가설에 대한 이해가 필요하다.

검정통계량은 가설을 검정하기위해 사용되는 통계량

귀무가설은 모수간의 차이가 없음을 나타내는 가설을
대립가설은 모수간의 차이가 있음을 나타내는 가설을 말한다.

예컨대 어떠한 약에 따른 전후를 비교할 때,

귀무가설은 약을 섭취하기 전과 섭취한 후에 차이가 없다.
대립가설은 약을 섭취하기 전과 섭취한 후에 차이가 있다.
라고 가설을 세우게 된다.

높은 p-value는 어떤의미일까?
높은 p-value는 귀무가설에 대한 반박증거가 부족하다는 의미다.(증거가 불충분하다)
그러나 높은 p-value는 귀무가설이 옳다는 증거는 아니다.

i.e. 약을 섭취하기 전 후에 차이가 없다는 것을 반박하기 위한 증거가 부족한 것이지,

차이가 없다는 것을 증명하는 것은 아니다. (대충보면 말장난같지만 분명히 다르다)

 

그럼 낮은 p-value는 어떤 의미일까?
일반적으로 낮은 p-value는 우리가 세운 대립가설이 옳다는 것을 증명해준다고 이해한다.
수학적으로 이는 맞을 수 있겠지만 우리는 데이터를 더 관찰해보아야한다.
약을 섭취해 기능적 차이가 정말 미세하게 차이가 날 수 있지만, 이게 현실적으로는 의미가 없을 수 있다.

표본의 크기가 굉장히 늘어나면 이러한 미세한 차이에도 p-value값은 작아진다.

빅데이터가 보편화되고 굉장히 많은 데이터를 이용해 가설을 세우고 검증해질 수 있는 상황에서

크기가 커진 표본은 민감하게 반응해 우리에게 혼란을 초래할 수 있다.

 

동시에 우리가 유의수준을 5%로 잡았을 때
p-value가 5.1%라고 대립가설을 기각하고, 4.9%라고 대립가설을 채택한다고 말하는 것도

설득력이 부족하다.

따라서 p-value를 올바르게 이해하기 위해서는 데이터의 크기와 표본평균의 변화정도를 확인해야한다.

반응형