본문 바로가기

통계

공분산과 상관관계

반응형

공분산은

확률변수 X의 편차와 확률변수 Y의 편차를 곱한 것의 평균값이다.

식으로는 다음과 같이 나타낼 수 있다.

뮤X와 뮤Y는 X와 Y의 평균값이다. 식을 읽어보면, 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이다.

공분산이 0보다 크면 X가 증가할 때, Y가 증가한다는 뜻이다. 반대로 공분산이 0보다 작으면 X가 감소할 때, Y도 감소한다는 뜻이다. 공분산은 이렇게 두 변수가 양의 상관관계인지, 혹은 음의 상관관계인지를 보여준다.

킹치만 공분산은 확률변수 단위 크기에 영향을 많이 받는다는 단점이 있다. 그래서 단위가 다른 확률변수들의 공분산은 값을 비교하는게 어려움...

그럼 어떡하냐구... 다 똑똑한 넘들이 보완할 점을 만들어냄.

바로 상관계수

상관계수는 우리가 구한 공분산을 X표준편차와 Y표준편차의 곱으로 나누어서 구하면 됨! 이렇게 하면 단위가 약분되어 상관계수간의 비교가 가능함!

이렇게 상관계수를 구하면
그 값이 1 또는 -1 에 값이 가까울수록 확률변수X와 확률변수 X의 상관성의 크기가 크다는 것을 알 수 있다!

반응형