본문 바로가기

반응형

통계

(8)
A/B테스트 지표: Clike rate A/B테스트: 기존의 사이트와 버튼을 변경한 사이트 툴을 50%의 확률로 랜덤하게 노출시킴. 기간: 1주일 지표 확인: 7일간 일별로 클릭율을 집계한 후 각각 비교-> 각각 비교가 어렵거나 숫자가 작을 경우 평균값 비교. 실습(2) 레벨을 올리는 퍼즐게임에서 유저가 게임을 할 때, 레벨 40에서 사용자들이 어려워서 많이 이탈하는 것으로 보여서, 레벨 40을 새로 디자인했다. 다만 이 레벨 변경으로 사용자 이탈이 해결 될 지 아닐 지 몰라서 A/B 테스트를 해보려고 한다. 이 때 어떤 지표를 잡아야할지 어떻게 테스트를 해야할지 구상. 가설: 레벨 40의 난이도를 쉽게 하면 사용자들이 덜 이탈할 것이다. 지표: 레벨 40을 1회 플레이한 후 3일 이내 다시 게임에 접속하는 사용자 ..
중심극한정리에 대해 알아보자 중심극한정리란 동일한 확률분포를 가진 독립확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리. 헷갈리지 말아야 할 것은 '표본평균의 분포'가 정규분포에 가까워지는 것이지, "표본의 평균이 모집단의 평균과 같다"는 것이 아니다. 표본의 평균은 샘플링 때마다 달라진다. i.e. 각각의 샘플에서 평균을 구한 뒤, 그 평균들의 분포를 그려보니 정규분포 모양에 근사한 것 그럼 중심극한정리가 왜 중요할까? 중심극한정리를 이용해 모집단이 어떤 형태의 분포를 가지는가에 관계없이 (e.g. 균등분포, 비균등분포, 정규분포)표본의 크기가 충분히 크다면, 표본평균의 분포가 정규분포에 가까워진다는 것을 이용해 모집단의 모수추정, 집단간 표본평균비교 등을 할 수 있다.
공분산과 상관관계 공분산은 확률변수 X의 편차와 확률변수 Y의 편차를 곱한 것의 평균값이다. 식으로는 다음과 같이 나타낼 수 있다. 뮤X와 뮤Y는 X와 Y의 평균값이다. 식을 읽어보면, 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이다. 공분산이 0보다 크면 X가 증가할 때, Y가 증가한다는 뜻이다. 반대로 공분산이 0보다 작으면 X가 감소할 때, Y도 감소한다는 뜻이다. 공분산은 이렇게 두 변수가 양의 상관관계인지, 혹은 음의 상관관계인지를 보여준다. 킹치만 공분산은 확률변수 단위 크기에 영향을 많이 받는다는 단점이 있다. 그래서 단위가 다른 확률변수들의 공분산은 값을 비교하는게 어려움... 그럼 어떡하냐구... 다 똑똑한 넘들이 보완할 점을 만들어냄. 바로 상관계수 상관계수는 우리가 구한 공분산을 X표준편차와 Y표준..
정규 분포에 대해 알아보자! 정규분포는 특정값의 출현비율을 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태가 나타나며, 좌우 극단으로 갈수록 급격하게 수치가 낮아지는 특징이 있다. 가우스가 처음 개념을 만들어 가우스 분포라고도 함. 그럼 표준정규분포는 먼데? 표준정규분포는 정규분포를 표준화 한 것! 평균=0 표준편차=1 로 만들면 됨! How? 개별데이터에서 전체 데이터의 평균을 빼고 해당 데이터의 표준편차로 나누어줌. 이렇게 표준화된 데이터를 z-score라고 함. 왜 표준화 하느냐? 그룹간의 데이터를 비교 하기 용이하게 만들려구! 예컨대 A반의 중간고사 성적과 B반의 중간고사 성적을 비교할 때 반별 학생들의 평균과 표준편차가 다를텐데 이럴 때 객관적인 비교를 위해서 점수를 표준화하는 작업을 해줘야한다! 수능 표준점수도 뭐 ..
로그함수를 취하는 이유 로그를 취하는 경우는 정규성을 높이고 분석 시에 정확한 값을 얻기위함이다. 데이터에 로그를 취하는 경우는 특히 데이터 숫자값이 크면 클수록 이 효과가 높아진다. 예컨대 나이보다는 재산보유액같이 숫자가 굉장히 큰 경우가 있을 수 있다. 재산보유액에 로그를 취할 경우, 데이터의 왜도와 첨도를 줄일 수 있어 정규성이 높아지는 효과를 얻는다. 예를 들어 10과 100의 경우 숫자의 차이는 90이다. 하지만 이 두 숫자에 상용로그를 취하게 될 경우 값은 1과 2로, 그 차이는 1에 불과하다. 또 일반적으로 자연로그를 취하게 될 경우 비선형관계를 선형관계로 만들 수 있다. (회귀분석의 전제는 x와 y가 선형관계이어야 하기 때문에 회귀분석을 위해 필요하다) 기하급수적으로 늘어나는 제곱형식의 그래프에 자연로그(ln)을..
모수적 방법과 비모수적 방법은 각각 언제 써야할까? 많은 통계적 추론은 모집단이 정규분포를 따른다는 가정에 의해서 출발한다. 이렇게 우리는 모수를 함수형태의 분포를 가정하여 접근하는 방법을 모수적 방법(Parametic method)이라고 한다. 반대로 모집단의 분포를 가정하지 않고 접근하는 방법을 비모수적 방법(Non-parametic method)라고 한다. 모수적 방법론은 다음과 같은 것들이 있다. 연속형 확률분포 정규분포, 일양분포, 지수분포, 로그정규분포, t분포, 카이제곱분포, f분포, 감마분포, 베타분포 등 이산형 확률분포 베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포, 음이항분포 등 그렇다면 비모수적 방법은 어디에 쓰일까? 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않는다 증명되거나, 표본의 개수가 10개 미만일 때 사용..
신뢰구간은 무엇일까? 신뢰구간이란? 신뢰구간은 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법 모집단을 통째로 조사하면 좋지만, 현실적으로 이는 불가능한 경우가 많기 때문에 표본을 추출하고, 이 표본을 토대로 모수를 추정한다. 추정은 점추정과 구간추정으로 나뉜다. 점추정은 "모수는 얼마야!" 하는 것이고 구간추정은 "모수가 대충 여기 어디쯤 몇 %확률로 있을거야" 하는 것이다. 그 확률은 신뢰수준(confidence level) 혹은 신뢰도라고 하고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 한다. 예시가 제일 이해하기 쉬운 사람이니깐 예시를 들어보자. 대통령 지지율을 알아보기 위해, 전국 남녀 1000명을 조사하여 지지율의 신뢰구간은 50%~54%이내로 신뢰도는 95%입니다 라는 결과가..
p-value를 올바르게 이해하기(부제: 조심해야하는 p값 해석) 데이터분석을 하게되면 통계학에 관심이 안갈 수 없다. 데이터를 분석하는 것이 '가설을 설정하고 이를 검증하는 과정' 이기 때문이다. p-value의 정의를 찾아보면 그 중 하나는 p-Value란 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것. 라고 서술한다. 말이 정말 어렵다. 저 문장을 해석하기 위해서는 문장 안에 있는 검정통계량, 귀무가설, 대립가설에 대한 이해가 필요하다. 검정통계량은 가설을 검정하기위해 사용되는 통계량 귀무가설은 모수간의 차이가 없음을 나타내는 가설을 대립가설은 모수간의 차이가 있음을 나타내는 가설을 말한다. 예컨대 어떠한 약에 따른 전후를 비교할 때, 귀무가설은 약을 섭취하기 전과 섭취한 후에 차이가 없다. 대립가설은 약을 섭취하기 전과 섭취한 후에 차..

반응형