본문 바로가기

통계

A/B테스트

반응형

지표: Clike rate
A/B테스트: 기존의 사이트와 버튼을 변경한 사이트 툴을 50%의 확률로 랜덤하게 노출시킴.
기간: 1주일
지표 확인: 7일간 일별로 클릭율을 집계한 후 각각 비교-> 각각 비교가 어렵거나 숫자가 작을 경우 평균값 비교.

 

 

실습(2)
레벨을 올리는 퍼즐게임에서 유저가 게임을 할 때, 레벨 40에서 사용자들이 어려워서 많이 이탈하는 것으로 보여서, 레벨 40을 새로 디자인했다. 다만 이 레벨 변경으로 사용자 이탈이 해결 될 지 아닐 지 몰라서 A/B 테스트를 해보려고 한다. 이 때 어떤 지표를 잡아야할지 어떻게 테스트를 해야할지 구상.

가설: 레벨 40의 난이도를 쉽게 하면 사용자들이 덜 이탈할 것이다.
지표: 레벨 40을 1회 플레이한 후 3일 이내 다시 게임에 접속하는 사용자 비율.
A/B테스트 : 레벨 40의 판을 임의로 구분한 기준에 따라 사용자(예: 랜덤하게 특정 사용자에게는 기존판을 보여주고, 다른 특정 사용자에게는 새로운 판을 제공함)에게 제공
기간 : 21일( 최소 1주일 이상 진행할 것을 권장함.)
지표 확인 : 일별 레벨 40을 플레이한 사용자와 그 3일 이내 재접속한 사용자의 수를 세서 그 비율을 구한다. 전체 집계를 기본으로 사용하고 일별 비교, 주별 비교를 같이 사용해서 이상치가 있는 지를 살펴본다.

A/B테스트 평가

목적 지표의 해석


비교 전 확인
실험군과 대조군(A군과 B군)의 사용자 집합 크기가 동일한가?
A/B테스트는 그 크기가 동일하긴 어렵지만, 비슷한 수준이 되어야함.
실험군과 대조군의 사용자 분포가 크게 다르지 않는가?

 

확인 방법
집합크기가 다름. 1:1 비교 대신 집합 크기를 통한 비교의 유의성 판단
분포 파악: 성질이 다른 집합끼리의 비교는 무의미할 수 있음.

유의사항
실험으로 얻은 값은 항상 그와 동일한 결과를 담보하는 것이 아님.
실험 크기가 통제가 되지 않을 경우에는 사후 추정으로 판단할 수 있음.


이항분포
이항분포: 매회 사건 X가 일어날 확률이 동일한 독립시행의 경우에 있어서 확률변수X가 따르는 분포.

 

가설검정
통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정.

통계적 가설
특정 주장을 특정 변수(모수)에 대해서 나타낸 것을 뜻함. (예 : 이 수업을 듣는 사람들의 평균 만나이는 28살이다.)

절차
귀무가설과 대립가설 설정, 유의수준 설정
검정 통계량 설정
기각역 설정
검정통계량 계산

결과 기반 의사결정

A/B테스트에서의 가설 검정.


귀무가설과 대립가설.
귀무가설(영가설) : 실험군의 결과와 대조군의 결과의 차이가 없을 것이다.

유의수준
95%의 경우(일반적으로 많이 사용) (1-0.95)= 0.05가 유의수준이 됨.

유의확률(p-value)
귀무가설이 맞을 경우에 얻을 수 있는 결과보다 더 극단적인 값이 관측될 확률.
p-value가 작을수록 귀무가설과 양립하는 데이터가 나타날 확률이 낮음.
p-value가 작은 경우 귀무가설을 기각함.
p-value의 경우 표본 크기가 커짐에 따라 값이 달라지거나 특정 경우에 값이 커지는 등의 문제가 발생할 수 있음->

통계적 유의성과 현실 상에서의 문제를 고려해서 결과를 판단함.

 

결과값 비교
이항 분포의 상태 비교
해당 집단의 크기가 np>5, n(1-p)>5인지를 확인. (일반적으로 정규 분포를 적용하기에 무난한 정도의 확인)

비교군의 해당 지표에 대한 신뢰구간을 구한 뒤 실험군의 지표의 크기가 이 신뢰구간에 들어가는지(유사), 벗어나는지를 확인함.
독립 t-검정 등을 사용해서 유의성 및 차이 비교 가능.

 

실험 설계시 유의점
목표와 가설의 애매함.
A/B 테스트 같은 실제 환경에서의 실험에서는 실험 연구법과 같이 확정된 데이터와 연구환경이 존재하는 것이 아니라서 문제와 가설이 애매할 수 있음.
선행연구, 최대한 수치로 표현할 수 있는 정확한 목표 및 가설 설정, 관련 분야의 전문가 자문필요

데이터 수집.
사회윤리에 반하는 자료수집의 금지.
정확한 도구 제작의 어려움.
사회윤리에 반하지 않아도 사생활 관련 데이터 수집은 실험에 적절하지 않음.

 

자료의 정리와 구조 설정.
데이터의 집계 기준을 실험 전에 명확하게 설정해 놓아야 함.
데이터의 사용 방식 및 수집 절차 등에 대한 명확한 정의 필요.

해석설계의 문제
실험 전에 해석 방식 및 기준을 명확하게 마련해 두는 것이 좋음.
A/B테스트를 반복할 수 있으면 반복하는 것이 좋으나 일반적으로는 어려움.
데이터 수집 후 해석방식을 부득이하게 최대한 원래 실험의 목적과 지표를 해치지 않는 선에서 활용.

자료의 해석문제

A/B테스트의 결과는 해당 시점에서의 결과일 뿐이므로 작은 숫자 등에 너무 집착하지 않는다.
서비스의 특성에 따른 시계열성이나 사용자 트징 등을 고려해서 결과를 해석
최종 결과는 서비스의 목적이나 운영 방식 등을 반영해서 사용한다.


실험 후 서비스 운영시 주의점
실험 관련 내용은 기록으로 남겨두도록 함.
한 번에 과하게 많은 실험은 가능한 한 피하도록 함.
1. 실험간에 영향을 미칠 수 있음. 2. 데이터 기록에 문제가 생길 수 있음. 3. 사용자를 모두 구분하는 경우 모수가 불충분한 경우가 발생할 수 있음.
사용성이 불안정적이 되지 않도록 유의함.
이후 여러 데이터 분석 시에 이전 실험 내용으로 인한 영향이 미치지 않도록 함.
1. 실험 사용자는 따로 목록을 만들어 둔 후 이후에도 확인할 수 있도록 함.
2. 사용자에 대한 추적 분석을 통해서 이후 사용성에도 실험 내용이 영향을 미칠 수 있는 지를 확인해 두는 것이 필요.
A/B테스트를 자주 할 경우 관련 API 등을 구성해 두는 것도 필요.

 

반응형