본문 바로가기

반응형

전체 글

(70)
로그함수를 취하는 이유 로그를 취하는 경우는 정규성을 높이고 분석 시에 정확한 값을 얻기위함이다. 데이터에 로그를 취하는 경우는 특히 데이터 숫자값이 크면 클수록 이 효과가 높아진다. 예컨대 나이보다는 재산보유액같이 숫자가 굉장히 큰 경우가 있을 수 있다. 재산보유액에 로그를 취할 경우, 데이터의 왜도와 첨도를 줄일 수 있어 정규성이 높아지는 효과를 얻는다. 예를 들어 10과 100의 경우 숫자의 차이는 90이다. 하지만 이 두 숫자에 상용로그를 취하게 될 경우 값은 1과 2로, 그 차이는 1에 불과하다. 또 일반적으로 자연로그를 취하게 될 경우 비선형관계를 선형관계로 만들 수 있다. (회귀분석의 전제는 x와 y가 선형관계이어야 하기 때문에 회귀분석을 위해 필요하다) 기하급수적으로 늘어나는 제곱형식의 그래프에 자연로그(ln)을..
모수적 방법과 비모수적 방법은 각각 언제 써야할까? 많은 통계적 추론은 모집단이 정규분포를 따른다는 가정에 의해서 출발한다. 이렇게 우리는 모수를 함수형태의 분포를 가정하여 접근하는 방법을 모수적 방법(Parametic method)이라고 한다. 반대로 모집단의 분포를 가정하지 않고 접근하는 방법을 비모수적 방법(Non-parametic method)라고 한다. 모수적 방법론은 다음과 같은 것들이 있다. 연속형 확률분포 정규분포, 일양분포, 지수분포, 로그정규분포, t분포, 카이제곱분포, f분포, 감마분포, 베타분포 등 이산형 확률분포 베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포, 음이항분포 등 그렇다면 비모수적 방법은 어디에 쓰일까? 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않는다 증명되거나, 표본의 개수가 10개 미만일 때 사용..
신뢰구간은 무엇일까? 신뢰구간이란? 신뢰구간은 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법 모집단을 통째로 조사하면 좋지만, 현실적으로 이는 불가능한 경우가 많기 때문에 표본을 추출하고, 이 표본을 토대로 모수를 추정한다. 추정은 점추정과 구간추정으로 나뉜다. 점추정은 "모수는 얼마야!" 하는 것이고 구간추정은 "모수가 대충 여기 어디쯤 몇 %확률로 있을거야" 하는 것이다. 그 확률은 신뢰수준(confidence level) 혹은 신뢰도라고 하고, 그 추정한 구간을 신뢰구간(confidence interval)이라고 한다. 예시가 제일 이해하기 쉬운 사람이니깐 예시를 들어보자. 대통령 지지율을 알아보기 위해, 전국 남녀 1000명을 조사하여 지지율의 신뢰구간은 50%~54%이내로 신뢰도는 95%입니다 라는 결과가..
SQL 너 도대체 어떻게 공부 하는데...(경험을 중심으로) SQL 공부 어떻게 시작할지 고민하는 이들을 위해서 써보는 (주관적) 글 개인적으로는 이 글을 읽고 SQL의 활용성에 대해 충분히 이해할 수 있었다. 데이터분석을 하고 싶은 사람에게 추천한다! https://brunch.co.kr/@minu-log/5 데이터 분석, 먹고 들어가기 위한 SQL 공부법(1편) SQL, 수많은 정보에 압도당하지 않기 | 마케터의 데이터 분석 공부, 어디부터 시작해야 하나요?에서는 R이나 파이썬(Python) 등 프로그래밍 언어를 공부하기 전에 SQL부터 배워야 한다는 점을, 데이터 분석, SQL만 잘 다뤄도 먹고 들어갑니다에서는 SQL을 배워야 하는 이유를 이야기했습니다. 이번 글에서는 SQL을 어떻게 배우면 좋을지 이야기해보려 합니다. 이 글에서는 구체적인 SQL 문법 br..
서울 커피숍 탐색적 데이터 분석 프로젝트 1 도입&썰 코드를 다 쓴건 2주 정도 되었지만, 마크다운에서 수정의 수정을 거듭하며 좀 더 이쁜 보고서 형태로 만들려다보니 포스팅하기까지는 시간이 좀 걸렸다. 마크다운을 처음사용하는 것은 아니지만 R markdown에 적용되는 문법을 이것저것 써보면서 보고서 형태를 만드려고 노력했다. 아직까지도 이해가 잘 안되는 영역은 '#' 을 2개 넣을경우 글 문단의 모양이 달라지는데, 어디는 잘 적용이 되고 어디는 적용이 안되어, 중간중간 이빠진 것 같은 느낌의 문서가 되고 말았다. ㅠㅠ rpubs을 통해 작성하면 좋은 것은 plotly를 활용해 인터렉티브한 그래프를 만들 수 있다는 점이다. 블로그에 사진과 코드를 올리는 것의 한계를 보완해주어 참 편리하고 자주 쓰고 싶은 기능 중 하나다. 2 커피숍 데이터 서울..
SQL JOIN(FULL JOIN, CROSS JOIN, +SELF JOIN) 알아보기 FULL JOIN과 CROSS JOIN도 표를 만들어보면 이해가 쏙쏙 된다. FULL JOIN 먼저 FULL JOIN 테이블을 다음과 같이 가정하고 두 테이블의 ID를 KEY로 하여 FULL JOIN을 하면 다음과 같이 된다. 테이블명 : LEFT_TABLE ID val1 1 L1 2 L2 3 L3 4 L4 테이블명: RIGHT_TABLE ID val2 3 R3 4 R4 5 R5 6 R6 아래와 같은 쿼리문을 작성해 실행하게 되면 SELECT LEFT_TABLE.ID AS L_ID, LEFT_TABLE.VAL1 AS L_VAL, RIGHT_TABLE.ID AS R_ID, RIGHT_TABLE.VAL2 AS R_VAL FROM LEFT_TABLE FULL JOIN RIGHT_TABLE USING(ID) ;..
p-value를 올바르게 이해하기(부제: 조심해야하는 p값 해석) 데이터분석을 하게되면 통계학에 관심이 안갈 수 없다. 데이터를 분석하는 것이 '가설을 설정하고 이를 검증하는 과정' 이기 때문이다. p-value의 정의를 찾아보면 그 중 하나는 p-Value란 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것. 라고 서술한다. 말이 정말 어렵다. 저 문장을 해석하기 위해서는 문장 안에 있는 검정통계량, 귀무가설, 대립가설에 대한 이해가 필요하다. 검정통계량은 가설을 검정하기위해 사용되는 통계량 귀무가설은 모수간의 차이가 없음을 나타내는 가설을 대립가설은 모수간의 차이가 있음을 나타내는 가설을 말한다. 예컨대 어떠한 약에 따른 전후를 비교할 때, 귀무가설은 약을 섭취하기 전과 섭취한 후에 차이가 없다. 대립가설은 약을 섭취하기 전과 섭취한 후에 차..
시계열 데이터 밑바닥부터 다루기 in R (2) 요일로 변환하기 우리는 YYYY-MM-DD 형택의 데이터에서 종종 해당날짜의 요일을 필요로 할 때가 있다. 요일에 따라 구분된 데이터는 예컨대 요일별 매출추이 등을 봐야할 때 유용할 것이다. 이럴 때 wday함수를 통해 요일을 추출해낼 수 있다. wday함수는 날짜에 따른 요일을 숫자로 표시해준다. 일요일=1, 월요일=2, 화요일=3, 수요일=4, 목요일=5, 금요일=6, 토요일=7 로 표기되며 wday(date, label=TRUE) label=TRUE를 통해 숫자에서 영문으로 표시를 바꿀 수 있다. 날짜 반올림, 올림, 내림처리 시계열 데이터 밑바닥부터 다루기 in R(1)에서 연,월,일 등의 요소를 추출하는 방법을 배웠지만 이럴 경우 추출한 값을 제외한 나머지 값들을 잃었다. 이럴 때 날짜를 반올림..

반응형