본문 바로가기

R programming

[EDA] 탐색적 데이터 분석

반응형

위키백과에서  탐색적 데이터 분석(EDA)는 ' 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발하였다. 대표적인 예로 박스플롯을 들 수 있다.' 라고 설명한다.

탐색적 데이터 분석은 결국 데이터를 이해하는 과정이라고 본다. 각각의 데이터를 요리조리 '탐색'하면서

어떤 방식으로 데이터를 정제하고, 가공할지에 대해 살펴보는 단계라고 생각한다. 
시각화를 한다던가, 간단한 통계치로 구현한다던가 하는 방식으로 데이터를 살펴보는 것이다.

  DATACAMP에서는 박스플롯이외에도
table()함수를 통해 빈도수를 확인한다던가, prop.table() 함수는 퍼센트인지를 나타낸다.

prop.table( ,1) -> 행의 합이 1
prop.table( ,2)  -> 열의 합이 1 

 

탐색적 데이터 분석은 여러 조합(?)으로 데이터를 여기에 저기를 조립해보는 등 

레고하듯이 다양한 방식을 시도해봐야하는 것 같다.  그 과정에서 데이터에 대한 이해도가 높아지고

의미있는 발견을 할 수 있는 가능성이 높아지는 것 같다. 

 

ggplot은 정말 탐색적 데이터 분석할 때 굉장히 중요한 것 같다. 시각화의 기본이 되는 함수이기도 하고
커다란 데이터를 간단하게 시각화하고 원하는 방식으로 만들 수 있어서 굉~~장히 좋다.

 

ggplot을 쓰면서 유용한 함수는  facet_wrap이라는 함수다.

ggplot(data, aes(x= ))+
geom_bar+
facet_wrap(~ gender)​

위에 쓴 코드로 예시를 들어보자면 x= 이후에 있는 것의 빈도수를 나타내는 바 차트다.
이제 여기에 facet_wrap(~gender)를 쓰면 gender별로 플롯을 나누어 빈도수를 구하는 것이다.
예컨대 데이터에서 gender가 단순히 Male, Female로만 구성되어있다면
플롯이 2개로 나누어져  x=에 대한 빈도수를 각기 구하게 된다. 

데이터 분석은 따로따로 나누어보면서 의미있는 것을 발견한다고 생각해서
빅데이터분석은 데이터만 많다 뿐이지, 분석하는 과정은 데이터를 스몰데이터로 나누면서 
결과를 만들어 나가는 것 같다.

반응형