본문 바로가기

R programming

공유자전거 데이터 분석하기

반응형

kaggle에 처음으로 분석한 데이터는 

로스앤젤로스의 공유자전거 여정 기록이다.


해당 자료는 

13만 개의 행과 16개의 열로 구성되어 있는데 

 4개의 컬럼만 써서 일부분만의 데이터 분석을 할 수 있었다.


이용한 컬럼은 

이용시작시간, 이용종료시간, pass holder type, Trip route가 전부였다.



13만 개의 데이터에서 타입별 이용횟수를 시각화했다.





자전거를 같은 곳에서 빌리고 반납하는 Round trip과 

빌리는 장소와 반납하는 장소가 다른 One way의 빈도를 시각화 했다.




이용시작시간과 종료시간의 차이를 계산하여 

위 그림과 같이 사용시간에 따른 빈도를 시각화했다.




passholder type별로 사용시간 데이터를 박스플롯형태로 만들었다.

점으로 표시되는 것을 결측치로 판단되는 자료다. 


작성한 코드는 아래 링크를 통해 확인.

정말정말 입문자 코드...


https://www.kaggle.com/dangdo/comparison-of-usage-time-by-group/code






반응형