전체 글 (70) 썸네일형 리스트형 공유자전거 데이터 분석(2) 그동안 ADsP공부한다고, 또 중간기말 공부한다고 R에서 손을 놨었다. 물론 변명이겠지만 ㅠㅠ 아무튼 그 전에 했었던 공유자전거 데이터 분석을 좀 더 진행해봤다. 추가되는데 실질적으로 소모한 시간은 5시간(?)정도 인 것 같다.어제 카페가서 3시간+엊그제와 오늘 야금야금?해서 순수하게 코드입력하는데 쓴 시간은 5~6시간으로 보인다.비루한 전체 코드는 github에 추가해놓았다. 꺠짝깨작 주석을 달아놨으니 다른 사람에게도 도움이 되길 바란다. https://github.com/SangdoDong/my-R-code 12345library(ggplot2)library(lubridate) #날짜 및 시간핸들링 패키지library(dplyr)library(plotly) Colored by Color Scripte.. 개인 의료비 예측하기 이번에 진행한 데이터는 kaggle에 있는 medical cost personal dataset을 이용했다. 데이터는 성별, 나이, bmi, 자녀 수, 흡연 여부, 지역, 의료비의 컬럼으로 구성되어있다. 가장 먼저 데이터를 남성과 여성으로 나누어 진행했다. 남성의 회귀분석을 한 결과 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12292.22 1384.85 -8.876 < 2e-16 *** age 256.17 16.87 15.181 < 2e-16 *** bmi 340.03 41.02 8.290 6.22e-16 *** children 470.82 193.09 2.438 0.015 * smokeryes 24880.18 556.73 44.6.. <나는 고작 한번 해봤을 뿐이다> 도서 리뷰 작년과 올해는 대개 국립중앙도서관홈페이지에 있는 사서추천도서로 책을 읽는다. 이 책도 그 중 하나다. 이 책도 시중에 많은 자기계발서와 마찬가지로 '도전하라'라는 큰 줄기를 가지고 있다. 큰 줄기는 같지만 자기자랑과 꼰대마인드일색의 도서와는 다르다. 책을 읽으면서 도전을 강요받는 청년들을 위로해준다는 느낌을 받았다. 본인 커리어의 실패사례를 들며 독자가 자신의 실수를 반복하지않았으면 하는 진정성을 느꼈다. 저자는 각 순간의 경험을 점으로 표현하며 선(인생의 길)은 결국 점의 집합임을 말한다. 그 점은 성공의 점일수도 있지만, 실패의 점일 수도 있다. 실패의 점을 맞닥들이면 우리는 좌절하고 절망한다. 점을 찍는 것 자체가 무서워질 수 있다. 그래서 저자는 목표를 잘게 쪼개어 성공의 기쁨을 누리는 것을 강조.. <국경 없는 과학기술자들> : 적정기술과 지속가능한 세상 도서 리뷰 '과학기술'과 그 기술을 활용한 '적정기술'의 사례를 모아논 책이다. 적정기술에 대해 어렴풋이 들어봤지만, 문과생인 나에게는 남의 나라얘기였다. 하지만 이 책을 읽고나니 나도 적정기술을 지원하기 위해 직접적인 기술설계는 아닐지라도 뭔가 할 수 있다는 느낌을 받았다. 그 느낌을 준 하나의 사례는 (실패한 사례로 소개된)우물을 파는 프로젝트였다. 단순히 우물을 만들어주어 물의 접근성을 쉽게 만들어주면 되는 줄 알았었다. 큰 오산이었다. 해당 프로젝트의 단기적 성과를 위해 충분히 깨끗한 물을 얻기 위한 깊이의 우물을 파지않아 인체에 해로운 성분이 물에 섞여나오기도 하고, 지속적인 유지관리가 되지않아 우물이 금방 고장나 버려지는 경우도 많았다. 수리를 할 수 있는 기술자는 돈을 더 벌 수 있는 곳으로.. 공유자전거 데이터 분석하기 kaggle에 처음으로 분석한 데이터는 로스앤젤로스의 공유자전거 여정 기록이다. 해당 자료는 13만 개의 행과 16개의 열로 구성되어 있는데 4개의 컬럼만 써서 일부분만의 데이터 분석을 할 수 있었다. 이용한 컬럼은 이용시작시간, 이용종료시간, pass holder type, Trip route가 전부였다. 13만 개의 데이터에서 타입별 이용횟수를 시각화했다. 자전거를 같은 곳에서 빌리고 반납하는 Round trip과 빌리는 장소와 반납하는 장소가 다른 One way의 빈도를 시각화 했다. 이용시작시간과 종료시간의 차이를 계산하여 위 그림과 같이 사용시간에 따른 빈도를 시각화했다. passholder type별로 사용시간 데이터를 박스플롯형태로 만들었다.점으로 표시되는 것을 결측치로 판단되는 자료다. 작.. 문과생 R 프로그래밍 입문하기 R을 공부한 지 이제 겨우 2개월 쯤 됐다. R은 기본적으로 통계&분석을 위한 툴이다.데이터 사이언티스트까지 될 생각도 없고, 될 능력도 없지만데이터에 근거해 의사결정을 내리는 과정이굉장히 합리적이라고 판단했다.공부하는 사람마다 여러가지 이유가 있겠지만 R을 공부하는게 나만의 skill을 가질 수 있다고 생각한다.(자고로 기술이 최고다) R관련 기초는 포항공과대학교의 MOOC 수업을 통해 배웠다.배웠다고 했지만 그것이 전적으로 내 것이 되는 것은 아니다. http://www.postechx.kr/ko/school/posco/courseware/45327 요새는 온라인을 통해 여러 강의를 제공하기 때문에 굳이 위 사이트가 아니더라도 배울 곳은 많다고 생각한다.MOOC의 장점은 훌륭한 교수진에게 무료로 강의.. 이전 1 ··· 6 7 8 9 다음