R programming (26) 썸네일형 리스트형 ggmap을 활용해 지도 위에 장소표시하기 이번에 활용한 데이터는 앞에서 사용했던 공유자전거 데이터입니다. 해당 데이터에는 각 바이크 운행기록에 대여 장소와 반납 장소에 대한 위도,경도 정보를 포함하고 있습니다. 앞서 각 station별 대여횟수와 반납횟수를 막대그래프로 시각화 했다면, 이번 포스팅에서는 지도 위에 빈도에 따라 크기를 달리하여 시각화하고 싶었습니다. 먼저 데이터를 불러옵니다. bike R에서 ggmap 불러오기(Google API 등록과정) 전에 쓴 공유자전거 데이터에는 위도,경도 정보가 포함되어있다. 지도에 위치를 시각화하고 인터렉티브하고 싶어서 ggmap이라는 패키지를 쓰면 간단히 시각화를 진행할 줄 알았는데 그게 아니였다. 결국 3시간동안 구글링 끝에 해결방법을 찾았다. 그 과정을 공유해보고자 한다. 예전에는 됐는데 이제는 이런 명령어를 넣으면 library(ggmap) get_googlemap('Losangeles',zoom=15,maptype="roadmap") 이런 명령어를 넣으면 Error: Google now requires an API key. See ?register_google for details. 이런 오류를 토해낸다. 꾸엑 구글은 이제 API key를 요구해요! 라는 상큼한 알림을 주는데 문과인 나는 "API Key.. 로지스틱 회귀분석-환자들 생존예측 (예제 따라하기) 해당 코드와 각주의 설명은 아래 유튜브 영상을 토대로 작성했습니다. https://www.youtube.com/watch?v=Fgl2cOXpuyM&t=608s 혼자서 독학을 하려고 하다보면, 특히 해당 전공분야가 아닐경우 더더욱 어려움을 겪게 되는데 이런 강의들 너무 소중합니다. 예제에 사용된 데이터는 Survival이라는 패키지에 담겨있는 colon데이터 입니다. 각주는 기본적으로 유튜브 강의 내 설명을 기초로 하고, 제가 생각한 코드들이 합쳐져 있습니다. require(survival) str(colon) #status를 종속변수로 두려고 함. 0일 경우 생존, 1일 경우 사망, 재발 등을 뜻함. colon1 2016년도 진료내역을 통한 상위 질병 확인해보기(2) 앞서 진행했던 2016년도 진료내역을 통한 상위 질병 확인해보기에 이어 더 코드를 수정해서 진행해봤다. 요새 자소서 쓰느라 R공부할 틈이 없다(변명) 처음부터 다시 진행했다고 봐도 무방하다. 123456789101112131415nhis% summarise(total=n()) %>% arrange(desc(total)) %>% head(20) ggplot(data=men, aes(x=주상병코드, y=total))+geom_bar(stat="identity")+ggtitle("top 20 disease of men")cs 이후로는 다음과 같은 코드를 통해 결과물을 생산할 수 있다.진료내역정보 메뉴얼을 통해 성별코드가 의미하는 값을 확인했다.성별코드가 1이면 남성, 2이면 여성을 뜻한다. 2~7번의 코드를 .. 2016년도 진료내역을 통한 상위 질병 확인해보기 공공데이터포털에서 2016년도 진료내역 데이터를 가져왔다. 자료는 국민건강보험이 개방한 데이터다. https://www.data.go.kr/dataset/15007115/fileData.do 데이터에 대한 설명은 아래와 같다. 2016년 국민건강보험 가입자 중 요양기관(병/의원 등)으로부터의 진료이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 진료내역(진료과목코드, 주상병코드, 요양일수, 총처방일수 등)으로 구성된 개방데이터 진료내역 중에서는 주상병코드와 부상병코드가 구분되어있다. 주상병은 환자가 가장 우선적으로 치료를 요구를 병을 나타낸다. 부상병은 주상병 다음으로 호소하는 병을 의미한다.데이터는 약 1200만개의 행으로 구성되어있다. 한 환자가 여러번 방문했기.. 학생 시험성적 t-test 및 아노바 데이터를 분석하면서 중요한 것 중 하나는 통계에 대한 이해다.코드를 작성할 줄 알아도 나온 결과에 대한 이해와 해석이 잘 이루어져야한다는 것을 느끼게 한 분석 결과다. 원 데이터 자료는 캐글에서 가져왔다. https://www.kaggle.com/spscientist/students-performance-in-exams 코드는 github에도 업로드 해뒀다,,, 통계 공부 열심히 해야겠다 정말,,, 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091.. 공유자전거 데이터 분석(2) 그동안 ADsP공부한다고, 또 중간기말 공부한다고 R에서 손을 놨었다. 물론 변명이겠지만 ㅠㅠ 아무튼 그 전에 했었던 공유자전거 데이터 분석을 좀 더 진행해봤다. 추가되는데 실질적으로 소모한 시간은 5시간(?)정도 인 것 같다.어제 카페가서 3시간+엊그제와 오늘 야금야금?해서 순수하게 코드입력하는데 쓴 시간은 5~6시간으로 보인다.비루한 전체 코드는 github에 추가해놓았다. 꺠짝깨작 주석을 달아놨으니 다른 사람에게도 도움이 되길 바란다. https://github.com/SangdoDong/my-R-code 12345library(ggplot2)library(lubridate) #날짜 및 시간핸들링 패키지library(dplyr)library(plotly) Colored by Color Scripte.. 개인 의료비 예측하기 이번에 진행한 데이터는 kaggle에 있는 medical cost personal dataset을 이용했다. 데이터는 성별, 나이, bmi, 자녀 수, 흡연 여부, 지역, 의료비의 컬럼으로 구성되어있다. 가장 먼저 데이터를 남성과 여성으로 나누어 진행했다. 남성의 회귀분석을 한 결과 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12292.22 1384.85 -8.876 < 2e-16 *** age 256.17 16.87 15.181 < 2e-16 *** bmi 340.03 41.02 8.290 6.22e-16 *** children 470.82 193.09 2.438 0.015 * smokeryes 24880.18 556.73 44.6.. 이전 1 2 3 4 다음