본문 바로가기

반응형

전체 글

(70)
Hypothesis Testing datacamp에서 R강의를 들어보고 있습니다..(내 129불..) 더 알고 싶은 것들 위주로 일단 들어보고 있는데, 일단 기억해보려고 하는 것은 귀무가설, 대립가설 파트입니다. library(pwr) pwr.anova.test(k = 3, n = 20, f = 0.2, sig.level = 0.05, power = NULL) 강의에서는 power anova test라는 함수를 이용합니다. K,N,F,sig.level, power로 총 5개의 구성요소가 있고, 이 중 하나는 NULL값이여야합니다. 그래야 계산을 할 수 있습니다. k는 비교 그룹군의 숫자이고, n은 한 그룹군별 관측치, f는 effect size sig.level은 유의수준을 의미한다.
[leaflet패키지] 지도에 인터렉티브한 정보 표시하기 전 포스팅에 마지막에 썼던 인터렉티브 지도를 만들려면 어떻게 써야할지 열심히 구글링을 했고, leaflet이라는 패키지가 있다는 것을 발견했습니다. 처음 leaflet이라고만 검색을 해보니 자바스크립트가 나와서 아 이게 자바스크립트에서 처음 만들어진건가? 싶더라구요 구글링하실 때는 알고 싶은 것+in r 이라고 검색하면 기초적인 웬만한 정보는 다 나옵니당 leaflet이라는 함수를 쓰면 인터렉티브 지도를 생성하고, 위도와 경도에 따른 포인트를 지정하고, 해당 특정 위치에 대한 정보를 담아낼 수 있습니다. library(leaflet) library(dplyr) 라이브러리는 leaflet, dplyr을 불러옵니다. bike
ggmap을 활용해 지도 위에 장소표시하기 이번에 활용한 데이터는 앞에서 사용했던 공유자전거 데이터입니다. 해당 데이터에는 각 바이크 운행기록에 대여 장소와 반납 장소에 대한 위도,경도 정보를 포함하고 있습니다. 앞서 각 station별 대여횟수와 반납횟수를 막대그래프로 시각화 했다면, 이번 포스팅에서는 지도 위에 빈도에 따라 크기를 달리하여 시각화하고 싶었습니다. 먼저 데이터를 불러옵니다. bike
R에서 ggmap 불러오기(Google API 등록과정) 전에 쓴 공유자전거 데이터에는 위도,경도 정보가 포함되어있다. 지도에 위치를 시각화하고 인터렉티브하고 싶어서 ggmap이라는 패키지를 쓰면 간단히 시각화를 진행할 줄 알았는데 그게 아니였다. 결국 3시간동안 구글링 끝에 해결방법을 찾았다. 그 과정을 공유해보고자 한다. 예전에는 됐는데 이제는 이런 명령어를 넣으면 library(ggmap) get_googlemap('Losangeles',zoom=15,maptype="roadmap") 이런 명령어를 넣으면 Error: Google now requires an API key. See ?register_google for details. 이런 오류를 토해낸다. 꾸엑 구글은 이제 API key를 요구해요! 라는 상큼한 알림을 주는데 문과인 나는 "API Key..
로지스틱 회귀분석-환자들 생존예측 (예제 따라하기) 해당 코드와 각주의 설명은 아래 유튜브 영상을 토대로 작성했습니다. https://www.youtube.com/watch?v=Fgl2cOXpuyM&t=608s 혼자서 독학을 하려고 하다보면, 특히 해당 전공분야가 아닐경우 더더욱 어려움을 겪게 되는데 이런 강의들 너무 소중합니다. 예제에 사용된 데이터는 Survival이라는 패키지에 담겨있는 colon데이터 입니다. 각주는 기본적으로 유튜브 강의 내 설명을 기초로 하고, 제가 생각한 코드들이 합쳐져 있습니다. require(survival) str(colon) #status를 종속변수로 두려고 함. 0일 경우 생존, 1일 경우 사망, 재발 등을 뜻함. colon1
2016년도 진료내역을 통한 상위 질병 확인해보기(2) 앞서 진행했던 2016년도 진료내역을 통한 상위 질병 확인해보기에 이어 더 코드를 수정해서 진행해봤다. 요새 자소서 쓰느라 R공부할 틈이 없다(변명) 처음부터 다시 진행했다고 봐도 무방하다. 123456789101112131415nhis% summarise(total=n()) %>% arrange(desc(total)) %>% head(20) ggplot(data=men, aes(x=주상병코드, y=total))+geom_bar(stat="identity")+ggtitle("top 20 disease of men")cs 이후로는 다음과 같은 코드를 통해 결과물을 생산할 수 있다.진료내역정보 메뉴얼을 통해 성별코드가 의미하는 값을 확인했다.성별코드가 1이면 남성, 2이면 여성을 뜻한다. 2~7번의 코드를 ..
2016년도 진료내역을 통한 상위 질병 확인해보기 공공데이터포털에서 2016년도 진료내역 데이터를 가져왔다. 자료는 국민건강보험이 개방한 데이터다. https://www.data.go.kr/dataset/15007115/fileData.do 데이터에 대한 설명은 아래와 같다. 2016년 국민건강보험 가입자 중 요양기관(병/의원 등)으로부터의 진료이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 진료내역(진료과목코드, 주상병코드, 요양일수, 총처방일수 등)으로 구성된 개방데이터 진료내역 중에서는 주상병코드와 부상병코드가 구분되어있다. 주상병은 환자가 가장 우선적으로 치료를 요구를 병을 나타낸다. 부상병은 주상병 다음으로 호소하는 병을 의미한다.데이터는 약 1200만개의 행으로 구성되어있다. 한 환자가 여러번 방문했기..
학생 시험성적 t-test 및 아노바 데이터를 분석하면서 중요한 것 중 하나는 통계에 대한 이해다.코드를 작성할 줄 알아도 나온 결과에 대한 이해와 해석이 잘 이루어져야한다는 것을 느끼게 한 분석 결과다. 원 데이터 자료는 캐글에서 가져왔다. https://www.kaggle.com/spscientist/students-performance-in-exams 코드는 github에도 업로드 해뒀다,,, 통계 공부 열심히 해야겠다 정말,,, 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091..

반응형