이번에 진행한 데이터는 kaggle에 있는
medical cost personal dataset을 이용했다.
데이터는 성별, 나이, bmi, 자녀 수, 흡연 여부, 지역, 의료비의 컬럼으로 구성되어있다.
가장 먼저 데이터를 남성과 여성으로 나누어 진행했다.
남성의 회귀분석을 한 결과
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12292.22 1384.85 -8.876 < 2e-16 *** age 256.17 16.87 15.181 < 2e-16 *** bmi 340.03 41.02 8.290 6.22e-16 *** children 470.82 193.09 2.438 0.015 * smokeryes 24880.18 556.73 44.690 < 2e-16 *** regionnorthwest -230.64 679.19 -0.340 0.734 regionsoutheast -1054.32 684.19 -1.541 0.124 regionsouthwest -1117.45 681.73 -1.639 0.102 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 6104 on 668 degrees of freedom Multiple R-squared: 0.7808, Adjusted R-squared: 0.7785 F-statistic: 340 on 7 and 668 DF, p-value: < 2.2e-16
다음과 같은 회귀식이 나왔다.
결정계수는 0.7808
p-value는 2.2e-16
인 것을 확인할 수 있다.
별은 종속변수로 지정한 charges에 영향력이 큰 독립변수를 나타낸다.
아래의 표는 각 변수들간의 상관관계를 나타낸 것이다.(남성 데이터 기반)
그 중에서 남성의 흡연 여부를 바탕으로 의료비가 나오는지 확인하였다.
흡연자의 경우 비흡연자에 비해 의료비가 높은 것을 알 수 있고,
또 그 분포 역시 비흡연자에 비해 큼을 알 수 있다.
후진제거를 통해서 region이라는 독립변수를 제거했으나 AIC의 큰 감소가 있지는 않았다.
Start: AIC=11792.96
charges ~ age + bmi + children + smoker + region
Df Sum of Sq RSS AIC
- region 3 1.4973e+08 2.5040e+10 11791
<none> 2.4890e+10 11793
- children 1 2.2154e+08 2.5112e+10 11797
- bmi 1 2.5607e+09 2.7451e+10 11857
- age 1 8.5877e+09 3.3478e+10 11991
- smoker 1 7.4416e+10 9.9306e+10 12726
Step: AIC=11791.02
charges ~ age + bmi + children + smoker
Df Sum of Sq RSS AIC
<none> 2.5040e+10 11791
- children 1 2.2563e+08 2.5265e+10 11795
- bmi 1 2.5174e+09 2.7557e+10 11854
- age 1 8.6748e+09 3.3715e+10 11990
- smoker 1 7.4676e+10 9.9716e+10 12723
Call:
lm(formula = charges ~ age + bmi + children + smoker, data = insurance_m)
Coefficients:
(Intercept) age bmi children smokeryes
-12243.6 257.2 317.4 474.6 24834.8
다음은 여성데이터의 변수간의 관계를 확인했다.
아래 시각화 자료는 남성과 마찬가지로 흡연여부에 따른 연령과 의료비의 상관관계를
시각화 했다.
남성자료와 여성자료로 데이터를 구분하던 것에서
남성흡연자, 비흡연자와 여성 흡연자, 비흡연자
총 4개의 데이터로 구분하여 시각화를 연습했다.
아래 시각화 자료는 남성 흡연자의 데이터를 베이스로 회귀선과 95%의 신뢰구간을 표시했다.
똑같은 방식으로 비흡연자 남성의 데이터를 베이스로 회귀선과
95%신뢰수준을 나타냈다.
비흡연자의 신뢰수준이 흡연자의 신뢰수준에 비해 더욱 좁게 나타난 것을 확인 할 수 있다.
남성데이터에서 확인해본 것과 같이 여성의 데이터 베이스도 똑같은 방식으로 진행했다.
회귀선과 95%신뢰수준을 표시했다.
비흡연자 여성의 회귀선과 95%신뢰수준을 표시했다.
눈에 두드러지게 나타나는 것은 흡연자의 경우,
회귀선을 기준으로 위아래로 크게 2개의 군집이 나타나는 것을 알아차릴 수 있다.
'R programming' 카테고리의 다른 글
2016년도 진료내역을 통한 상위 질병 확인해보기 (0) | 2019.03.06 |
---|---|
학생 시험성적 t-test 및 아노바 (0) | 2019.02.14 |
공유자전거 데이터 분석(2) (0) | 2018.12.19 |
공유자전거 데이터 분석하기 (0) | 2018.09.28 |
문과생 R 프로그래밍 입문하기 (0) | 2018.09.28 |