본문 바로가기

R programming

개인 의료비 예측하기

반응형

이번에 진행한 데이터는 kaggle에 있는

medical cost personal dataset을 이용했다.


데이터는 성별, 나이, bmi, 자녀 수, 흡연 여부, 지역, 의료비의 컬럼으로 구성되어있다.


가장 먼저 데이터를 남성과 여성으로 나누어 진행했다.


남성의 회귀분석을 한 결과


Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12292.22 1384.85 -8.876 < 2e-16 *** age 256.17 16.87 15.181 < 2e-16 *** bmi 340.03 41.02 8.290 6.22e-16 *** children 470.82 193.09 2.438 0.015 * smokeryes 24880.18 556.73 44.690 < 2e-16 *** regionnorthwest -230.64 679.19 -0.340 0.734 regionsoutheast -1054.32 684.19 -1.541 0.124 regionsouthwest -1117.45 681.73 -1.639 0.102 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 6104 on 668 degrees of freedom Multiple R-squared: 0.7808, Adjusted R-squared: 0.7785 F-statistic: 340 on 7 and 668 DF, p-value: < 2.2e-16







다음과 같은 회귀식이 나왔다.



결정계수는 0.7808


p-value는 2.2e-16



인 것을 확인할 수 있다.


별은 종속변수로 지정한 charges에 영향력이 큰 독립변수를 나타낸다.



아래의 표는 각 변수들간의 상관관계를 나타낸 것이다.(남성 데이터 기반)








그 중에서 남성의 흡연 여부를 바탕으로 의료비가 나오는지 확인하였다.


흡연자의 경우 비흡연자에 비해 의료비가 높은 것을 알 수 있고,

또 그 분포 역시 비흡연자에 비해 큼을 알 수 있다.








후진제거를 통해서 region이라는 독립변수를 제거했으나 AIC의 큰 감소가 있지는 않았다.




Start:  AIC=11792.96
charges ~ age + bmi + children + smoker + region

           Df  Sum of Sq        RSS   AIC
- region    3 1.4973e+08 2.5040e+10 11791
<none>                   2.4890e+10 11793
- children  1 2.2154e+08 2.5112e+10 11797
- bmi       1 2.5607e+09 2.7451e+10 11857
- age       1 8.5877e+09 3.3478e+10 11991
- smoker    1 7.4416e+10 9.9306e+10 12726

Step:  AIC=11791.02
charges ~ age + bmi + children + smoker

           Df  Sum of Sq        RSS   AIC
<none>                   2.5040e+10 11791
- children  1 2.2563e+08 2.5265e+10 11795
- bmi       1 2.5174e+09 2.7557e+10 11854
- age       1 8.6748e+09 3.3715e+10 11990
- smoker    1 7.4676e+10 9.9716e+10 12723

Call:
lm(formula = charges ~ age + bmi + children + smoker, data = insurance_m)

Coefficients:
(Intercept)          age          bmi     children    smokeryes  
   -12243.6        257.2        317.4        474.6      24834.8  








다음은 여성데이터의 변수간의 관계를 확인했다.





아래 시각화 자료는 남성과 마찬가지로 흡연여부에 따른 연령과 의료비의 상관관계를

시각화 했다.







남성자료와 여성자료로 데이터를 구분하던 것에서

남성흡연자, 비흡연자와 여성 흡연자, 비흡연자

총 4개의 데이터로 구분하여 시각화를 연습했다.






아래 시각화 자료는 남성 흡연자의 데이터를 베이스로 회귀선과 95%의 신뢰구간을 표시했다.














똑같은 방식으로 비흡연자 남성의 데이터를 베이스로 회귀선과

95%신뢰수준을 나타냈다.


비흡연자의 신뢰수준이 흡연자의 신뢰수준에 비해 더욱 좁게 나타난 것을 확인 할 수 있다.











남성데이터에서 확인해본 것과 같이 여성의 데이터 베이스도 똑같은 방식으로 진행했다.

회귀선과 95%신뢰수준을 표시했다.











비흡연자 여성의 회귀선과 95%신뢰수준을 표시했다.










눈에 두드러지게 나타나는 것은 흡연자의 경우,

회귀선을 기준으로 위아래로 크게 2개의 군집이 나타나는 것을 알아차릴 수 있다.


반응형