본문 바로가기

분석 프로젝트

서울 커피숍 탐색적 데이터 분석 프로젝트

반응형

1 도입&썰

코드를 다 쓴건 2주 정도 되었지만, 마크다운에서 수정의 수정을 거듭하며 좀 더 이쁜 보고서 형태로 만들려다보니

포스팅하기까지는 시간이 좀 걸렸다.

마크다운을 처음사용하는 것은 아니지만 R markdown에 적용되는 문법을 이것저것 써보면서 보고서 형태를 만드려고 노력했다.

아직까지도 이해가 잘 안되는 영역은 '#' 을 2개 넣을경우 글 문단의 모양이 달라지는데,

어디는 잘 적용이 되고 어디는 적용이 안되어, 중간중간 이빠진 것 같은 느낌의 문서가 되고 말았다. ㅠㅠ
rpubs을 통해 작성하면 좋은 것은 plotly를 활용해 인터렉티브한 그래프를 만들 수 있다는 점이다.
블로그에 사진과 코드를 올리는 것의 한계를 보완해주어 참 편리하고 자주 쓰고 싶은 기능 중 하나다.

 

2 커피숍 데이터

서울 커피숍 EDA는 커피숍의 인허가데이터를 기반으로 진행했다.

커피숍은 우리 일상에서 쉽게 접할 수 있는 익숙한 장소다.
인허가데이터를 바탕으로 커피숍의 인허가일자, 폐업일자, 시설의 크기 등 전반적인 데이터를 다루며

커피숍에 관한 EDA를 진행했다.
아래 rPub주소를 통해 작성한 내용을 살펴보면 더욱 자세히 나오겠지만, 서울 내 커피숍으로 등록된 곳에 대해

집중적으로 탐색적 데이터 분석을 했다. 데이터는 무려 47개의 variable이 있지만, 사용한 데이터는 한정적이다.
의미있다고 여겨지는 variable에 경우 NA 처리되어 있는 케이스가 많고, 내 관심사에 벗어난 경우가 많았다.

rpubs.com/jongho/Seoulcoffeeshop_EDA

 

RPubs - Seoul_coffeeshop_EDA

 

rpubs.com

3. 아쉬운 점 및 느낀 점

아무래도 정부에 신고하는 자료가 한정적이다보니, 데이터를 활용해 유의미한 가치를 만들어내는 데 한계를 느꼈다.
공란인 데이터도 정말 많고, 영세한 커피숍의 특성상 신고한 종업원의 수가 무의미한 경우도 있었다.

또다른 아쉬운 점은 분명히 카페라고 생각했지만, 인허가 신청당시 카페가 아닌 다른 업태로 신고한 것이라 여겨지는 곳이 꽤 빠졌다는 점이다. 분명히 이곳은 누가봐도 카페인데 다른 업태명으로 신청했는지 여겨져서 '커피숍' 업태명이 아닌 케이스들이다.
또 같은 체인점의 커피숍이라도 업태명의 차이인지, 데이터 자체의 누락인 케이스가 있다. 예컨대 동작구 내 스타벅스를 검색해봤을 때, 처음 노량진역 앞에 있는 스타벅스를 찾을 수 없었다. 동네 주위 스타벅스는 커피숍 업태명으로 신고되어있어 정상적으로 확인이 가능한데, 유독 이 곳만 나오지 않았다. 데이터의 신뢰도가 하락한다고 여겨지는 지점이다.
그런 측면에서 데이터전처리는 참 어렵다. 이번 프로젝트를 했을 때도 데이터 전처리를 어떻게 할까에 대한 고민과 그 과정이 70%이상인 것 같다.
주어진 데이터에서 새로운 variable을 만들거나 적절히 변환시켜 어떻게 이 variable을 써먹을까 하는 고민들...

(e.g. 예컨대 주소에서 지역구 명만을 뽑아낸다던가, factor형태의 날짜 데이터를 Date형태로 바꾼다던가... 그리고 다시 year, month, yday의 variable을 만들어내는 과정)

전처리만 잘해도 반은 먹고 간다고 다시 느껴벌임

이번 프로젝트를 통해 서울 내 전반적인 커피숍의 거대한 흐름을 다루어볼 수 있어 좋았다. 특히 지역구별 연도 추이에 따른 커피숍 생존률.

그리고 어떤 그래프 형태를 써야 효과적으로 정보를 전달할 수 있을지에 대한 고민들을 해볼 수 있어 좋았다.

반응형