1. 소개
안녕하세요, 명완식 입니다. 오늘은 서울 시민이라면 누구나 한번쯤은 이용해본 따릉이 데이터를 분석해 보았습니다. 분석을 시작한 계기는 제가 우리나라 공공 데이터 중에 가장 잘 쌓인 데이터를 찾기 시작했고 그 중 하나가 따릉이 데이터라는 것을 알게 되었습니다. 따릉이 데이터를 보면 각각의 대여소의 위경도 부터 대여날짜, 대여시간, 대여수, 운동량 등 정말 시각화하면 아주 좋을 데이터들이 들어가 있습니다.
그래서 따릉이 데이터를 이용해서 괜찮은 시각화 해보자! 해서 이번에 작업을 수행해보았습니다. 그리고 실제로 데이터를 분석하고 나니 재밌는 인사이트들이 있어서 공유한번 드려봅니다.
굉장히 많은 분석 사례가 있는 데이터이고 공동 운영자이신 박소영님께서도 이전에 분석하여서 많이 참고하여 제 스타일대로 한번 만들었습니다.
2. 대시보드 살펴보기
먼저 데이터를 어디서 받았는지 어떻게 정제 하였는지의 과정을 뒤로하고, 제가 제작한 대시보드부터 어떻게 구성되어 있고 어떠한 정보를 찾아 볼 수 있는지 소개 드리겠습니다. 아래는 제가 만든 대시보드의 모습입니다. 대시보드의 데이터를 클릭 하실 경우, 해당 데이터 기준으로 대시보드의 모든 차트 정보가 변경됩니다 (아래 Figure 2는 지역구 영등포구 클릭화면). 필터를 풀고 싶으시면 클릭한 데이터를 다시 클릭 하시면 되십니다.
2.1 서울시 따릉이 이용현황
대시보드 좌측은 따릉이가 어디에서 많이 이용되고 있는지 빈도를 색상으로 서울시 지도에 표현하고 있습니다. 이를 통해 서울시 전체(Figure 1.)를 보시면 강서구쪽에 특히나 많은 따릉이 대여건수가 있는 것을 시각적으로 파악할 수 있습니다. 그리고 제가 만든 대시보드의 기능으로 해당 위치를 마우스 오버를 하시면, 자전거 대여 현황을 히트맵 차트로 월과 요일에 따라 언제 많은 대여가 일어나는지 확인할 수 있습니다.
위 차트(Figure 2.)를 보시면 실제 2021년도 여의나루역 1번 출구앞 대여소에서는 9월에 정말 많은 인파가 몰리는 것을 시각적으로 볼 수 있습니다. 특히, 토요일/일요일에 상당히 많은 서울 시민들이 대여소를 이용하고 있는 것을 볼 수 있는데요. 가장 사용량이 낮은 화요일 대비 사용량이 가장 높은 일요일의 경우, 약 2배 가량 대여수 차이가 나는 것을 확인할 수 있습니다. 저도 영등포구 주민이라 자주 이곳을 방문하는데, 항상 주말이면 따릉이를 빌리는 자들의 눈치게임을 볼 수 있는 곳이고 합니다.
맵챁의 위에있는 대시보드의 필터 기능을 통해 주말과 시간을 설정할 수 있는데요. 주말 오후 3시로 대시보드를 설정하면, 따릉이 이용이 한강 주변에서 많이 일어나는 것을 시각적으로 확인할 수 있습니다 (Figure 3.). 특히, 여의도, 뚝섬, 당산 쪽에 붉은 밀도를 볼 수 있습니다. 또한, 이 시간에는 송파구가 가장 많은 따릉이 대여가 일어나고 있는것을 오른쪽 막대 차트로 확인할 수 있는데요, 대시보드를 탐색하시면, 송파구에서는 롯데월드 타워 대여소가 가장 인기가 많다는 것도 알 수 있습니다.
2.2 월별 따릉이 자전거 대여수
대시보드 우측에는 따릉이가 어떤 월에 가장 많은 대여가 일어나는지 확인할 수 있습니다 (Figure 4.). 2021년에는 코로나 여파여서 그런지 벚꽃이 피는 4월이나 5월보다는 9월에 가장 많은 대여가 나타났습니다. 막대 차트를 마우스 오버하시면 해당월의 일별 날짜에 따라 대여수, 강우량, 평균온도 수치를 확인할 수 있는데요. 여기서 확인 가능한 것은 확실히 강우량이 있는 날짜의 경우, 따릉이 대여가 눈에띄게 줄어드는 것을 확인할 수 있습니다. 특히, 5월 16일의 경우 강우가 66mm가 발생하여 2,250건 밖에 대여가 일어나지 않았습니다. 이는 평소대비 약 5% 수준의 따릉이 대여입니다. 그나저나, 그렇게 비가 꽤나 왔는데도 2,250명은 따릉이를 빌려서 이동했다는게 참 신기하네요.
실제로 5월 16일 기준으로 보니 봉림교, 롯데월드, 건대, 각종 시장 쪽에서 따릉이 대여가 많이 일어났습니다. 한강 주변은 크게 발생안한 것으로 보아, 동네 이동이나 물건 전달을 위한 것으로 보입니다.
2.3 지역구별 따릉이 자전거 대여수
서울 시에서 가장 대여가 많이 일어나는 곳은 지역구는 바로 강서구 입니다(Figure 5.). 강서구 단독으로 2021년에 290만건의 대여가 일어났고 2위인 송파구보다 60만건이나 차이가 납니다. 강서구에 원룸과 오피스텔이 많다는 것은 알고 있었는데요. 이정도면 강서구 주민들은 따릉이로 출퇴근에 장까지 보는게 아닌가 싶네요. 진정한 친환경 지역구 입니다.
막대 차트를 클릭하면 왼쪽에 지도 시각화가 해당 지역구로 확대 됩니다. 강서구 주민분들은 지도 시각화를 통해 어디인지 바로바로 아시겠지만, 막대 차트를 마우스 오버하면 상위 20개 대여소를 한눈에 볼 수 있습니다.
여러 대여소 중 마곡나루역 2번 출구가 현재 가장 높은 대여가 강서구에서 일어나는 것을 확인할 수 있습니다. 이게 역에서 바로나와서 집이나 회사까지 따릉이를 타고 이동해서 그런게 아닌가 싶은데요. 실제로 마곡나루역에서 한강까지는 거리가 조금 있습니다. 예전에 제가 강서구 데이터 분석 프로젝트를 갔을때, 마곡나루는 뭔가… 공터도 많고 도로도 크고.. 역에서 LG같은 회사 밀집지역까지 가기에는 또 거리가 꽤 되었습니다. 그렇다고 버스타기에는 애매한 거리었던걸로 기억합니다. 이 때문에 버스 보다는 따릉이를 주로 이용해서 직장인분들이 이동하시는 것 같습니다. 혹시 왜 강서구가 따릉이를 많이 이용하는지 아시는분은 자유롭게 댓글 달아주시면 감사드리겠습니다.
2.4 일별 따릉이 대여수, 온도에 따른 따릉이 자전거 대여수
따릉이는 압도적으로 일 평균온도가 24도일 경우 대여가 가장 많이 일어납니다(Figure 6.). 약 300만건으로 평균 기온 1도 차이인 23도 150만건에 비해 2배 차이납니다. 딱 운동하기 좋은 날씨이기도 하고 저녁에는 선선한 날씨가 평균 온도 24도이기 때문인거 같습니다. 그리고 우리나라 평균기온이 24도인 날의 수(두 계절: 봄, 가을)가 많기도 하기 때문입니다. 반면 온도가 30도(여름)를 넘거나 영하(겨울)로 떨어지면 따릉이 대여 수가 급격하게 낮아지는 모습도 확인할 수 있습니다. 기온이 0도일 경우에는 1년 전체 대여수가 17만 7천건으로 굉장히 낮은 수준을 보여 줍니다. 또한 평균기온 30도인날 전체 대여수는 43만건으로 나타났습니다.
오른쪽 일별 자전거 대여수 라인 차트를 보시면, 따릉이 이용 이동 평균을 보실 수 있는데요. 확실히 날씨가 좋은 4~5월 9월~10월에 가장 높은 따릉이 대여수가 일어나고 있는 것을 확인할 수 있습니다. 그러다가 추워지는 1월과 12월에는 정말 낮은 대여수를 보여줍니다. 아마 사용률이 매우 낮으니, 따릉이 정비가 이때 겨울에 많이 이루어질 것으로 예상됩니다.
3. 데이터는 어디서 받을 수 있나요?
3.1 서울 열린데이터 광장
서울시에서 현재 운영하고 있는 서울 열린데이터 광장 사이트에 들어가시면 인기그룹데이터 중 공공 자전거 이용정보를 활용하실 수 있습니다. 따릉이 데이터는 다양한 집계 수준으로 제공하고 있으나 저는 그중 가장 하위 단위인 시간 단위까지의 데이터를 활용하였습니다.
3.2. 날씨 데이터
저는 강수량과 온도에따라 따릉이 이용이 어떻게 변하는지 알기 위해 기상 데이터를 활용하였습니다. 기상청에 들어가시면 내가 원하는 도시의 날씨 데이터를 다운받으실 수 있습니다.
4. 데이터는 정제는 어떻게 하셨나요?
저는 따릉이 데이터를 Tableau Prep을 활용하여 정제하였습니다(Figure 10). 따릉이 데이터를 유니온 조인하고, 공휴일 정보, 대여소 마스터 데이터, 온도, 강수량 등을 자유자재로 조인하고 정제를 수행했습니다.
특히나 유용했던 것은 수천만건의 데이터를 빠르게 통합해주는 기능이었는데요(Figure 11). 따릉이 데이터를 다운받으시면 아시겠지만 각각의 월별 데이터로 12개의 csv로 전달해줍니다. 이때 태블로 프렙의 테이블 유니온 기능 중 와일드 카드 기능을 통해 빠르게 12개의 csv파일을 통합했던 것이 아주 좋았습니다. (파이썬이랑 R로 한글 CSV 파일 읽고 통합하면 깨지는 현상이 자주.. 발생하여.. 불편한 경우가 많지만, 태블로는 파일형식(UTF → EUCKR 같이)도 안에서 쉽게 바꿀 수 있어 참 좋습니다.)
또한 데이터 그룹화도 제가 아주 좋아하는 기능인데요(Figure 12). 내가원하는 데이터를 편하게 드래그앤 드랍해서 데이터를 집계할 수 있고 전반적인 통계 현황도 히스토그램으로 볼 수 있어서 이게 정말 편했습니다. 저는 대여일자, 대여시간, 대여소번호 기준으로 그룹화해서 이용건수, 이동거리, 사용시간 같은 측정값을 집계 하였습니다.
5. 정리
네 지금까지 2021년 서울 시민의 따릉이 이용을 한눈에 볼 수 있는 대시보드를 소개드렸습니다. 아직 더 분석하고 싶은 내용들이 많기도 하지만, 이번 분석은 여기까지만 하도록 하겠습니다. 저도 가끔 따릉이 타고 한강을 산책하는데요. 서울시민 분들이 사용하는 따릉이 사용을 하나하나 모아서 이렇게 보니, 정말 의미있고 재밌는 인사이트가 많다는 것을 알게 되었습니다.
그리고 마지막으로 따릉이 사용량은 꾸준히 늘고 있습니다. 4년치 데이터 주단위로 시계열을 표현하면 이런 모습의 라인 그래프가 나탑니다. 2018년 대비 코로나임에도 꾸준히 따릉이 사용량이 증가하는 것을 추세선으로 볼수 있습니다. 서울시가 제공한 데이터에 따르면 따릉이 대여건수는 19년(1800만건) 대비 20년(2320만건)은 약 29%, 그리고 20년(2320만건) 대비 21년(2850만건) 약 22% 증가하였습니다. 이는 매년 20% 이상의 대여건수 증가 성장률을 보여주고 있습니다. 앞으로도 많은 분들이 따릉이를 더 사랑해주시고 서울시도 친환경을 위해 더 많은 공공 자전거 지원을 해주었으면 좋겠습니다. 그럼 다음글에서 또 뵙겠습니다.
독자님들에게
태블로를 통한 데이터 분석 사례 혹은 태블로 활용 사례가 있으시다면 누구나 태블로 위키의 객원작가로써 글을 남길 수 있습니다. 간단하게 홈 페이지의 객원 작가 신청을 누르시고 남기고 싶으신 글 기획을 보내 주시면 되십니다. 대한민국 즐거운 데이터 분석 문화를 위해, 여러분들의 소중한 창의력과 아이디어 기다리고 있겠습니다.
4 thoughts on “그 많은 따릉이는 다들 어디서 제일 많이 탈까?”
안녕하세요. 좋은 자료 감명있게 봤습니다.
글을 읽다가 궁금증이 생겨서 이렇게 댓글을 남깁니다.
지금 사용한 도구가 태블릿 퍼블릭 무료버젼 같은데.. 저렇게 대시보드에 올려놓고 이미지를 SNS에 올려도 문제가 되지않나요?? 아무래도 무료버전이다보니 제한이 많아서 궁금하네요ㅠ
안녕하세요 김성년님, 태블로 퍼블릭을 활용하여 대시보드를 만드시고 공유하셔도 문제되지 않습니다. 이미 많은 데이터 분석가들이 트위터/인스타/페북/링크드인에 자신의 태블로 결과물을 공유하고 있습니다. 다만 사용하시는 데이터가 공유가능한 퍼블릭 데이터인지는 확인을 꼭해주셔야 합니다.
너무 좋은 시각화 자료 감사합니다. 자료가 한눈에 들어오네요
운송 수단 별 이용 현황에 대한 데이터에 관심이 많았는데, 큰 도움이 될 것 같습니다.
태블로 연습 겸 위 자료 활용해서 만들어 보겠습니다 ㅎ.ㅎbb
좋은 글 감사드립니다!!