과제 ) 데이터 시각화를 연습해보도록 합시다.
Kaggle 또는 공공데이터포털을 활용하여 데이터 시각화를 연습해보도록 합시다.
- Day3의 작성한 데일리 과제를 기반으로 가설을 확인할 수 있도록 데이터를 확인하고 시각화 합니다. - 기본적으로는 엑셀과 피피티를 활용해주세요 - 여러분들의 다양한 시각화 방법이 있다면 해당 방법을 써도 무관합니다.(예시) GA, Amplitude, Tableau 등.. )
- 본인이 세운 가설과 실제 결과를 비교합니다.
- 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다
예시 : 실제 데이터를 확인한 결과, 어린이 프로그램과 성인 프로그램의 'duration' 은 별 반 차이가 없었습니다. (어린이 프로그램 duraion 평균 값과 성인 프로그램 duration 평균 값을 막대 그래프로 비교) 이는 넷플릭스라는 플랫폼의 특성 상 성인 또한 가볍고 짧은 시간 동안 볼 수 있는 프로그램을 선호하기 때문이라고 기사를 통해 알 수 있었습니다. (기사 첨부)
하고자 하는 이야기를 한눈에 알아 볼수 있게 하였는가? |
가설과 실제 결과를 파악하기 용이한 시각화 형태를 사용하였는가? |
⊙ 과제의 핵심 용어(또는 이론)
데이터 시각화
다음 태블로
(Tableau)
어제 가설 세운 거를 시각화 해서 검증하는 게 오늘 과제다.
⊙
| 가설을 확인할 수 있도록 데이터를 확인하고 시각화 합니다
⊙ 어떤 가설을 확인해야 하는가?
- 어떤 가설인가 ?
어제자 과제에서 세운 가설이다.
2023.01.19 - [PM 부트캠프(22.12.12~23.03.15)/과제] - 통계 자료를 보고 가설을 찾아내는 연습 (W6D3)
w6d3 과제에서 나는 폐신문지에 관한 두 가지 자료를 가지고 가설 5개를 세웠다.
시각화에 아직 서툴기 때문에 우선은 가설 1만 시각화해보겠다. 솔직히 툴 익히고 하면 이것만 해도 시간 걸리지 않을까?
한두번 해보다보면 손에 익어서 더더더 빨라지겠지만 아직은 아니므로, 일단 첫걸음을 제대로 해보자는 취지에서, 과제에서 3개 다하라는 말도 없으니 편법으로, 왜냐면 나는 꼼수 자판기이기 때문이다.
- 선택한 가설을 설명하기
가설 1: 폐지 가격이 낮은 곳은 인구 밀집도가 낮다?
수도권 > 충북, 경북, 경남 > 전북, 전남, 강원 > 충남 순서로 폐지 가격이 높다.
- 19년 기준으로 '부수 밀어내기'라고 지역 사정을 고려하지 않고 같은 부수를 찍어내는 관행이 있었다. 이것이 고작 3~4년 지난 현재까지도 유지된다고 가정한다.
- 공급에 비해 수요가 적어 결국 버려지는 신문지가 많을 것이고, 그래서 다른 곳보다 싼 가격으로 판매될 것이다.
지표 | 시각화 방법 | 추가 자료? |
인구 밀집도 | 산포도 차트 / 두 가지 변수의 관계를 분석하는데 유용함 | O / 인구 밀도 통계 |
⊙ 자료 준비
- 자료 원본
자료1. 재활용가능자원 가격조사 (2022.12, 자원순환정보시스템 - 통계DB화 서비스)
폐지만 보기
어제 활용한 폐지 데이터 자료
자료2. 국가통계포털 국내 인구밀도(인구주택총조사기준) 19~21년
- 자료 통합
이 두 개의 자료 중 필요한 내용만 긁어서 하나의 표로 통합하였다. 전자는 2022년 12월 기준이고 후자는 2021년 전체를 고려한 데이터지만 가설 방향이 맞는지만 확인하는 용도기 때문에 넘어가자.
<통합 표 - 행정단위별 22년 폐 신문지 가격 및 21년 인구밀집도>
인구밀집도 자료에는 광역시, 특별시가 따로 분류되어있었는데 도 단위에 포함시켰다. 왜냐하면 따로 계산되지 않은 자료1에 맞춰야 하기 때문이다.
이것은 통합할 때 썼던 파일이다. 오피스컴 사이트를 끄기 전에 출처 남기는 거랑 표 정리하는 것, 표 범위 설정하는 것 잊었다.
⊙ 툴 사용
내가 선택한 툴은 public tableau이다. 엑셀 잘 안되더라고.
방법
- 회원가입
- 파일 업로드
- 데이터 해석기
- 시트 전체 테이블을 삭제하고 내가 쓰고자하는 표만 올려놓음
- 옆에 워크시트를 만들어
- 열, 행에 데이터를 올리자. 합계로 뜰텐데 차원으로 변경
- 표에 띄울 내용은 중앙에 던져놓자. 행정구역
- 그 후 알아서 변경하기
| 세운 가설과 실제 결과를 비교, 분석
⊙ 정한대로 시각화하기
Arr... 내가 상상한 비주얼은 이게 아닌데? X축 Y축 중간에 물결선 넣어서 보기 좋게 만들고 요소 크기를 더 키우고 싶었다.
요소 옆에 어떤 구역인지도 같이 표시하고 싶었다. 90, 강원도 이렇게. 그리고 요소 간 순서도 제대로, 전국을 제일 위에 올리고 싶었다.
뭐 눈에 제대로 보이지도 않네. 실패한 시각화 자료로 써도 될 거 같다. 방문객 여러분 실패 자료로다가 자유롭게 쓰십시오 ㅎㅎ 다른 차트로 변경하려고 했지만 측정값이랑 차원값 제한 때문에 변경할 수 없었다.
⊙ 다른 방법으로 시각화 시도
인구밀집도는 원 크기로 보였으면 좋을텐데. 간트는 색깔 다르게 해서 같이 표시할 수 있으면 좋았을텐데. 범례로 빼면 되잖아.
⊙ 그래서 가설 맞음? - 불일치
<폐지 가격이 낮은 곳은 인구 밀집도가 낮다?>
일치하지 않는다. 표를 보면 대충 감이 오겠지만 몇 가지 요소가 대체로 정반대 양상을 보인다. 즉, 가격-밀집도가 정비례하지 않았다. 차라리 폐지 가격이 높을수록 인구밀집도가 비교적 높다고도 볼 수 있겠다. 모든 순서가 일치하지 않으니 100% 그런 건 아니다. 애시당초 정확히 알려면 고려할 게 더 많다. 폐지 가격은 계속 변동하여 월간 추이를 따져보면 비슷한 수치끼리는 순위를 엎치락뒤치락 하고 있다. 인구밀도에도 어디서 많이 빠져나가고 어디서 많이 유입되어 오는지(세종시 인구는 상승 중인데 부산 인구는 조금씩 줄고 있다), 각 지역 산업 흐름과 연령대별 분포는 어떻게 되는지처럼 같이 물어야할 질문이 많다.
보는 분들이 엑셀로 통계내지 왜 노가다 하냐고 할만한 노력을 좀 해보자면...
인구밀집도: 수도권 > 경남 > 충남 > 전남 > 경북 > |넘을수없는사랑의벽| > 전국 평균 > 전북 > 충북 > 강원
폐지 가격 순: 수도권 > 경북 > 경남 > 충북 > 전국 평균 > 전북 > 전남 > 강원 > |넘을수없는사랑의벽| > 충남
연두색: 엄청 많은 값 / 노랑: 많은 편 / 하늘색: 적은 편 / 분홍색: 엄청 적은 값 / 빨간 글자: 비례하는 곳
인구가 많은 곳들은 광역시와 특별시가 있는 곳들이다.
비례: (높음) 경상도 / (낮음) 전북, 강원 / 인구수부터가 압도적이라 다른 케이스 같은 수도권
반비례: (밀집도 높고 폐지 저렴한) 충남, 전남 / (밀낮폐높) 충북
수도권 빼고 4:3 비율이라 어떤 인사이트도 얻을 수 없었다. 비례하는 지역이 5~6개 정도면 어느정도 맞다고 볼 수도 있는데 예외 사례가 많다.
그럼 차라리 노인 인구가 어디에 많이 사는지를 보는 게 나았겠다. 충청남도는 세종특별시랑 대전광역시가 있어서...
수도권이야 워낙 인구수가 압도적이니 둘다 높은 모습을 보이는 건 다른 원인이 있을 것이라고 생각하는 게 맞는 듯하다.
사진은 2021년 기준 대한민국 인구밀도 파이차트다. 특별시, 특별자치시, 광역시, 6개 도로 총 20개의 요소가 있는데도 서울턱별시가 압도적으로 많다.
- 요약
불일치.
두 지표 간의 연관성을 발견할 수 없었음.
⊙ 왜일까요?
폐지 가격이 다른 이유, 가격 기준, 지역별 차이 등 온갖 키워드 넣어 검색해봤지만 쓸만한 설명글을 찾지 못했다...
50년 전의 나라면 이쯤에서 낸들 아리오? 하고 앙칼지게 끝냈겠지만 지금의 나는 다르다.
다른 가설 데이터를 찾아보겄슈.
- 고령자 거주 비율과 관련 있다?
https://jumin.mois.go.kr/ageStatGraphLayer.do
폐지 가격 순: 수도권 > 경북 > 경남 > 충북 > 전국 평균 > 전북 > 전남 > 강원 > |넘을수없는사랑의벽| > 충남
▼ 이미지가 많아서 접은 글: 위 링크에서 다운받은 도 단위별 연령대 비율 이미지
전북이랑 충북 안봤지만 뻔할 뻔자다. 노인 연령 비율도 관련이 없다.
이 가설도 쓸만하지 않은 걸로...
- 폐지 가격의 지역별 차이는 제지사가 어느 지역에 많은지와 관련 있다?
제지사 통계를 못찾았다. 환경순환시스템에서 지역별 기업 정보를 보면 되려나?
일단 한국제지연합회 사이트에 들어가서 회원사를 보았는데 지역별로 시각화가 안되어있다...
- 공공 비축창고가 있는 지역이랑 가격이 연관 있을 것이다?
청주, 음성: 충북
전읍: 전북
대구: 경북
안성, 양주: 경기
폐지 가격 순: 수도권(경기 포함) > 경북 > 충북 > 전국 평균 > 전북
가격이 높은 편에 속하는 경남에는 공공 비축창고가 없어서 생략하였다. 비축창고가 세워진 곳 중에 3개 도가 평균보다 높다. 이 가설 또한 완벽하진 않지만 그래도 전북의 가격이 평균에 조금 못미친다는 걸 생각할 때(더 많은 일자를 살펴보면 또 다를 수 있겠지만) 어느정도 경향성은 있지 않을까 싶다. 비축창고가 세워져서 폐지 가격이 올라간 게 아니래도, 폐지 흐름이 원활한 곳이라 비축창고가 세워진 걸 수 있으니 말이다.
이 가설이 맞는지를 알려면 비축창고가 세워지기 전 가격 흐름과 비교하는 게 더 정확할 거 같다. 폐지 가격은 국제 정세와 연관이 크니까 국가 정책의 영향도 크다고 보면 되지 않을까? 재활용 산업은 흐름이 중요하니 산업 생태계를 좀더 면밀히 살펴보면 답이 나올 것이다. '폐지 줍는 노인' 일꾼 집단은 흐름의 일부라는 점을 생각하면 내 가설이 틀린 이유도 얼추 거시기?
일단 뭘 더 조사하면 되는지 아주 대략적인 인사이트라도 얻은 점에 만족하겠다...
만족은 안되고 여전히 궁금하다. 지역별 폐신문지 가격 차이 왜 나는가?
- 제지공장 분포와 관련 있다?
비축창고 위치랑 어느정도 관련이 있어 보이니까, 창고 없는 경남이 가격이 비싼 이유나 충북 경북 전북에 세워진 이유 등을 알려면 제지공장 위치를 찾으면 되지 않을까? 종이, 특히 신문지는 폐신문지를 70% 넣어서 만드니까 제지공장의 위치는 폐지 가격에 많은 영향을 줄 것이다. 실제로 이미 몇 달 째 압축 공장과 제지 공장 앞에는 폐지가 쌓이고 있다고 기사에서 그럽디다.
이것은 아까 출처 남긴 이미지에 색칠해온 것이다.
노란색은 폐지 가격이 비싼 곳이고 빨간 글자는 공공 비축창고가 있는 곳이다.
와~ 제지공장은 전남과 강원도에는 많이 없고, \ 방향 대각선으로 대충 흐름이 이어지는 것 같은데, 그런 점에서 유사성이 있지 않은가? 특히 공공 비축창고가 있는 경기도 안성시는 16년도 일 평균 1000톤 이상 생산하던 곳과 지도 상 위치가 얼추 비슷하다.
왜인지 찾은 것 같다. 정확한지는 좀더 노력을 들여서 비교할 필요가 있긴 하다.
그리고 인구밀집도가 어떠한 연유로 관련이 없는지, 제지 공장이 폐지 가격에 정확히 어떤 영향을 얼마나 주는 것인지, 다른 요인과 연관지어 얼만큼 영향이 큰지 등 더 많은 질문과 함께 살펴봐야 하겠지만 그건 연구원님들이 해주실 것이다.
나는 이제 그 분들이 피땀눈물을 달콤하게 받아먹으면 된다. 결코 졸림이 한계에 임박해서가 아닌 게 아니고 맞다.
- 결론
인구 관련 지표보다는 제지공장(또는 관련 시설) 분포가 더 관련이 깊었다.
공공 폐지 비축창고가 있고, 제지 공장이 있는 지역은 폐지 가격이 비싼 경향성을 보였다.
왜인지는 모르겠다... 제지 공장이 폐지를 비싼 값에 사주나? ...왜? 누군가에겐 당연한 추리가 지금 눈알이 시뻘갠 나한테는 어렵다. 누가 알기 쉽게 경제 원리 설명해주실 분? 결코 내가 바보여서 그런 게 아니고 제지사가 없거나 적은 지역에서는 운송비가 발생하기 때문에 중간 도매상인 고물상이 더 비싸게 매입하지 않나? 아니면 제지사가 많아서 매물이 많으니까 고물상도 자연스럽게 많아져서 경쟁 붙어가지고 도매 과정부터 비싸게 사주나? 아니면 이렇게 단순하게 추측하는 것 자체부터 한계가 발생하나? 이렇듯 바보라서 모르는 걸 수도 있긴 하므로, 바보에게 친절하게 알려주실 분?
여담
장인은 도구를 탓하지 않지만 예외가 있다 바로 탓하기 장인일 때... 그건 바로 나다.
오피스 폴라리스, office.com 사이트는 나에게 화만 가르쳐주었다. 20년도만 해도 엑셀은 X축 Y축 직접 정할 수 있었던 거 같고 레이블도 표시할 수 있던 거 같은데 지금은 대체 왜?
태블로 시간 지나면 자동 삭제 되는지 몰랐고 자동저장 안되는지도 몰랐다. 덕분에 다시 만들어야 했다. 이전 버전 살려줄 것처럼 되돌리기 안내 띄우길래 눌렀는데 새로 만들던 데이터까지 삭제되었다. 왜 날 괴롭히지? 순진한 나를 왜 갖고노냔 말이다? 갑자기 렉 걸리더니 로그인이 만료되어서 모든 데이터가 또 튕겼다.
하 그리고 웃긴게 데이터 끌고 오기 전에 행정지역에 지리적 특성을 넣어준 다음에 다시 텍스트로 변경해야 알아서 요소마다 색을 다르게 넣어준다. 하.. 오류 먹어서 게시할 수조차 없다. 최적화 프로그램 돌리면 문제없다고 하는데 대체 왜?
물결선도 레이블 제목도 엑셀에서는 쉽게 찾을 수 있던 기능이었는데 왜 태블로를 아무리 뒤져도 할 수가 없을까? 엑셀에는 산포도 차트 기능이 없고, 태블로는 그 외 편의기능이 없으니 아 어쩌란 말이냐? 일단 빨리 만들고 확인해봐야 아 전혀 말도 안되는 가설이었구나 하고 빨리 깨달을 수가 있는데 내가 찾는 기능이 영 없으니 어찌하면 좋단 말인가? 마이크로소프트에서 옛날 버전 엑셀 정품을 옛다 가져라 하고 무기한으로 쓰게해준다면, 그러한 자비를 베풀어준다면 마음 속 깊이 무궁한 감사를 품으며 앞날을 축복해주리라... 왜냐면 진짜 고맙잖아.. 아 어디서 착한 마이크로소프트 사장님이 정품 키 공짜로 메일 보내주지 않을랑가..... 솔직히 난 아직 마음만은 학생인데 학생용으로다가 평생 공짜로 쓸 수 있게 해줄 수 있는 거 아니냐? 자고로 평생 배우는 마음으로 살라고 하였다
타블로 사용법 자체는 금방 익혔는데 되도않는 폴라리스 오피스 엑셀 붙잡고 오피스컴 브라우저 무료 엑셀 붙잡고 아 피벗 테이블에 왜 데이터 추가 못하냐고, 왜 차트 데이터 자꾸 삭제되냐고, 왜 데이터 수정 못하냐고 징징대다보니 시간이 걸렸다. 처음부터 태블로를 살펴볼 것을... 그럼 시각화 하나라도 더 만들었을텐데? 하지만 그걸 미리 알아채고 지혜롭게 굴었다면 그건 내가 아니다. 나는 실수하는 동물이다.
분석에 참고하지 않은 글
https://www.facebook.com/groups/KoreaTUG/
http://wiki.hash.kr/index.php/%EC%B0%A8%ED%8A%B8
W6D4 [코드스테이츠 PMB 16기] 과제
데이터 시각화
'PM 부트캠프(22.12.12~23.03.15) > 과제' 카테고리의 다른 글
세 개의 환경을 가진 하이브리드 샘이솟아 리오레이비 위키백과 (W7D2) (4) | 2023.01.27 |
---|---|
네이버 지식백과 메인 화면을 프론트 언어로 해부해보자 (W7D1) (0) | 2023.01.25 |
통계 자료를 보고 가설을 찾아내는 연습 (W6D3) (2) | 2023.01.19 |
미리 해놓지 않은 미리캔버스 린 분석 과제 (W6D2) (0) | 2023.01.17 |
Sleep Tracker의 데이터 구조가 어떻게 작동할지 짧은 고객 행동으로 추정해보자 (W6D1) (0) | 2023.01.16 |