Day3의 작성한 데일리 과제를 기반으로 가설을 확인할 수 있도록 데이터를 확인하고 시각화 합니다. - 기본적으로는 엑셀과 피피티를 활용해주세요- 여러분들의 다양한 시각화 방법이 있다면 해당 방법을 써도 무관합니다.(예시) GA, Amplitude, Tableau 등.. )
본인이 세운 가설과 실제 결과를 비교합니다.
본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다
예시 : 실제 데이터를 확인한 결과, 어린이 프로그램과 성인 프로그램의 'duration' 은 별 반 차이가 없었습니다. (어린이 프로그램 duraion 평균 값과 성인 프로그램 duration 평균 값을 막대 그래프로 비교) 이는 넷플릭스라는 플랫폼의 특성 상 성인 또한 가볍고 짧은 시간 동안 볼 수 있는 프로그램을 선호하기 때문이라고 기사를 통해 알 수 있었습니다. (기사 첨부)
이것은 통합할 때 썼던 파일이다. 오피스컴 사이트를 끄기 전에 출처 남기는 거랑 표 정리하는 것, 표 범위 설정하는 것 잊었다.
⊙툴 사용
내가 선택한 툴은 public tableau이다. 엑셀 잘 안되더라고.
방법
회원가입
파일 업로드
데이터 해석기
시트 전체 테이블을 삭제하고 내가 쓰고자하는 표만 올려놓음
옆에 워크시트를 만들어
열, 행에 데이터를 올리자. 합계로 뜰텐데 차원으로 변경
표에 띄울 내용은 중앙에 던져놓자. 행정구역
그 후 알아서 변경하기
|세운 가설과 실제 결과를 비교, 분석
⊙ 정한대로 시각화하기
Arr... 내가 상상한 비주얼은 이게 아닌데? X축 Y축 중간에 물결선 넣어서 보기 좋게 만들고 요소 크기를 더 키우고 싶었다.
요소 옆에 어떤 구역인지도 같이 표시하고 싶었다. 90, 강원도 이렇게. 그리고 요소 간 순서도 제대로, 전국을 제일 위에 올리고 싶었다.
뭐 눈에 제대로 보이지도 않네. 실패한 시각화 자료로 써도 될 거 같다. 방문객 여러분 실패 자료로다가 자유롭게 쓰십시오 ㅎㅎ 다른 차트로 변경하려고 했지만 측정값이랑 차원값 제한 때문에 변경할 수 없었다.
⊙ 다른 방법으로 시각화 시도
막대 그래프
좌측 간트, 우측 밀도
인구밀집도는 원 크기로 보였으면 좋을텐데. 간트는 색깔 다르게 해서 같이 표시할 수 있으면 좋았을텐데. 범례로 빼면 되잖아.
꺾은선 그래프 한칸에 같이 두고 싶었어
⊙ 그래서 가설 맞음? - 불일치
<폐지 가격이 낮은 곳은 인구 밀집도가 낮다?>
일치하지 않는다. 표를 보면 대충 감이 오겠지만 몇 가지 요소가 대체로 정반대 양상을 보인다. 즉, 가격-밀집도가 정비례하지 않았다. 차라리 폐지 가격이 높을수록 인구밀집도가 비교적 높다고도 볼 수 있겠다. 모든 순서가 일치하지 않으니 100% 그런 건 아니다. 애시당초 정확히 알려면 고려할 게 더 많다. 폐지 가격은 계속 변동하여 월간 추이를 따져보면 비슷한 수치끼리는 순위를 엎치락뒤치락 하고 있다. 인구밀도에도 어디서 많이 빠져나가고 어디서 많이 유입되어 오는지(세종시 인구는 상승 중인데 부산 인구는 조금씩 줄고 있다), 각 지역 산업 흐름과 연령대별 분포는 어떻게 되는지처럼 같이 물어야할 질문이 많다.
보는 분들이 엑셀로 통계내지 왜 노가다 하냐고 할만한 노력을 좀 해보자면...
인구밀집도: 수도권 > 경남 > 충남 > 전남 > 경북 > |넘을수없는사랑의벽| > 전국 평균 > 전북 > 충북 > 강원 폐지 가격 순: 수도권 > 경북 > 경남 > 충북 > 전국 평균 > 전북 > 전남 > 강원 > |넘을수없는사랑의벽| > 충남
연두색: 엄청 많은 값 / 노랑: 많은 편 / 하늘색: 적은 편 / 분홍색: 엄청 적은 값 /빨간 글자: 비례하는 곳
인구가 많은 곳들은 광역시와 특별시가 있는 곳들이다.
비례: (높음) 경상도 / (낮음) 전북, 강원 / 인구수부터가 압도적이라 다른 케이스 같은 수도권
반비례: (밀집도 높고 폐지 저렴한) 충남, 전남 / (밀낮폐높) 충북
수도권 빼고 4:3 비율이라 어떤 인사이트도 얻을 수 없었다. 비례하는 지역이 5~6개 정도면 어느정도 맞다고 볼 수도 있는데 예외 사례가 많다.
그럼 차라리 노인 인구가 어디에 많이 사는지를 보는 게 나았겠다. 충청남도는 세종특별시랑 대전광역시가 있어서...
수도권이야 워낙 인구수가 압도적이니 둘다 높은 모습을 보이는 건 다른 원인이 있을 것이라고 생각하는 게 맞는 듯하다.
자료2 출처에서 다운받은 인구밀도 차트
사진은 2021년 기준 대한민국 인구밀도 파이차트다. 특별시, 특별자치시, 광역시, 6개 도로 총 20개의 요소가 있는데도 서울턱별시가 압도적으로 많다.
요약
불일치.
두 지표 간의 연관성을 발견할 수 없었음.
⊙ 왜일까요?
폐지 가격이 다른 이유, 가격 기준, 지역별 차이 등 온갖 키워드 넣어 검색해봤지만 쓸만한 설명글을 찾지 못했다...
가격이 높은 편에 속하는 경남에는 공공 비축창고가 없어서 생략하였다. 비축창고가 세워진 곳 중에 3개 도가 평균보다 높다. 이 가설 또한 완벽하진 않지만 그래도 전북의 가격이 평균에 조금 못미친다는 걸 생각할 때(더 많은 일자를 살펴보면 또 다를 수 있겠지만) 어느정도 경향성은 있지 않을까 싶다. 비축창고가 세워져서 폐지 가격이 올라간 게 아니래도, 폐지 흐름이 원활한 곳이라 비축창고가 세워진 걸 수 있으니 말이다.
이 가설이 맞는지를 알려면 비축창고가 세워지기 전 가격 흐름과 비교하는 게 더 정확할 거 같다. 폐지 가격은 국제 정세와 연관이 크니까 국가 정책의 영향도 크다고 보면 되지 않을까? 재활용 산업은 흐름이 중요하니 산업 생태계를 좀더 면밀히 살펴보면 답이 나올 것이다. '폐지 줍는 노인' 일꾼 집단은 흐름의 일부라는 점을 생각하면 내 가설이 틀린 이유도 얼추 거시기?
일단 뭘 더 조사하면 되는지 아주 대략적인 인사이트라도 얻은 점에 만족하겠다...
만족은 안되고 여전히 궁금하다. 지역별 폐신문지 가격 차이 왜 나는가?
제지공장 분포와 관련 있다?
비축창고 위치랑 어느정도 관련이 있어 보이니까, 창고 없는 경남이 가격이 비싼 이유나 충북 경북 전북에 세워진 이유 등을 알려면 제지공장 위치를 찾으면 되지 않을까? 종이, 특히 신문지는 폐신문지를 70% 넣어서 만드니까 제지공장의 위치는 폐지 가격에 많은 영향을 줄 것이다. 실제로 이미 몇 달 째 압축 공장과 제지 공장 앞에는폐지가쌓이고 있다고 기사에서 그럽디다.
이것은 아까 출처 남긴 이미지에 색칠해온 것이다.
노란색은 폐지 가격이 비싼 곳이고 빨간 글자는 공공 비축창고가 있는 곳이다.
와~ 제지공장은 전남과 강원도에는 많이 없고, \ 방향 대각선으로 대충 흐름이 이어지는 것 같은데, 그런 점에서 유사성이 있지 않은가? 특히 공공 비축창고가 있는 경기도 안성시는 16년도 일 평균 1000톤 이상 생산하던 곳과 지도 상 위치가 얼추 비슷하다.
왜인지 찾은 것 같다. 정확한지는 좀더 노력을 들여서 비교할 필요가 있긴 하다.
그리고 인구밀집도가 어떠한 연유로 관련이 없는지, 제지 공장이 폐지 가격에 정확히 어떤 영향을 얼마나 주는 것인지, 다른 요인과 연관지어 얼만큼 영향이 큰지 등 더 많은 질문과 함께 살펴봐야 하겠지만 그건 연구원님들이 해주실 것이다.
나는 이제 그 분들이 피땀눈물을 달콤하게 받아먹으면 된다. 결코 졸림이 한계에 임박해서가 아닌 게 아니고 맞다.
결론
인구 관련 지표보다는 제지공장(또는 관련 시설) 분포가 더 관련이 깊었다.
공공 폐지 비축창고가 있고, 제지 공장이 있는 지역은 폐지 가격이 비싼 경향성을 보였다.
왜인지는 모르겠다... 제지 공장이 폐지를 비싼 값에 사주나? ...왜? 누군가에겐 당연한 추리가 지금 눈알이 시뻘갠 나한테는 어렵다. 누가 알기 쉽게 경제 원리 설명해주실 분? 결코 내가 바보여서 그런 게 아니고 제지사가 없거나 적은 지역에서는 운송비가 발생하기 때문에 중간 도매상인 고물상이 더 비싸게 매입하지 않나? 아니면 제지사가 많아서 매물이 많으니까 고물상도 자연스럽게 많아져서 경쟁 붙어가지고 도매 과정부터 비싸게 사주나? 아니면 이렇게 단순하게 추측하는 것 자체부터 한계가 발생하나? 이렇듯 바보라서 모르는 걸 수도 있긴 하므로, 바보에게 친절하게 알려주실 분?
여담
장인은 도구를 탓하지 않지만 예외가 있다 바로 탓하기 장인일 때... 그건 바로 나다.
오피스 폴라리스,office.com 사이트는 나에게 화만 가르쳐주었다. 20년도만 해도 엑셀은 X축 Y축 직접 정할 수 있었던 거 같고 레이블도 표시할 수 있던 거 같은데 지금은 대체 왜?
태블로 시간 지나면 자동 삭제 되는지 몰랐고 자동저장 안되는지도 몰랐다. 덕분에 다시 만들어야 했다. 이전 버전 살려줄 것처럼 되돌리기 안내 띄우길래 눌렀는데 새로 만들던 데이터까지 삭제되었다. 왜 날 괴롭히지? 순진한 나를 왜 갖고노냔 말이다? 갑자기 렉 걸리더니 로그인이 만료되어서 모든 데이터가 또 튕겼다.
하 그리고 웃긴게 데이터 끌고 오기 전에 행정지역에 지리적 특성을 넣어준 다음에 다시 텍스트로 변경해야 알아서 요소마다 색을 다르게 넣어준다. 하.. 오류 먹어서 게시할 수조차 없다. 최적화 프로그램 돌리면 문제없다고 하는데 대체 왜?
물결선도 레이블 제목도 엑셀에서는 쉽게 찾을 수 있던 기능이었는데 왜 태블로를 아무리 뒤져도 할 수가 없을까? 엑셀에는 산포도 차트 기능이 없고, 태블로는 그 외 편의기능이 없으니 아 어쩌란 말이냐? 일단 빨리 만들고 확인해봐야 아 전혀 말도 안되는 가설이었구나 하고 빨리 깨달을 수가 있는데 내가 찾는 기능이 영 없으니 어찌하면 좋단 말인가? 마이크로소프트에서 옛날 버전 엑셀 정품을 옛다 가져라 하고 무기한으로 쓰게해준다면, 그러한 자비를 베풀어준다면 마음 속 깊이 무궁한 감사를 품으며 앞날을 축복해주리라... 왜냐면 진짜 고맙잖아.. 아 어디서 착한 마이크로소프트 사장님이 정품 키 공짜로 메일 보내주지 않을랑가..... 솔직히 난 아직 마음만은 학생인데 학생용으로다가 평생 공짜로 쓸 수 있게 해줄 수 있는 거 아니냐? 자고로 평생 배우는 마음으로 살라고 하였다
타블로 사용법 자체는 금방 익혔는데 되도않는 폴라리스 오피스 엑셀 붙잡고 오피스컴 브라우저 무료 엑셀 붙잡고 아 피벗 테이블에 왜 데이터 추가 못하냐고, 왜 차트 데이터 자꾸 삭제되냐고, 왜 데이터 수정 못하냐고 징징대다보니 시간이 걸렸다. 처음부터 태블로를 살펴볼 것을... 그럼 시각화 하나라도 더 만들었을텐데? 하지만 그걸 미리 알아채고 지혜롭게 굴었다면 그건 내가 아니다. 나는 실수하는 동물이다.