Oxygen Cherry - Pencil
본문 바로가기

PM 부트캠프(22.12.12~23.03.15)/과제

통계 자료를 보고 가설을 찾아내는 연습 (W6D3)

728x90

과제 ) 제품 분석 도구로 실제 제품 지표 확인하기

더보기

D3과제는 D4과제와도 이어집니다. 과제 제출에 있어서 밀리지 않도록 해주세요!

  1. Kaggle 또는 공공데이터포털에 접속하여 본인이 관심 있는 주제의 데이터를 찾습니다.
  2. 해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다.(csv 파일은 Excel 에서 열 수 있습니다.)
  3. 확인한 데이터를 통해 추측이 가능한 가설을 생각해보고 가설을 3개 이상 설정합니다.
  4. 각 가설을 검증할 수 있는 각 각의 지표를 선택합니다. 지표를 선택 후 어떤 방향으로 시각화 하면 좋을지 초안 작성을 해봅니다.(지표는 GA의 지표를 참고 해도 좋고, Day2일차의 읽기자료를 참고해도 좋습니다. 예시- 사용자 수, 페이지 뷰, 세션 등..) (어떠한 방식이든 좋습니다. 제3자가 보기에 알아볼 수 있으면 됩니다.)
  5. a) 왜 해당 지표를 선택했는지? b) 어떤형태로 시각화를 하고 왜 그 형태로 시각화를 해야하는지? 위 2가지는 반드시 포함해주세요.

예시 : 저는 Kaggle 에서 Netflix Movies and TV Shows Listings of movies and tv shows on Netflix - Regularly Updated 데이터를 확인했습니다. 제가 세운 가설은 어린이 프로그램 (시청 연령 제한 12세 이하)이 성인 프로그램 (시청 연령 15세 이상, 19세 이상) 프로그램보다 'duration' 이 짧을 거라고 가설을 세웠습니다. 이유는 어린이들이 성인보다 동영상 시청에 대한 집중력이 낮을거라고 생각을 했기 때문입니다. 데이터 안정화를 위해 Season 을 가진 프로그램은 데이터에서 제외했습니다.

데이터의 항목간에 연관관계를 충분히 파악 할수 있는가?
세운 가설이 데이터와 관련이 있는 가설인가?
세운 가설이 충분히 합리적인가?

 

⊙ 과제의 핵심 용어(또는 이론)

데이터 드리븐
1. 문제정의 2. 가설 채택 3. 측정 지표 설정 4. 가설 검증 기준 설정 5. 결과 6. 학습한 점 7. 공유, 회고, 실행



데이터를 보고 인사이트를 얻는 연습을 하는 게 이번 과제의 의도다.


본인이 관심 있는 주제의 데이터를 찾아봅시다.


대체 뭘 찾아야 하는지 고민을 많이 했는데, 추천받은 자료 링크를 토대로 대체원료 사용현황이나 기업 정보 같은 거 찾아볼까 생각을 했다. 재활용이 안되는 쓰레기를 재활용이 가능한 쓰레기로 대체하는 친환경 기술에 조금 관심 있었다. 근데 자세히 몰라서, 이참에 조금 파헤쳐봐야겠다고 생각했다. 바이오 플라스틱 아이디어 3가지 이런 거. 하지만 기업 매출, 대체원료 사용량, 대체 정도 등의 정보를 내가 이해할 수 있을만한 데이터로 정리된 자료를 찾지 못했다.
(관련 데이터 찾아보려고 노력 했는데 수확 못 얻었다... 폐지 줍는 노인이 많은 지역은 평생교육 예산이 적고 노인 대학이 적다? 뭐 이런 가설 세우려고 했는데 노인 관련 자료 제대로 된 거를 못 찾았다.)


결국, 자원순환정보시스템의 어렵고도 어려운 통계DB를 노려보다가 그냥 아무말로 과제를 채우기로 했다.

그래서 결국 어떤 주제냐 하면 폐지 재활용이다.

 

자료1. 재활용가능자원 가격조사 (2022.12, 자원순환정보시스템 - 통계DB화 서비스)
재활용가능자원_가격조사.xls
0.03MB



자료2. 폐기물 재활용실적 및 업체현황_지역별(2020,상동)
폐기물 재활용실적 및 업체현황_지역별.xls
0.01MB




캡쳐를 올리고 싶은데 지금 컴퓨터가 이상해서 폴더가 켜지지 않고 캡쳐 프로그램도 불러올 수 없다. 필요한 데이터만 2년치로 저장하고 싶은데, 엑셀 정품을 못쓰다보니 그런 전처리 작업 또한 불가능하다.


[노션으로 만든 자료 1의 필요 내용 간이 표]

실적년월 품목 (단위:원/kg) 수도권 강원 충북 충남 전북 전남 경북 경남 전국평균
2022.11 폐지 (신문지) 148 112 138 80 100 114 135 131 121.1
2022.12 폐지 (신문지) 146 112 135 75 117 115 145 138 126.9

 

[드디어 캡쳐해서 추가하는 자료 1의 시계열 차트]



저 주제를 대체할 만한 다른 것들도 많이 생각해보았다. 근데 수확은 없었다.

더보기
  1. 에듀테크 기업 현황, 교육정보화 예산, 이북 사용 정도 - 전자 교과서 사업에 뛰어들어도 되는가
    학교 교육에서의 에듀테크 활용 방안 탐색 연구보고서 물론 안봤지만 유용한 자료일 것 같다.
  2. 전국 도서관 현황, 공공 도서관 예산, 마을 도서관이나 작은 도서관
  3. 노숙인이 많은 지역은 어디인가? 노숙인 재활에 대한 자료는? 지원 많은 지역은? - 노숙인 많은 지역 대상으로 재활 사업 해도 될까?
  4. 지방의회 지방재정365

지방의회경비 절감률 통계

지방의회 관련경비

 

★ 2022년 지방의원 의정비 현황(홈페이지 게시).pdf

 

유형별 지방의회의원 정수 데이터를 회원가입까지 해서 활용 허락 받았는데 정작 오픈 API 쓰는 법을 몰라 열어보지 못했다.

 

4번 특히 한참 데이터 노려봤는데 도통 뭔 소린지, 월정수당이 월급이라는 건 이제 알겠고, 의정활동비로는 뭘 위해 쓰는건지, 뭔가 가설을 세우기에는 배경지식이 너무 처참하다는 것만 알게 되었다.

의정활동 다이어리 사이트를 만드는 게 작은 꿈이라 과제하는 겸 조금이라도 배우자 싶어서 찾아본건데, 이거 원 이렇게 아둔해서야 만들 수 있겠나? 갈 길이 멀다~!

아니 근데 정말 저 두 자료를 토대로 어떤 가설을 세우면 좋아?

 

한국지방행정연구원 - 유용할 것 같은 보고서가 많은 곳

 


 

추측이 가능한 가설을 3개 이상 설정합시다.


1. 폐지 가격이 낮은 곳은 인구 밀집도가 낮다?
수도권 > 충북, 경북, 경남 > 전북, 전남, 강원 > 충남 순서로 폐지 가격이 높다.

KBS 저널리즘 토크쇼 J 47회에 <뉴스는 누구의 돈으로 만들어지나?>라는 주제로 부수 밀어내기를 다루었다. 구독자 수를 통해 광고주를 모집하기 위해서, 본사에서 공평하게 왕창 찍어낸 종이신문 부수를, 지역사정 고려하지 않고 처리하라고 강요하고 못 하면 대납금을 치루게 만든다며, 일종의 프렌차이즈 갑질을 한다는 내용이었다.
'저널리즘 토크쇼 J' 신문사들의 '부수 밀어내기' 갑질 실태 고발 기사

가격이 높다 - 공급이 적다 - 시민이 적고, 언론사 수가 적다? 그렇다기에는 서울 가격이 높다.
반대로 가격이 낮다 - 수요에 비해 공급이 많은 편 - 부수 밀어내기로 많이 찍어내는데 실 구독자는 적다 - 어쩔 수 없이 많이 버려진다 - 신문이 도서관, 학교, 가정으로 은신하는 일이 비교적 적다 - 인구가 적다?

수도권이랑 충청남도는 꽤 가깝지 않나? 인구 수가 단순히 적은 걸 수도 있겠지만 혹시 모르니 다른 기준도 세워보자. 배달이 가능한 지역 범위가 있지 않는가? 신문 배달이 닿는 범위 안에 사람이 복작복작해야 구독자를 많이 끌어모을 수 있다. 근데 그게 원초적으로 어렵다면 땅 크기에 비해 인구 밀집도가 낮은 걸 수도 있다. 농어촌..?


2. 폐지 가격이 높은 지역은 폐지 재활용 업체가 많다? 또는 폐지 재활용이 활성화된 곳은 폐지 가격이 낮아서이다?
왜냐면 재활용 업체(제지사)가 많으면 수요가 많기 때문이다. 후자는 무슨 소리냐면 재활용이 활성화 되어 순환이 원활하니 공급이 적어서다.
그렇다기에는 2번째 자료에서 강원도 20년 재활용량이 1377톤이다. 대전은 도시니까 제외하면 압도적으로 꼴찌다. 근데 강원도의 폐지 가격은 충청남도보다는 높다. 충북과 전북의 폐기물량과 기업 수는 비슷하다.
오히려 충청남도의 업체수와 폐기물량이 도 중에는 2번째로 높다. 따로 표시된 광역시, 특별시를 도 단위에 포함시키면 순위야 달라지겠지만 그래도 높은 수준인듯 하다. 규칙성 모르겠다.

폐지 재활용이 활성화된 곳은 폐지 가격이 낮은가 하는 가설에 대해서인데 22년 기사를 보니 정부가 폐지를 비축하고 있다고 한다. 제지사에서 활용하지 못한 폐지를 쌓아두고 있다고 한다. 제지사가 폐지를 싸게 사려면 쌓아있어서 마지못해 사주는 거지 않을까? 폐골판지를 제외한 지류는 오히려 공급이 부족하다고 하니까 영 말이 안되는 것은 아닐지도 모른다.


3. 21년 5월부터 폐지 가격이 상승한 이유는 외부 요인이 크다?
시계열을 캡쳐할 수 없어서 생략하는데, 흐름을 보면 16-17년도 쯤에는 가격이 100원을 넘다가 코로나 시기에 100 아래로 떨어졌고(폐지 줍는 어르신들의 암흑기), 21년 5월 쯤부터 가격이 100 이상으로 오르더니 현재까지 오르락내리락 하면서 유지 중이다.

한국기자협회 22년 7월 사설에 의하면 신문용지 가격이 오르는 이유는,
러시아의 우크라이나 침공으로 시작된 국제원자재가 상승이 가까운 원인이라고 한다. 신문용지는 30% 정도의 원목 펄프와 70% 정도의 신문고지를 재활용하여 생산하는데, 원목 펄프 가격이 치솟았기 때문이란다.

신문용지와 신문폐지 가격은 정비례한다. 하지만 우크라이나 침공은 22년 2월에 벌어진 사태인데 21년 5월부터 타격을 받을 수 있는가?

찾아보니 환경부에서 19년도에 폐지 가격 안정화를 위해 업무 협약을 체결하는 등 조치를 취했다. 코로나 시기에 가격이 급하락 했던 건 큰 손인 중국에서 갑자기 수입제한 조치를 발표하여 국산 폐지의 물량적체가 발생했기 때문이었다.


4. 폐지 가격이 낮으면서 재활용량이 높은 지역은, 공장이 있거나 숲이 크다?
대규모 공장 단지가 있어 운송비가 줄거나 원목 자원이 많아 일부 수급이 가능하기 때문에 생산비가 줄어든다거나 규모의 경제를 실현할 수 있어서인가?


5. 폐지 가격 전국 평균이 낮은 시기에는 노인 우울증 비율이 높아진다?
폐지 줍기는 소일거리면서 생계 수단이다.
https://www.idaegu.com/newsView/idg202211300033

 

좁아진 폐지 재활용시장…‘폐지 줍는 노인’ 직격탄

한 어르신이 손수레에 폐지를 가득 싣고 고물상으로 향하고 있다. 대구일보 DB국내 폐지 재활용시장 침체로 대구지역 폐지 가격도 급락하면서 폐지 수

www.idaegu.com



가설을 검증할 수 있는 지표를 선택 후 어떤 방향으로 시각화 하면 좋을지 생각해봅시다.

a) 왜 해당 지표를 선택했는지?
b) 어떤형태로 시각화를 하고 왜 그 형태로 시각화를 해야하는지?


가설1의 지표는 인구 밀집도
폐지 가격과 인구 밀집도 관계를 비교하려면 두 가지 변수의 관계를 분석하는데 쓰는 산포도 차트를 사용한다.
- 특징을 잡을 수 없이 잡다하게 분포한다면 다른 요인이 크거나 가설 측정을 잘못한 것
- 가설이 맞다면 밀집도와 폐지 가격이 둘다 높다는 뜻인 우측 상단에 수도권과 경상도가 위치해있을 것이다.


가설2와 4를 알려면 제지사가 어떻게 가격을 책정하는지, 어떤 흐름으로 일하는지 알아야 한다. 국내에 원목 펠프 생산공정이 있는가? 만들어진 원목 펠프는 국내외 어느 지역에서 종이로 만드는가? 이런 흐름을 안 다음에 국내에 공장(또는 원목 생산지)이 있는게 맞고 근처 지역 가격 책정에 영향을 주는 게 맞는지 확인한다.
지표: 재활용 업체 수로 연간 재활용 폐기물량을 단순 나눔한 값(업체 1개 당 단순 재활용량), 지역별 공장(생산지) 수
시각화: 등치 지도(Choropleth Map)
지표를 토대로 등급을 나누어 국내 지도를 도 단위로 나누어 색깔을 다르게 표시한다. 그 위에 아이콘으로 갯수를 표시한다. 공장 아이콘, 나무 아이콘 옆에 숫자



가설3는 국제 정세에 따른 가격 변화 표
지표: 월별 전국 평균 가격
시각화: 선 차트
- 시간에 따른 수직적 변화를 보여줘야 하기 때문. 단일 지표이기 때문에 복합적 그래프는 필요 없고 많은 포인트를 찍을 수 있어야 한다. 그러므로 Y축을 가격, X축을 기간으로 설정하고 중간중간 포인트를 찍어 사건을 설명할 수 있는 선 차트가 적절함.


5번은 통제 변수?나 모수?를 좁히는 것부터 고민 필요.




과제가 어려어서 요약 생략함


여담

난이도 무슨 일?

몇 시간 동안 데이터를 노려봤는데 멀쩡한 인사이트가 도출이 되지 않는다.

표를 보면서 제일 많은 것 적은 것 등 특이점 찾아보고 왜 그렇지 생각해보는 거겠지? 난 더 많은 사례가 필요해 구체적으로 참고하고파

이럴 것이다 하는 통찰 섞인 가설 이전에 이거는 왜 그렇지? 아하 이래서구나 배경지식이 이거였구나 하는 과정부터 익혀야 할듯
그리고 같은 자료를 두고 얼마나 다양하게 읽어내는지 보면서 아 저렇게도 읽는구나 하는 과정이 필요한데 이런 연습하는데 디콘이라는 사이트가 도움 돼?

데이터 보면서 통찰하는 사람 정말정말 멋진데 애석하게도 내가 약한 부분이다. 애석한 이유는 어떻게 키워야 하는지 모르겠어서


노션으로 만든 표 티스토리에 옮기는 법
걍 위에 빈 행 하나 더 만들어서 제목행 처리
그래야 제목행가지 깔끔하게 옮겨짐


생계수단이라고 어르신들 폐지 줍게 냅두자는 뜻은 아니다!!
궁극적으로는 대체될 필요가 있는데 내가 방법을 몰라서 선뜻 말 못하겠다. 재활용 산업이 어떻게 굴러가는지 제대로 알고 싶다.


어차피 아무말 쓸 거였으면 빨리 뽑아내는 아무말 자판기가 낫지 나는 아무말 장인이 아닐까 왜냐면 심혈을 기울여 되먹지 않은 말을 제작하니까?

 


분석 참고 글





W6D3 [코드스테이츠 PMB 16기] 과제
데이터 분석?



728x90