Oxygen Cherry - Pencil
본문 바로가기

새싹 데이터 분석 교육 (24.05.13~24.08.16)/TIL

[성동2기 전Z전능 데이터 분석가] 0618

728x90

 

파이썬 실무 프로젝트 4일차

❇️ 각자 자습 

이번 프로젝트 기간에는 각자 알아서 가설 세우고, 각자 검증한다. 
즉 자습 기간이라는 거임. 
따라서 기록하는 내용은 강의 내용이 아니다. 
스스로 찾아본 것, 팀원들에게 배운 것 등등. 

 

 

주요 개념 생략. 


오늘은 오전에 국민취업지원제도 1유형 1차 방문상담(제도 설명)을 들으러 다녀왔다. 

따라서 생략함. 

 

 

점심은 차돌고기국수 8000원 먹었는데 지원해주셔서 좋았다! ㅎㅎ 

 

 

 


오후 프로젝트

 

나는 성동구 고용지원센터에서 오전 상담을 받고, 장한평역에서 따로 밥을 먹고, 2시에 시작하는 오후 수업부터 참여하였다. 

 

<오후의 목표>
- 검증하고 싶던 가설: 외국인들은 따릉이를 궁궐 주변 지역에서 많이 쓸 것이다. 
- 방법: 일단 안국역, 경복궁역이 속한 종로구 대여소의 반납/대여 건수가 높은지를 살펴보자. 
- - 종로구에도 궁궐 주변인 곳, 아닌 곳, 자전거 많이 보관된 곳 등이 다른데 이 부분은 대여소를 기준으로 다음에 카운트해보는 걸로 하자. 
우선은 실습! 
- 어제 한 3~4시까지는 오늘 할 것을 위한 전 작업에 매진한 것 같다. 셀 합치고 그러는 거... 
그래서 오늘은 그걸 마저 하면 됐었다. 

 

 

 

| 찾아본 파이썬 함수 대강 기록 

요약 생략

 

 

데이터 프레임 기초 

 

 

  • 데이터 프레임 병합

- concat은 단순 병합할 때 편리함. 

 

- merge는 겹치는 열을 기준으로 합침. 이름 같은 열 있을 때는 자동으로 합쳐줌. 

만약 열끼리 이름이 다를 때(값은 같은데) left_on right_on 해서 기준열을 설정. 

 

머지 = (왼쪽에 붙일 거 , 오른쪽에, 레프트온 = 대여소명, 라이트온 = 반납 대여소명...) 

 

- join은 행 기준 이라고 하네요....? ! 

https://kevinitcoding.tistory.com/entry/DataFrame-%EB%B3%91%ED%95%A9%ED%95%98%EA%B8%B0-concat-merge-join 

 

DataFrame 병합하기: concat, merge, join

안녕하세요. 모두의 케빈입니다. 오늘은 Data Frame을 병합하는 방법에 대해 알아보도록 하겠습니다. ■ Data Frame 병합 Pandas를 다루다 보면, 데이터 프레임을 합쳐야 하는 경우가 종종 생깁니다. Data

kevinitcoding.tistory.com

https://yganalyst.github.io/data_handling/Pd_12/#1-1-pdconcat%EC%9D%98-%EC%98%B5%EC%85%98 

 

[Pandas 기초] 데이터프레임 합치기(merge, join, concat)

판다스 데이터프레임을 병합하는 여러가지 함수에 대해 알아보자

yganalyst.github.io

 

 

 

 

머지 함수 옵션 보려고 찾아봄. 

 

- 열 기준으로 병합 (left_on / right_on)

- left_index / right_index 는 행 기준으로 병합하는 것 

 

https://wikidocs.net/153875 

 

08-04. 객체병합 (merge)

####DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, rig…

wikidocs.net

 

 

머지 하고 나니까 중복된 기준 열까지 같이 들어와지길래 

없애는 거 없나 찾아봤음. 듀플리케이티드 함수 써서 없애라는데.... 대충 쓱 봤을 때는 어떤 구조인지 파악할 수 없었기에 

일단 걍 ... drop 해서 삭제햇다... 

https://seong6496.tistory.com/211 

 

 

 

  • 데이터 프레임 복사 
copy = origin.copy() 

https://velog.io/@jaeha0725/python-dataframe-%EA%B0%92-%EB%B3%B5%EC%82%AC

 

.copy 햇을 때는 걍 단순히 복사된 함수... 

.copy() 해야 데이터프레임 복사... 

 

.....왜? 

 

 

 

 

열 수정하기

 

 

  • 열 삭제

드롭(['열 이름']) 해도 됨. 

 

표에선 안보이게 되지만 .columns 해서 보면 남아있음 ㄷ ㄷ 왜? 

https://benn.tistory.com/27

 

 

  • 열 이름 변경 

이전 열 이름과 새 열 이름의 딕셔너리를 가진 rename 메소드를 사용할 수 있습니다. 이건 여러개 동시에 변경 가능 

 

같은 거 가진 애 카피하려면 

ㅇㅇ['ㅁㅁ'] = ㅇㅇ['ㅇㅇ'] 

하는 수도 있음. ㅇㅇ가 원래 있는 거여야 함. 

 

 

inplace인수를 이용한 원본 변경
pandas 공통사항으로 inplace=True인 경우 원본의 값이 변경됩니다. 

https://wikidocs.net/154815 

 

13-02 레이블명 변경 (rename)

####DataFrame.rename(mapper=None, index=None, columns=None, axis=None, copy=True, inplace=False, le…

wikidocs.net

 

 

이거는 원본값 변경 안되길래 찾아본 거. 

옵션에 기본적으로 인플레이스 펄스라 되어 있음... 

그렇다면 기본적으로 이름을 바꿔 카피를 해준다는 말이냐 

 

 

  • 열 복사

컬럼 1개 전체를 복사하는 방법을 살펴보겠습니다.

df[새로운 열 이름] = df[복제될 열 이름] 형태로 

df[['C', 'D']] = df[['A', 'B']] 

https://jimmy-ai.tistory.com/248 

 

 

 

기본적인 것 + 데이터 전처리

 

줄바꿈 \

 

 

  • 첫글자 부분의 공백 처리하기 

엑셀 trim() 쓰기 

 

아님 찾아바꾸기 - left로 첫 1글자 공백인 걸 find 찾고 

그걸 trim해서 없애는 수식을 넣기. 

 

이 함수 만들게 되면 잘 보관해놓자. 

 

 

 

 

시각화 

 

 

  • 산점도

https://zephyrus1111.tistory.com/251 

https://blog.naver.com/breezehome50/222311516510 

 

 

  • countplot 오름차순 정렬 
, order = train[Category[6]].value_counts().index

 

 

출처

 

데이터프레임 명칭['열 이름']. 어쩌고  

하면 되는데 

단순히 따라 해서 왜 되는지는 몰름 . 인..덱스...? 

 

 

  • 중간 생략 그래프 만드는 법 - 더 읽어볼 것. 

y축 중간 생략 그래프를 그리기 위해선, subplot을 활용합니다.

즉, 두가지 그래프에 각각 그래프를 그려두고, 각 subplot의 ylim을 조정하면서 마치 중간그래프가 생략된 거처럼 만드는 거죠! 

출처: https://yang-wistory1009.tistory.com/144 [공부하는 도비:티스토리]

 

 

 

  • 데이터 레이블 추가 

https://blog.naver.com/kiddwannabe/222655678945 

 

파이썬 seaborn시각화 - 데이터 값(레이블) 표시하기

그래프등을 이용해 시각화를 하다보면, 실제 값을 함께 표기하는 게 도움이 될 때가 많습니다. seaborn에서...

blog.naver.com

 

대강 읽어봤는데 어려워보였음.   ㄷ ㄷ 

 

 

 

 

| 팀원들이 가르쳐준 부분 or 보고 배울 점 

요약 생략?

 

 

  • 한글 오류 

시각화 함수 잘 입력했는데 오류가 떴었다. 

폰트가 안먹었기 때문. 가급적이면 초반에 맑은 고딕으로 변경하고 시작하자. 

 

학습자료 5일차 참고.. 

 

 

  • 지도 보기 

 

이거 만들었다는데 

공공 데이터 시각화 검색해서 이것저것 참고했따고 한다. 

이용 빈도를 지도에 표시한 것이다. 

 

map 어쩌고 함수.... 

'공공데이터 파이썬 시각화 지도' 이런 식으로 검색해보고 

https://blog.naver.com/zooz60000/222402342152 

이런 글도 참고해보자... 

 

 

  • 빨리 하는 법 

1. 구글링을 겁내 잘해서 이미 있는 코드를 붙여넣는다. 

2. 당연히 오류가 뜬다. 지피티한테 왜냐고 바로바로 묻는다 

= 속도 업 가능 

 

하나하나 본인이 생각하고 이해하려면 시간이 오래 걸림! 

 

 

  • 데이터 전처리 관련 

이건... 캡쳐본 받은 거랑... 

코드 파일에 기록해놓은 게 있는데... 이미 파일을 껐다. 

 

암튼 

팀원들이 찾은 이상한 데이터와 그거 처리한 방법에 대해서 기록해야 할텐데... 

 

 

 


여기는 오늘 작성한 코드 파일을 나중에 다시 살펴볼 때! 복습할 때! 추가하려면 추가하라고 냅두는 부분. 

 

| ㄹㄹㄹ

요약 생략? 

 

 

 


 

여담

 

 

https://wikidocs.net/book/5011 

 

Matplotlib Tutorial - 파이썬으로 데이터 시각화하기

## 도서 소개 - 이 책은 파이썬의 대표적인 데이터 시각화 라이브러리인 Matplotlib의 사용법을 소개합니다. - 30여 개 이상의 다양한 주제에 대해 100개…

wikidocs.net

 

 

https://wikidocs.net/book/7188 

 

[Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복

안녕하세요! 파이썬 완전정복 시리즈의 저자 김태준 입니다. 파이썬 완전 정복 시리즈의 궁극적인 목표는 자신만의 알고리즘 트레이딩 프로그램 만들기 입니다. 본 도서는 독자…

wikidocs.net

 

 

https://blog.naver.com/youji4ever

 

Clary K의 N차원 Ax 언저리 탐험 : 네이버 블로그

'어쩌다 데이터 분석 with 파이썬' 책 저자 Clary K의 파이썬을 활용한 판다스 데이터 분석&데이터 시각화 관련 블로그. All contents are created by Clary K. [티스토리 : https://claryk.tistory.com]

blog.naver.com

 

 

 


 

[회고]

 

ㅋㅋㅋ 기초적인 함수들도 기억안나서 찾아보는 나~ 

근데 그럴 수 있지 ! 

 

 

시간 날 때 함수들 모아서 싹 정리할 거니까 괜찮다. 

 

 

장소/시간에 따라 

그리고, 원래 있는 함수를 쓰는지 if로 조건을 만들어 쓰는지에 따라서도 다르니까 

 

가급적이면 잘 모아두자. 시간 있으면 정리까지 보기 좋게 해두자. 

내가 한 분석이든 다른 분이 한 분석이든 코드를 잘 모아서... 

 

 

ㅠㅠㅠ 

언제 하냐 

 

 

아니야 조급해하지마!! 

지금 내가 못하는 거 같아도... 포기하지 않으면 장기전에서는 이겨...!! 

다행인건 체력이 약해서 그렇지 생각보다 성실하다는 점! 

 


#청년취업사관학교 #데이터분석가 #데이터분석가부트캠프 #DA교육 #데이터분석교육 #실무프로젝트 #실무경험 #취업포트폴리오 #포트폴리오 #취업연계교육 #코멘토 #모비니티 

728x90