Oxygen Cherry - Pencil
본문 바로가기

새싹 데이터 분석 교육 (24.05.13~24.08.16)/TIL

SQL 데이터 분석 프로젝트 3일차

728x90

[성동2기 전Z전능 데이터 분석가] 0715

 

 

SQL 프로젝트 3일차

❇️ 오늘 배운 내용 
1. 
2. 
3. 

 

 

주요 개념

 

             
             

 


오전 강의 

 

 

 

 

 

 

 

| 소제목

요약

 

  • 프로덕트 선정

 

  • 프로덕트 선정

 

 

ㄹㄹ

 

 

 

ㄹㄹ

 

 

 

 


오후 강의 

| 소제목

요약

 

 

  • 프로덕트 선정

 

  • 프로덕트 선정

 

 

키워드 추출 

 

 

파이썬 라이브러리 

 

 

테이블로 업데이트 해서?? 

 

review_ti.apply(pd.value_counts)

 

 

 

방법3. 노가다지만 하나하나 하기 

 

파이썬 한 데이터프레임에서 열 분할

파이썬 한 데이터프레임에서 열을 하나로 ? 

각 열만 떼내서 각 df로 나누고 그걸 세로로 합치기 

 

https://bigdaheta.tistory.com/88

여기서 예시문 보면 lioc 함수 써서 분할한다는데 

블로그 예시에서는 행을 10개씩? 나눠서 합치니까 

열을 나누려면 어떡해야 할지... 

 

 

전단계 

1 str.spilt 써서 열의 문자열을 각 열로 나누기 

 

--

1 열 떼내서 각각의 df로 저장하는 법을 알아내서  << 이거 몰라서 못함 

(또는 떼내지 않고도 테이블의 모든 열을 하나로 합치는 법)

2 열이 어차피 6개니까 6개의 df로 뗀 다음 

3 결측치 값 제거하고 

4 concat() axis = 0 해서 세로로 합친다

(근데 열 이름 안똑같으면 nan로 처리되는 오류 생기나?)

5 그 다음 value_counts와 order by, head 같은 익히 아는 함수 써서 계산한다. 

 

 

--

지피티한테 물어보고 ..

지피티가 라이브러리 counter 쓰는 법 알려주더라 ㅠㅠ 

 

  1. from collections import Counter 
    카운터 라이브러리를 불러온다. 
    여기서 프랑 콜렉션은 뭘까?
  2. stack() 다는 이유는.. 데이터프레임에선 lower를 쓸 수 없기 때문. 소문자 처리를 해야 계산하기 쉬워서... 
    df에서도 소문자처리하는 함수나 방법 찾아보자. 
  3. Counter(변수명) < 이거 데이터 베이스도 가능? 
  4. 변수명.most_common(10)

 

stack() 

str.lower()

Counter()

most_common()

 

와 겁나 라이브러리 쓸줄만 앎녀 훨씬 짧게 끝나는데.............................! 

 

이거 전단계도 split로 행 떼내도 됨 

그걸 stack으로 하나의 시리즈로 뭉개줬을 뿐이지. 

 

 

-- -

 

import collections 

collections.Counter(테이블이나 딕셔너리 등의 이름)

이렇게 해도 됨 

 

 

from collections import Counter  하고 

Counter() 

 

 

---

 

word_counts = pd.DataFrame(word_counts) 

 

ㅇㅀㅇ

 

 

 

 

 

#'Counter' object has no attribute 'to_frame' 시리즈가 아니었다;; 
# word_counts = word_counts.to_frame() 그래서 투프레임이 안됨 

#'numpy.ndarray' object is not callable 이거 그냥 하면 안됨 

word_counts = pd.DataFrame.from_dict(word_counts, orient='index').reset_index()
word_counts

 

 

import numpy as np


word_counts = pd.DataFrame.from_dict(word_counts, orient='index').reset_index()
word_counts

 

역시 안됨... 

#'numpy.ndarray' object is not callable 계속 뜸 

 

https://stackoverflow.com/questions/31111032/transform-a-counter-object-into-a-pandas-dataframe 

 

Transform a Counter object into a Pandas DataFrame

I used Counter on a list to compute this variable: final = Counter(event_container) print final gives: Counter({'fb_view_listing': 76, 'fb_homescreen': 63, 'rt_view_listing': 50, 'rt_home_start_...

stackoverflow.com

 

 

df = pd.DataFrame.from_dict(d, orient='index').reset_index()
df = df.rename(columns={'index':'event', 0:'count'})

 

 

 

 

 

| 개인 경험 정리 - 이력서, 자소서 용

요약 생략?

 

 

 

  • 데이터 나머지 정제하기 

 

/

;

제거 하면 

 

...도 

!!도 없어짐 

 

 

 

 

근데 구분기호 없앤 거 잘 합쳐졌을랑가 

 

 

안 합쳐져 있어서 

이거 했더니 239개 없애줌。 

bom이랑 bom!이랑 있었나봄 

! 없애니까 2개 중복됨. 

아 그냥 없애면 안되지 참;;

 

그래서 통합을 함. 

 

이런 비슷한 값들은 

합쳐도 이 모냥인데 어떻게 처리하지;;

 

 

특히 이런 

elogio
elogios 

이거는 칭찬이라는 뜻인데 이런 복수 단어들 합치게 못하나. 

쿼리문에서 가능한가? 

아님 if문 만들어야 하나? 

 

이런 데이터는 비슷한 걸로 그룹화 하고 싶음;;

뭐 방법 없나... 하 엑셀 알못 

 

뭐 전문가들이 쓰는 자연어 처리 방법이 있겠지. 

근데 그건 엄청 배워야 할 거 같애. 

왜 난 빡센 걸 잡아서 이 고생을 하지??~!???!?~?!~?!?

 

--

 

일단 몇개 수동으로 합쳤음. 

빈셀이 생겼는데 어떡할까 

빈셀이 생긴 표를 다 선택해서 삭제- 위로 밀기 하셈. 

 

 

--

 

엑셀 내장 번역 기능. 

셀로 옮기려면... 

 

 

  • 프로덕트 선정

 

방법1. 엑셀에 내장된 기능 없나 찾아본다 

함수는 없었고... 

 

번역 기능 복사해서 넣는 방법만 앎녀 매크로라도 만들텐데! 

 

 

 

방법2. 파파고 api 서비스 종료로 사용 불가 

 

어떤 분이, 파파고 api를 통해 함수를 만들어 놓으셨다. 

문장 번역 추가 기능 함수 

https://xlmaster.tistory.com/7 

 

 

 

파파고 API 지원 종료 안내 [24.2.29.예정]
https://developers.naver.com/notice/article/14501

 

 

 

방법3. 

 

 

 

이씨;;

 

 

 

trans로 검색

  • open intento 유료 
  • Yandex.Translate 모르는 언어 
  • Alexa Translations A.I 다짜고짜 로그인 하래 
  • Translate for Excel 한국어는 추가 계정이어야만 함. 

 

모델(preview): 직장 또는 학교 마이크로소프트 계정으로 로그인(우측 하단 버튼 참조)하면 100개 언어를 지원하는 API를 통해 더 높은 품질의 프리미엄 모델을 사용할 수 있습니다. 로그인 시 이 모델을 사용할 크레딧이 오른쪽 하단 모서리에 표시됩니다. 1 크레딧 = 1000자 텍스트. model= 3 및 다음 언어 코드를 모두 사용하십시오: 여기에 한국어랑 포르투갈어 포함 ㅠㅠ 

 

=BOARDFLARE.TRANSLATE(B2,$G$1,$H$1) 

어쩐지 안될리가 없지... 

 

 

 

방법4 

딥엘 진심 패고 싶다 

 

 

 

https://www.youtube.com/watch?v=mVqlNz-HObg 

 

 

개짜증나 ㅋㅋ 무료 모드인데도 뭔 놈의 신용카드가 다 안등록돼 

아 진짜 개열받아 진짜 와 진짜 와 열받네 진짜 

뭔놈의 번역 때문에 시간 하 ......................... 짜증나네.... 

 

 

 

5번 

 

 

https://hanaabc.com/excel/1538

 

구글 번역을 엑셀로, 텍스트 문장을 한꺼번에 구글 번역하기

2022.5.27 구글 번역 뿐만 아니라, 파파고 번역까지 한번에, 두가지를 비교하면서 번역할 수 있는 프로그램을 소개합니다.  https://hanaabc.com/excel/3327 참고하세요 구글 번역은 어학 학습에 매우 좋은

hanaabc.com

 

프로그램 다운 후 사용 기간 1개월에 속도 엄청 느림. 

구글 번역이 뭔가 파파고보다 안좋은 거 같다. 

 

 

 

6

https://www.oppadu.com/%ec%97%91%ec%85%80-googletranslate-%ed%95%a8%ec%88%98-%eb%a7%8c%eb%93%a4%ea%b8%b0/ 

안해봤는데 이게 제일 나은 방법일듯 

 

 

7 번역기 문서번역 기능 이용 

이 방법은 안된다。。。 

 

 

 

 

  • 프로덕트 선정

 

  • 프로덕트 선정

 

 

  • 프로덕트 선정

 

  • 프로덕트 선정

 

 

경험 2번
시기 2021년 8월
WHAT 연속 아카데미 사업 데이터 총정리 및 인사이트 도출
WHY  
HOW  
WHAT  
HOW  

 

 


 

여담

 

 

 

 

 

 


 

[회고]

 

 

 

 

 

 


#청년취업사관학교 #데이터분석가 #데이터분석가부트캠프 #DA교육 #데이터분석교육 #실무프로젝트 #실무경험 #취업포트폴리오 #포트폴리오 #취업연계교육 #코멘토 #모비니티 

728x90