일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ionehotencoding
- 태블로
- SQL
- 인공지능
- 파이썬
- Word Cloud
- 데이터
- selenium
- Udemy
- 크롤링
- pyspark
- 머신러닝
- 데이터 분석
- 형태소분석기
- 데이터분석
- input
- Tableau
- iNT
- 시각화
- pandas
- Okt
- numpy
- Python
- konlpy
- scikit-learn
- Today
- Total
목록분류 전체보기 (134)
반전공자
"['그래프', '신맛', '상태', '처음', '도착', '택배', '상태', '경악', '아파트', '분리수거', '농가', '반년', '부오', '중요', '음료', '상태', '장난', '쓴맛', '생각', '저번', '주문', '만족', '신맛', '쓴맛', '생각', '아버지', '죄송', '전통주', '얼굴', '똥칠', '저번', '박스', '제품', '상하', '스티커', '박스', '상태', '상품', '구매', '확정']" 이렇게 실제론 리스트이지만, 문자열로 묶여버린 데이터가 있다. 처리 하려면 문자열로 좀 복귀를 해줬음 좋겠는데 해결책은 eval() !!!! eval(text) ['그래프', '신맛', '상태', '처음', '도착', '택배', '상태', '경악', '아파트', '..
lda_visualization = gensimvis.prepare(model, corpus, dictionary, sort_topics=False) pyLDAvis.save_html(lda_visualization, '/content/mydrive/MyDrive/lda_vis22.html') 토픽 모델링 이후에 시각화를 하려고 pyLDAvis를 사용하려 하는데..... 'BrokenProcessPool: A task has failed to un-serialize.' error when running pyLDAvis.gensim 이런 에러가 떠버렸당. 프로세스가 뿌사졌다니요 세상마상 해결 어떻게 하나 찾아보던 중에 판다스 버전 문제라는 말을 보았다..!.>!.!>>! [ 해결방법 ] !pip insta..
리스트의 요소 중 공백이 있다면 제거하는 방법 ex) ['가', '', '나', '', '', '다', '라'] list(filter(bool, list_test)) 결과) ['가', '나', '다', '라']

json 형식으로 들어온 값이 "[json~~]"으로 되어서 계속 json_normalize 함수 적용이 안됐다. json.dump()가 복구해준다길래 했는데 내 경우엔 해당이 아니었다. 난 형식은 Json인데 타입이 달라서 생긴 문제고 dump()는 json 자체가 아니어야 한다. 그래서 검색하다 찾은 해결방법이 이것! import ast ast.literal_eval(new_df.iloc[i]['timeline.rows']) ast라는 패키지의 literal_eval 함수를 사용하면 Json으로 바꿔줄 수 있다! 결론은, literal_eval : 문자열 표식("") 제거 함수

이렇게 생긴 데이터를 characterId 별로 모아서 쭉 살펴보고 싶은데,, groupby 함수로는 통계값만 보일 수 있기 때문에 데이터를 보여주진 않는다. 그래서 해결책은 ! all_time.set_index('characterId', append = True, drop = False).reorder_levels(order = [1,0]).sort_index() 너무 깔끔해 너무 좋아.. 훨씬 보기 편해졌다!!
API 사용할 때 한글/영어 문자열을 인코딩해서 url에 입력해야 하는 경우가 많은데, 함수 하나로 가능하다. 함수를 사용할 일이 많을 것 같아 따로 기록해놓자~ from urllib import parse parse.quote('한글')

데이터 분석을 하다보면, 단순 csv/xlsx 파일 외에 실시간 업데이트가 되는 아주 좋은 API 데이터를 만나게 됩니다 처음에 너무 어렵다고 생각했는데 해보니 정말 간단하고 좋습디다 간단한 코드만 돌려도 돌아가니, 공유해보려 합니당~ url = 'API url' response = requests.get(url) contents = response.text json_ob = json.loads(contents) avt_h = json_normalize(json_ob) ※ API url엔 제공하는 사이트에서 옵션을 지정해주기도 하지만, 따로 입력해야 하는 경우도 있으니 주의! → number= 과 같은 형식으로 있는데, 이때 를 모두 지우고 값을 입력! ex. number=30 ※ & 문자를 지우지 않도..

딕셔너리를 데이터프레임으로 간편하게 한번에 바꾸는 방법? pd.DataFrame.from_records([딕셔너리]) 딕셔너리를 리스트로 변환 후 from_records를 활용해 데이터프레임을 만들면 위 한줄만으로 데이터프레임을 만들 수 있다.

매번 행으로 한 줄씩 추가하고 싶은데 방법이 너무 까다로와서 기억이 안났다. 그래서 기록해놓기! df = pd.DataFrame(columns=['name', 'category', 'spec', 'price', 'star', 'review_num', 'click', 'regist']) df.append(pd.Series(list이름, index=df.columns), ignore_index=True) 미리 컬럼명은 지정해놓고, 리스트를 시리즈로 변환 후 append! * 리스트 요소와 컬럼의 개수가 맞는지 잘 체크해주기

특정 문자로 시작하거나, 끝나거나, 특정 문자열 사이의 문자열을 추출하고 싶다면? 정규표현식! import re 예시 데이터 ['한강주조 표문 막걸리 6도 500ml 최저3,500원판매처 5 식품주류전통주막걸리/탁주 용량 : 500ml도수 : 6%용기타입 : 페트병 리뷰별점 4.712,497등록일 2021.10.찜하기40정보 수정요청'] > 도수를 구하기 위한 정규표현식 re.search('도수 : (.+?)%', data['name'][i]).group(1) '도수 : '로 시작하고, %로 끝나는 문자열을 찾아라!