일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Okt
- 데이터분석
- Tableau
- iNT
- ionehotencoding
- 데이터
- 시각화
- 태블로
- Python
- 머신러닝
- scikit-learn
- 데이터 분석
- pandas
- 파이썬
- 형태소분석기
- 인공지능
- SQL
- selenium
- konlpy
- pyspark
- Udemy
- 크롤링
- Word Cloud
- numpy
- input
- Today
- Total
목록전체 글 (134)
반전공자
pip install wordcloud from wordcloud import WordCloud import matplotlib.pyplot as plt text = open('speech.txt', encoding = 'ISO8859').read() # 자동으로 text의 term을 추출하여 상대적인 출현 빈도수를 계산하고 array 형태로 이미지를 생성 wordcloud = WordCloud().generate(text) print(type(wordcloud)) # wordcloud.words_ 에 'dict' type으로 빈도수를 저장 print(type(wordcloud.words_)) print(wordcloud.words_) - 오바마의 스피치 연설을 담고 있는 파일인 speech.txt (경..

데이터를 가지고 대쉬보드를 만드는 기능을 가진 프로그램! 차트를 그리고, 문자를 입력하여 드롭박스와 연결하는 과정들을 배웠다. 중간 과정은 뭔가 길어서 일단 마지막 결과물을 보여주자면, 제작할 때와 실행할 때의 화면 배치가 다르게 출력되어서 이걸 맞추는 방법에 대해 배워야할 듯 하다.
nominal attribute를 다루는 데 가장 유용한 method : LabelEncoder, fit, transform - Nominal Attribute ("names of thing") 처리 → 카테고리컬 데이터 중 nominal attribute를 잘 처리할 수 있는 것 = LabelEncoer() from sklearn import preprocessing le = preprocessing.LabelEncoder() le.fit(["paris","paris","tokyo","amsterdam"]) print(le.classes_) print(type(le.classes_), "\n") data = le.transform(["paris","paris",..
파이썬 머신러닝 라이브러리 중 가장 많이 사용 다양한 알고리즘, 샘플 데이터 제공 Pandas, Numpy 이용하면 편리하게 활용가능 pip install scipy [ Data Preprocessing ] - Normalization (정규화) : min-max normalization(일반적으로 0~1 사이의 실수로 변환) - Data Transformation (데이터 변환) : 문자열로 구성된 attribute(feature)의 변환 → Classification algorithm의 경우, 문자열 허용하지 않는 경우 존재. → one-hot encoding - Missing data handling(결측치 처리) 실습은 모두 아나콘다로 실행. # Scaling import pa..
library(dplyr) # mpg 데이터 불러오기 mpg % group_by(cyl) %>% summarise(mean(hwy)) # 막대 그래프 그리기 barplot(mpg_hw5$`mean(hwy)`,names=c(4,5,6,8),ylim=c(0,30), xlab="Cylinder",ylab="hwy") ## 자동차 cylinder 개수가 많을 수록 고속도로연비가 낮아질 것이다. #(2). 산포도 plot(mpg$cty, mpg$hwy) ## 도시연비가 높아질수록 고속도로연비도 높아질 것이다. #(3). suv 차량의 행만 추출 후 제조사와 도시연비 열만 선택, # 제조사 기준으로 그룹화 후 도시연비의 평균을 내림차순으로 정렬하고 상위 5개의 자료를 mpg_suv_cty에 저장 mpg_suv_ct..
Python Data Acquisition (데이터 수집) 웹페이지의 정보를 가져오는 코드 (페이지 소스코드를 Get) import urllib.request import urllib.parse API = "https://search.naver.com/search.naver" values = { "where":"neearch", "sm":"top_hty", "fbm":"0", "ie":"utf8", "query":"명지대" } params = urllib.parse.urlencode(values) url = API + "?" + params print("url =", url) data = urllib.request.urlopen(url).read() text = data.decode("utf-8") pr..
library(dplyr) library(ggplot2) welfare % group_by(gender, age) %>% summarise(mean_income=mean(income)) 나이는 현재의 연도에서 태어난 연도를 뺀 값이기 때문에 먼저 welfare의 파생변수 age를 추가한다. age_gender_income 변수에 income의 NA 값은 제외한 데이터 중 gender와 age로 그룹핑한 후 수입 평균을 넣는다. # 2-4. 나이와 성별에 따른 남녀 평균 임금을 그래프로 그리기 ggplot(data = age_gender_income, aes(x=age, y=mean_income, col=gender))+geom_line() age_gender_income 을 데이터로 하고 x 축에 나이,..
이번주차에는 데이터를 관리하고 정제하는 방법에 대해서 배웠다. I. R 데이터 불러오기, 저장ㅎ기 (dat, csv, txt, Rdata) # 데이터 저장 및 불러오기 # 저장하기 save(fruit, file="test.dat") # 불러오기 load("test.dat") # 엑셀 데이터 저장 및 불러오기 # 엑셀파일 저장 write.csv(fruit, "fruit.csv") # 엑셀파일 불러오기 scoer = read.csv("score.csv") # 일반 데이터의 저장 및 불러오기 # ** 저장하기 ** vec1 = c(1,2,3) vec2 = c(4,5,6) mat = rbind(vec1, vec2) save(mat,file="testmat.txt") # 텍스트파일로 저장하기 dfile = loa..
데이터분석으로 진로를 결정하고 난 후 부전공으로 데이터테크놀로지 전공을 선택했고 이번 2021년 1학기에 데테 전공과목인 R 통계분석과 인공지능을 듣게 되었다! 이미 책 한권 가지고 다 배웠지만 이제 매주매주 강의를 듣고 난 후 정리하는 개념으로 하나씩 글을 써보려고 한다 ! ! ! # R이 할 수 있는 기능 - Data handling and storage : numeric, textual (데이터 처리, 저장) - Matrix algebra (수학계산) - high level data analytic and statistical functions (높은 수준의 데이터 분석, 통계 가능) - 객체지향 , 그래픽 # R이 할 수 없는 기능 - 데이터베이스가 아니다. 하지만 DBMS에 연결은 가능하다. -..