일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- scikit-learn
- 형태소분석기
- numpy
- 크롤링
- konlpy
- 데이터 분석
- selenium
- 인공지능
- Word Cloud
- pyspark
- input
- Okt
- 데이터
- 머신러닝
- Udemy
- SQL
- 파이썬
- Python
- 데이터분석
- pandas
- 시각화
- 태블로
- ionehotencoding
- iNT
- Tableau
Archives
- Today
- Total
반전공자
인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping) 본문
Python
Data Acquisition (데이터 수집)
웹페이지의 정보를 가져오는 코드 (페이지 소스코드를 Get)
import urllib.request
import urllib.parse
API = "https://search.naver.com/search.naver"
values = {
"where":"neearch",
"sm":"top_hty",
"fbm":"0",
"ie":"utf8",
"query":"명지대"
}
params = urllib.parse.urlencode(values)
url = API + "?" + params
print("url =", url)
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)
학교 이름을 검색해서 나오는 결과의 웹페이지 소스 코드를 불러오는 코드를 작성해보았다.
이전에 학교에서 진행한 파이썬 데이터분석 기초과정을 들었을 때 어렴풋이 url을 보고 짜맞추었던 것이 생각나서 그대로 해보았다.
명지대 : 네이버 통합검색
'명지대'의 네이버 통합검색 결과입니다.
search.naver.com
" ? " 를 기준으로 우측이 Request parameter!!
where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%AA%85%EC%A7%80%EB%8C%80
where = nexarch
sm=top_hty
fbm=1
ie=utf8
query=%EB%AA%85%EC%A7%80%EB%8C%80
로 크게 이루어져있는 것이 보인다.
그걸 코드에 옮겨 쓰고 쿼리엔 다른 검색하고 싶은 글자를 입력해도 그 웹페이지의 소스코드를 읽어올 수 있다.
'데이터분석 > 데테_인공지능' 카테고리의 다른 글
Octave 기본 문법 (class(), Matrics) (0) | 2021.06.04 |
---|---|
AI - 한글 영화평 데이터 (0) | 2021.05.09 |
WordCloud (0) | 2021.05.07 |
Nominal Attribute (LabelEncoder, fit, transform) (0) | 2021.04.28 |
Data Preprocessing (scikit-learn, Scaling(minimax_scale, fit_transform) (0) | 2021.04.08 |