인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping)

Notice

Recent Posts

Recent Comments

Link

GitHub

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

반전공자

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping) 본문

데이터분석/데테_인공지능

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping)

하연01 2021. 3. 26. 08:00

Python

Data Acquisition (데이터 수집)

웹페이지의 정보를 가져오는 코드 (페이지 소스코드를 Get)

import urllib.request
import urllib.parse
API = "https://search.naver.com/search.naver"
values = {
    "where":"neearch",
    "sm":"top_hty",
    "fbm":"0",
    "ie":"utf8",
    "query":"명지대"
}
params = urllib.parse.urlencode(values)
url = API + "?" + params
print("url =", url)
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

학교 이름을 검색해서 나오는 결과의 웹페이지 소스 코드를 불러오는 코드를 작성해보았다.

이전에 학교에서 진행한 파이썬 데이터분석 기초과정을 들었을 때 어렴풋이 url을 보고 짜맞추었던 것이 생각나서 그대로 해보았다.

search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%AA%85%EC%A7%80%EB%8C%80

명지대 : 네이버 통합검색

'명지대'의 네이버 통합검색 결과입니다.

search.naver.com

" ? " 를 기준으로 우측이 Request parameter!!

where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%AA%85%EC%A7%80%EB%8C%80

where = nexarch

sm=top_hty

fbm=1

ie=utf8

query=%EB%AA%85%EC%A7%80%EB%8C%80

로 크게 이루어져있는 것이 보인다.

그걸 코드에 옮겨 쓰고 쿼리엔 다른 검색하고 싶은 글자를 입력해도 그 웹페이지의 소스코드를 읽어올 수 있다.

'데이터분석 > 데테_인공지능' 카테고리의 다른 글

Octave 기본 문법 (class(), Matrics) (0)	2021.06.04
AI - 한글 영화평 데이터 (0)	2021.05.09
WordCloud (0)	2021.05.07
Nominal Attribute (LabelEncoder, fit, transform) (0)	2021.04.28
Data Preprocessing (scikit-learn, Scaling(minimax_scale, fit_transform) (0)	2021.04.08

'데이터분석/데테_인공지능' Related Articles

반전공자

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping) 본문

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping)

Python

Data Acquisition (데이터 수집)

'데이터분석 > 데테_인공지능' 카테고리의 다른 글

티스토리툴바