반전공자

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping) 본문

데이터분석/데테_인공지능

인공지능(AI) 기초 - 웹페이지 소스 긁어오기 (Scraping)

하연01 2021. 3. 26. 08:00

Python 

Data Acquisition (데이터 수집)

 

웹페이지의 정보를 가져오는 코드 (페이지 소스코드를 Get)

import urllib.request
import urllib.parse
API = "https://search.naver.com/search.naver"
values = {
    "where":"neearch",
    "sm":"top_hty",
    "fbm":"0",
    "ie":"utf8",
    "query":"명지대"
}
params = urllib.parse.urlencode(values)
url = API + "?" + params
print("url =", url)
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

학교 이름을 검색해서 나오는 결과의 웹페이지 소스 코드를 불러오는 코드를 작성해보았다.

이전에 학교에서 진행한 파이썬 데이터분석 기초과정을 들었을 때 어렴풋이 url을 보고 짜맞추었던 것이 생각나서 그대로 해보았다. 

 

search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%AA%85%EC%A7%80%EB%8C%80

 

명지대 : 네이버 통합검색

'명지대'의 네이버 통합검색 결과입니다.

search.naver.com

 

" ? " 를 기준으로 우측이 Request parameter!! 

where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%AA%85%EC%A7%80%EB%8C%80

 

where = nexarch

sm=top_hty

fbm=1

ie=utf8

query=%EB%AA%85%EC%A7%80%EB%8C%80

 

로 크게 이루어져있는 것이 보인다. 

그걸 코드에 옮겨 쓰고 쿼리엔 다른 검색하고 싶은 글자를 입력해도 그 웹페이지의 소스코드를 읽어올 수 있다.