728x90
반응형

웹에서 정보 가져오기

requests 모듈

파이썬 requests 모듈은 간편한 HTTP 요청처리를 위해 사용하는 모듈

 

 

requests 모듈 설치

requests 모듈을 사용하기 위해서는  pip를 통해 설치를 해야함

pip는 python 3.4이상 버전부터는 자동으로 같이 설치가 되기 때문에 따로 설치할 필요없음

 

1️⃣ cmd(명령 프롬프트) 실행

 

2️⃣ pip로 설치하기 위해 파이썬 하위에 있는 Scripts로 이동

이동할 때는 cd(Change Directory) 명령어 입력

👉 cd C:\Users\user-pc\AppData\Local\Programs\Python\Python38-32\Scripts

 

3️⃣  pip install requests 라고 입력하여 설치 진행

👉 pip install requests

 

4️⃣ 설치 완료 확인

👉 Successfully installed certifi-2020.12.5

 

 

cmd 참고 이미지

 

 

네이버 뉴스 기사 가져오기

import requests

naver_result = requests.get("https://search.naver.com/search.naver?where=news&query=삼성전자&sm=tab_opt&sort=1&photo=0&field=0&reporter_article=&pd=6&ds=&de=&docid=&nso=so%3Add%2Cp%3A6m%2Ca%3Aall&mynews=0&refresh_start=0&related=0")

print(naver_result.text)

삼성전자 검색시 html 정보 가져오기 성공


 

BeautifulSoup

requests는 좋은 라이브러리이지만 html을 Python이 이해하는 객체 구조로 만들어주지는 못함

위에서 naver_news.text는 python의 문자열(str)객체를 반환할 뿐이기 때문에 정보를 추출하기가 어려움

➡ BeautifulSoup을 이용하면 됨

BeautifulSoup은 html 코드를 Python이 이해하는 객체 구조로 변환하는 Parsing을 맡고 있고, 이 라이브러리를 이용해 우리는 제대로 된 '의미있는' 정보를 추출해 낼 수 있음

 

 

BeautifulSoup 설치

1️⃣ cmd 실행

 

2️⃣pip로 설치하기 위해 파이썬 하위에 있는 Scripts로 이동

이동할 때는 cd(Change Directory) 명령어 입력

👉 cd C:\Users\user-pc\AppData\Local\Programs\Python\Python38-32\Scripts

 

3️⃣ pip install beautifulsoup4라고 입력하여 설치 진행

👉 pip install beautifulsoup4

 

4️⃣ 설치 완료 확인

👉 Successfully installed beautifulsoup4-4.9.3

 

 

cmd 참고 이미지

 

 

네이버 뉴스 정보 가져오기

import requests
from bs4 import BeautifulSoup

naver_result = requests.get("https://search.naver.com/search.naver?where=news&query=삼성전자&sm=tab_opt&sort=1&photo=0&field=0&reporter_article=&pd=6&ds=&de=&docid=&nso=so%3Add%2Cp%3A6m%2Ca%3Aall&mynews=0&refresh_start=0&related=0")

naver_soup = BeautifulSoup(naver_result.text, "html.parser")

print(naver_soup)
반응형

'프로그래밍 > Python' 카테고리의 다른 글

Web Scraping2  (0) 2020.12.24
Web Scraping1  (0) 2020.12.23
개발환경 세팅  (0) 2020.12.23
Modules  (0) 2020.12.22
조건문 if & 반복문 for  (0) 2020.12.22
복사했습니다!