IT 개발자_S

파이썬 셀레늄 Selenium 크롤링하기 본문

IT/파이썬

파이썬 셀레늄 Selenium 크롤링하기

Soso12 2020. 10. 24. 11:59
반응형

● 파이썬을 Selenium 활용하여 크롤링을 할 수 있다.

파이썬을 Selenium  을 활용하여 크롤링을 하는 방법에 대해서 알아 보겠습니다.

파이썬을 활용한 크롤링 모듈을 여러가지 중에 Selenium  활용하는 방법은 아래와 같다.

먼저 sites.google.com/a/chromium.org/chromedriver/

접속 하여 자신의 os 에 맞는 버전을 다운받자.(os, window , 해당 글의 경로는 실행하는 파이썬 파일 과 동일한 경로 로 설정)

 

ChromeDriver - WebDriver for Chrome

WebDriver for Chrome

sites.google.com

 

설치 완료 후 압축을 풀게 되면 chromedriver 파일을 확인 할 수 있다.

셀레늄을 사용하기 위해서는 먼저 셀레늄을 설치해준다.

pip install selenium

 

import os
print(os.getcwd())

해당 파일의 위치를 알고 싶다면 위의 명령어를 사용하면 되고

이를 활용하여 chromedriver 을 호출한다

from selenium import webdriver

driver = webdriver.Chrome('.\chromedriver_win32/chromedriver')
driver.get("https://movie.naver.com/movie/bi/mi/basic.nhn?code=160487")

driver.save_screenshot('001.png')  # 화면 캡쳐

 

현재 호출하는 홈페이지는 영화 리뷰 글이며 해당 화면을 캡쳐하는 방법은 

save_screenshot 이다.

 

 

from bs4 import BeautifulSoup


html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

raw_list = soup.find_all('div', class_="story_area")
print( raw_list )

 

BeautifulSoup 을 이용하여 

영화 리뷰 부분( class= "story_area" ) 부분을 읽어 화면에 출력해 준다

반응형
Comments