Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 단순 반복 자동화
- string format
- 리눅스 777
- 트레이딩 봇 만들기
- Web Server란
- java
- spring
- JavaScript Obejct Notation
- 파이썬 가상환경
- Web Service Architecture
- 파이썬
- 오라클
- JSON특징
- 프로그래머스 SQL
- 즐겨찾기가 가장 많은 식당 정보 출력하기
- JSON 형식
- 와스 웹서버의 차이
- beautifulsoup
- 리눅스
- 프로그래머스
- Python
- WAS란
- 프로그래머스 소수
- 빗썸 API 사용
- WAS WebServer 차이
- 변동성 돌파전략
- BigDecimal
- pybithumb
- 리눅스 rwx
- 파이썬 주식
Archives
- Today
- Total
IT 개발자_S
파이썬 셀레늄 Selenium 크롤링하기 본문
반응형
● 파이썬을 Selenium 활용하여 크롤링을 할 수 있다.
파이썬을 Selenium 을 활용하여 크롤링을 하는 방법에 대해서 알아 보겠습니다.
파이썬을 활용한 크롤링 모듈을 여러가지 중에 Selenium 활용하는 방법은 아래와 같다.
먼저 sites.google.com/a/chromium.org/chromedriver/
접속 하여 자신의 os 에 맞는 버전을 다운받자.(os, window , 해당 글의 경로는 실행하는 파이썬 파일 과 동일한 경로 로 설정)
설치 완료 후 압축을 풀게 되면 chromedriver 파일을 확인 할 수 있다.
셀레늄을 사용하기 위해서는 먼저 셀레늄을 설치해준다.
pip install selenium
import os
print(os.getcwd())
해당 파일의 위치를 알고 싶다면 위의 명령어를 사용하면 되고
이를 활용하여 chromedriver 을 호출한다
from selenium import webdriver
driver = webdriver.Chrome('.\chromedriver_win32/chromedriver')
driver.get("https://movie.naver.com/movie/bi/mi/basic.nhn?code=160487")
driver.save_screenshot('001.png') # 화면 캡쳐
현재 호출하는 홈페이지는 영화 리뷰 글이며 해당 화면을 캡쳐하는 방법은
save_screenshot 이다.
from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
raw_list = soup.find_all('div', class_="story_area")
print( raw_list )
BeautifulSoup 을 이용하여
영화 리뷰 부분( class= "story_area" ) 부분을 읽어 화면에 출력해 준다
반응형
'IT > 파이썬' 카테고리의 다른 글
파이썬 데이터 분석 결측치 확인하기 (0) | 2020.10.31 |
---|---|
파이썬 Pandas를 이용한 데이터 분석 (지하철 데이터 분석) (0) | 2020.10.24 |
파이썬 예외처리시 어떻게 처리할까? (0) | 2020.10.24 |
트레이딩 봇 만들어서 부자되기 프로젝트 -01 빗썸 연결하기 (0) | 2020.10.20 |
파이썬 beautifulSoup 을 이용한 웹 크롤링 (0) | 2020.10.17 |
Comments