일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 단순 반복 자동화
- string format
- Web Service Architecture
- 프로그래머스 SQL
- 파이썬 가상환경
- 파이썬
- 리눅스 rwx
- beautifulsoup
- 오라클
- Web Server란
- 리눅스 777
- BigDecimal
- 파이썬 주식
- JSON특징
- 리눅스
- WAS란
- 변동성 돌파전략
- JavaScript Obejct Notation
- pybithumb
- java
- Python
- spring
- 즐겨찾기가 가장 많은 식당 정보 출력하기
- JSON 형식
- 트레이딩 봇 만들기
- 빗썸 API 사용
- 프로그래머스
- 와스 웹서버의 차이
- WAS WebServer 차이
- 프로그래머스 소수
- Today
- Total
IT 개발자_S
파이썬 웹 크롤링 BeautifulSoup 이용한 휴대폰정보리스트 만들기-01 본문
● BeautifulSoup 활용을 통해 웹 크롤링을 할 수 있다.
● 갤럭시 모델 Serial 번호 추출 후 리스트 생성
안녕하세요. 이번 시간은 BeautifulSoup 웹크로링을 활용한 휴대폰 정보리스트를 만드는 서비스를 구현해보겠습니다.
먼저 서비스의 내용은 삼성전자 홈페이지에서 휴대폰 정보 Serial 번호을 추출하여 리스트를 작성하는것이 목표입니다.
https://www.samsung.com/sec/smartphones/all-smartphones/
Samsung 대한민국 | 모바일 | TV | 가전 | IT
모바일 | TV | 가전 | IT
www.samsung.com
삼성전자 공식홈페이지에 스마트폰분류로 가면 삼성전자에서 제공하는 갤럭시 시리즈의 정보를 확인할 수 있다
크롬인 경우 F12 를 통해 HTML 구조를 파악할 수 있고 해당 Serial, 모델명이 HTML 의 어떤 구조로 생성되어 있는지
분석할 수 있다.
분석을 통해 어떤정보를 가져와야 되는지 확인이 되었으면 코드생성에 들어가보자.
먼저 BeautifulSoup 통해 해당 URL의 HTML 정보를 GET 해보자
import requests
from bs4 import BeautifulSoup
webpage = requests.get("https://www.samsung.com/sec/smartphones/all-smartphones/")
soup = BeautifulSoup(webpage.content, "html.parser")
해당 HTML 구조중 id popupPrdSelect 구조를 통해 해당 모델코드, Serial 정보가 담긴곳을 확인 할 수 있다.
print(soup.find(id="popupPrdSelect"))
h1변수에 해당 popup list정보를 담고
items 변수에 span 태그의 class : Serial 정보만 get하여 저장한다.
h1=soup.find(id="popupPrdSelect")
items =h1.find_all("span" ,{"class":"serial"})
for item in items :
temp = []
serial = item.get_text()
print(serial[:8])
for문을 이용한 각각의 정보를 get_text() 메소드를 통해 정보를 추출하여 뽑아내면 serial 정보를 크롤링 할 수 있다.
'IT > 파이썬' 카테고리의 다른 글
트레이딩 봇 만들어서 부자되기 프로젝트 -03 자동 매매 (0) | 2020.12.29 |
---|---|
트레이딩 봇 만들어서 부자되기 프로젝트 -02 목표가 설정하기 (0) | 2020.12.14 |
파이썬 데이터 분석 시각화 방법 matplotlib (0) | 2020.10.31 |
파이썬 데이터 분석 결측치 확인하기 (0) | 2020.10.31 |
파이썬 Pandas를 이용한 데이터 분석 (지하철 데이터 분석) (0) | 2020.10.24 |