IT 개발자_S

파이썬 웹 크롤링 BeautifulSoup 이용한 휴대폰정보리스트 만들기-01 본문

IT/파이썬

파이썬 웹 크롤링 BeautifulSoup 이용한 휴대폰정보리스트 만들기-01

Soso12 2021. 5. 15. 20:50
반응형

● BeautifulSoup 활용을 통해 웹 크롤링을 할 수 있다.

● 갤럭시 모델 Serial 번호 추출 후 리스트 생성

 

안녕하세요. 이번 시간은 BeautifulSoup 웹크로링을 활용한 휴대폰 정보리스트를 만드는 서비스를 구현해보겠습니다.

먼저 서비스의 내용은 삼성전자 홈페이지에서 휴대폰 정보 Serial 번호을 추출하여 리스트를 작성하는것이 목표입니다.

 

https://www.samsung.com/sec/smartphones/all-smartphones/

 

Samsung 대한민국 | 모바일 | TV | 가전 | IT

모바일 | TV | 가전 | IT

www.samsung.com

 

삼성전자 공식홈페이지에 스마트폰분류로 가면 삼성전자에서 제공하는 갤럭시 시리즈의 정보를 확인할 수 있다

크롬인 경우 F12 를 통해 HTML 구조를 파악할 수 있고 해당 Serial, 모델명이 HTML 의 어떤 구조로 생성되어 있는지

분석할 수 있다. 

분석을 통해 어떤정보를 가져와야 되는지 확인이 되었으면 코드생성에 들어가보자.

 

 

 

먼저 BeautifulSoup 통해 해당 URL의 HTML 정보를 GET 해보자

import requests
from bs4 import BeautifulSoup

webpage = requests.get("https://www.samsung.com/sec/smartphones/all-smartphones/")
soup = BeautifulSoup(webpage.content, "html.parser")

 

해당 HTML 구조중 id popupPrdSelect 구조를 통해 해당 모델코드, Serial 정보가 담긴곳을 확인 할 수 있다.

print(soup.find(id="popupPrdSelect"))

 

 

h1변수에 해당 popup list정보를 담고

items 변수에 span 태그의 class : Serial 정보만 get하여 저장한다.

h1=soup.find(id="popupPrdSelect")
items =h1.find_all("span" ,{"class":"serial"})

 

for item in items :
  temp = []
  serial = item.get_text()
  print(serial[:8])

 

for문을 이용한 각각의 정보를 get_text() 메소드를 통해 정보를 추출하여 뽑아내면 serial 정보를 크롤링 할 수 있다.

 

반응형
Comments