lxml 2

[웹 크롤링 - Python] 응용 및 홈페이지 url 변경 크롤링

1. 간단한 응용 이번 시간에는 지금까지 배운 내용을 토대로 네이버 웹툰을 가져와보겠다. 가져올 네이버 웹툰은 김세훈 작가님의 '열렙전사'를 가져와보도록 하겠다. 가져올 내용은 제목과 링크, 그리고 별점을 가져오고 가져온 이후에는 평점의 평균을 내보도록 하겠다. import requests from bs4 import BeautifulSoup # url은 네이버 웹툰의 열렙전사이다. url = "https://comic.naver.com/webtoon/list?titleId=670152&weekday=sun" head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome..

[웹 크롤링 - Python] BeautifulSoup4 라이브러리, lxml 모듈

1. BeautifulSoup과 lxml이란? BeautifulSoup이란 스크래핑을 하기위해 사용하는 패키지이고, lxml은 구문을 분석하기 위한 parser이다. 즉, BeautifulSoup은 response.text를 통해 가져온 HTML 문서를 탐색해서 원하는 부분을 뽑아내는 그런 역할을 하는 라이브러리이다. 또한, response.text로 가져온 HTML문서는 단순히 String에 지나지 않으니, lxml을 통하여 의미있는 HTML문서로 변환하는 것이다. 결론적으로, response.text로 가져온 String은 lxml이라는 모듈의 해석에 의하여 의미있는 HTML 문서로 변환되고, 이렇게 변환된 HTML문서는 BeautifulSoup에 의해서 원하는 부분을 탐색할 수 있게 된다. 그래서 ..