selenium 3

[웹 크롤링 - Python] BeautifulSoup(Requests, Selenium)의 응용(1)

이번 시간에는 네이버 부동산의 정보를 csv에 저장하는 프로그램을 만들어 보았습니다. 아파트 이름을 적으면 알아서 웹 크롤링을 해와서 csv파일에 저장하는 방식입니다. 하지만 이 코드의 문제점은 최대 19개밖에 못 가져온다는 것인데, 이는 네이버 부동산의 판매 정보칸이 있는데, 여기서 스크롤을 내려야 GET으로 추가 판매 정보를 가져오더라구요 .. 그래서 추가 판매 정보를 가져오는 녀석의 헤더와 쿠키, auth 정보를 따서 재요청하려고 했는데, 이건 제가 아직 지식을 덜 쌓아서 못 했습니다... 그래서 아래의 코드는 사이트에 들어가면 바로 나와있는 정보만 가져오는 반쪽짜리 코드라 할 수 있네요 ㅠㅠ from bs4 import BeautifulSoup from selenium import webdrive..

[웹 크롤링 - Python] Selenium 사용법

앞의 글을 읽으시면 이해에 도움이 됩니다. 2022.02.01 - [Python Library/웹 크롤링] - [웹 크롤링 - Python] Selenium 프레임워크 및 웹 드라이버 [웹 크롤링 - Python] Selenium 프레임워크 및 웹 드라이버 1. Selenium 이란? 만약 우리가 웹 크롤링을 하는 과정에서 로그인이 필요한 경우에는 어떻게 해야할까? 일일이 우리가 로그인을 하고 안에 들어간 다음에 url 주소를 다시 줘야할까?? 혹은 해당 웹 hi-guten-tag.tistory.com 1. find를 이용해 element 찾기(find_element), click(), get_attribute() from selenium import webdriver url = "http://naver..

[웹 크롤링 - Python] Selenium 프레임워크 및 웹 드라이버

1. Selenium 이란? 만약 우리가 웹 크롤링을 하는 과정에서 로그인이 필요한 경우에는 어떻게 해야할까? 일일이 우리가 로그인을 하고 안에 들어간 다음에 url 주소를 다시 줘야할까?? 혹은 해당 웹사이트가 프로그램을 통한 접근을 막은 경우에는 어떻게 될까?? User-Agent를 바꾸면 해결할 수는 있지만, 인생이 그렇듯 하나의 방법으로는 불가능한게 너무 많다. 그렇다면 어떤 방법을 통해서 할 수 있을까? requests로는 한계가 있어보인다. 방법은 Selenium이다. Selenium은 마치 우리가 웹 사이트를 이용하는 것처럼 홈페이지를 제어할 수 있다. 사실 Selenium은 위와 같은 경우 때문에 생겨난 프레임워크가 아니다. 크롤링을 위한 프레임워크가 아니란 말이다. 사실 Selenium은..