본문 바로가기

Python Crawing5

Selenium - headless 와 wait 문법 사용해보기 글 개요 이번 포스팅에서는 Selenium에 headless 옵션과 wait사용하는 방법을 알아보려고 합니다. 글 본문 headless옵션 headless옵션은 웹브라우저를 열지않고 크롤링을 진행할 때 사용합니다. from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('headless') driver.Chrome('driver 경로', options=options) 이렇게 headless옵션을 주고 시작하면, 웹브라우저를 열지않고 크롤링을 할 수 있습니다. wait wait은 selenium이 크롤링을 시작할 때 페이지 로딩을 기다리는 옵션입니다. 이와 비슷한게 time이라는 모듈이 있는데 time을 .. 2021. 10. 12.
Selenium - 기본 문법 이해하기 글 개요 이번 포스팅에서는 Selenium의 기본 문법과 자주 사용되는 함수를 알아보겠습니다. 글 본문 현재 브라우저 창 크기 설정하기 driver.get_window_size(), driver.set_window_size(x, y), driver.maximize_window(), driver.minimize_window() Selenium은 크롬브라우저의 창 크기를 조절할 수 있습니다. from selenium import webdriver driver = webdriver.Chrome('크롬드라이버') driver.get(url) # 현재 브라우저 창 크기 알아내기 driver.get_window_size() # {'width': 1051, 'height': 806} 결과 # 창크기 조절하기 driv.. 2021. 10. 12.
Selenium - iframe 글 개요 이번 포스팅에서는 Selenium의 iframe에 대해서 설명해보려고 합니다. 글 본문 iframe iframe이란, inline frame의 약자입니다. iframe을 이용하면, 해당 웹 페이지 안에 어떠한 제한 없이 또 다른 하나의 웹 페이지를 삽입할 수 있습니다. 가끔 Selenium으로 크롤링을 하다보면, 어떠한 경우는 데이터가 잘 가져와지는데 어떤 경우는 아예안가져와 지는 경우가 있습니다. 그럴때 iframe을 의심해봐야합니다. 혹시, 내가 iframe 안에 있는 태그를 가져오려고 시도하고 있는건 아닌지 찾아보셔야 합니다. 일단, 저는 네이버 금융에서 매매기준율이라는 데이터를 가지고 오고 싶었는데 태그를 정확하게 가져왔는데도 불구하고 빈 데이터를 반환했습니다. 보아하니, iframe안에.. 2021. 10. 12.
크롤링- 기초문법 활용 네이버 영화 평점 크롤링 글 개요 https://yoo-young.tistory.com/31 크롤링 - 기초 문법 글 개요 파이썬에서 웹크롤링을 하려면 BeautifulSoup 와 Selenium 라이브러리를 사용해야 합니다. 그중 저는 BeautifulSoup라이브러리의 기초적인 문법을 정리하려고 합니다. 글 본문 BeautifulSoup()함수 from yoo-young.tistory.com 이전에 작성했던 파이썬 크롤링 기초문법을 활용한 네이버 영화평점 데이터를 수집하고 데이터를 저장해보겠습니다. 글 본문 웹 페이지는 주소에는 많은 정보가 담겨있습니다. 원하는 정보를 얻기위해서 변화시켜줘야 하는 주소 규칙을 찾을 수 있습니다. 네이버 영화평점 사이트에는 날짜 정보를 변화시켜주면 해당 페이지에 접근이 가능하고, 해당 날짜에 .. 2021. 10. 5.
크롤링 - 기초 문법 글 개요 파이썬에서 웹크롤링을 하려면 BeautifulSoup 와 Selenium 라이브러리를 사용해야 합니다. 그중 저는 BeautifulSoup라이브러리의 기초적인 문법을 정리하려고 합니다. 글 본문 BeautifulSoup()함수 from bs4 import BeautifulSoup soup = BeautifulSoup(첫 번째 인자, 'html.parser') print(soup.prettify()) BeautifulSoup함수의 첫 번째 인자는 크롤링 하고 싶은 사이트를 넣어주셔야 합니다. 그리고 prettify()함수는 html를 파이썬에서 정리된 모습으로 볼 수 있습니다. from bs4 import BeautifulSoup from urllib.request import urlopen ur.. 2021. 9. 29.