Web/Crawling9 웹페이지 데이터 수집 1 바디럽 페이지에서 리뷰 데이터를 크롤링 해보자 라이브러리 불러오기 (requests, BeautifulSoup) 페이지 요청 및 응답받기 (get 메서드) bs 객체화 리뷰데이터를 추출 (페이지를 넘겨가며) import requests as req # 서버와의 요청 및 응답을 위한 라이브러리 from bs4 import BeautifulSoup as bs # 컴퓨터가 이해하기 쉬운 객체로 변환해주는 라이브러리 url = 'https://bodyluv.kr/product/%EB%B0%94%EB%94%94%EB%9F%BD-%EB%94%A5%EC%8A%AC%EB%A6%BD-%EB%B2%A0%EA%B0%9C-%EC%97%90%EC%96%B4%EB%B3%BC%EC%97%90%EC%96%B4%ED%8F%BC/4.. 2023. 4. 6. 멜론차트 TOP100 수집하기 멜론차트 Top100 수집하기 수집단계 html 문서 요청받기 bs객체화 데이터 수집(태그 선택자) 반복하여 여러 개의 데이터 수집 import requests as req # 서버와의 요청 및 응답을 위한 라이브러리 from bs4 import BeautifulSoup as bs # 컴퓨터가 이해하기 쉬운 객체로 변경해주는 라이브러리 # 1. html 문서 요청받기(headers 작업) url = 'https://www.melon.com/chart/index.htm' # 잘못된 접근 req.get(url) # 우회접속 h = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chr.. 2023. 4. 5. 크롤링 기초 requests 라이브러리 사용법 # 라이브러리 불러오기 import requests as req # 서버에게 데이터를 요청 및 응답받기 위한 라이브러리 res = req.get('https://www.naver.com/') # Response [200]번대 : 성공적으로 요청 및 응답을 받았다는 의미 # Response [400]번대 : 클라이언트(요청) 부분에서 오류가 발생했을 때 # Response [500]번대 : 서버(응답) 쪽에서 문제가 발생했을 때 res.text BeautifulSoup 라이브러리 불러오기 from bs4 import BeautifulSoup as bs # 컴퓨터가 이해할 수 있는 객체로 변경해주는 라이브러리 res.text # bs(parsing할 html 문서, 'par.. 2023. 4. 5. 이전 1 2 다음