웹크롤러 만들기 2탄을 포스팅합니다.
오늘은 완전히 간단한 예제 먼저 연습하고 다음시간에 신문기사 크롤러를 만들어 볼 거에요.
(신문기사 크롤러를 만들어놓긴 했지만, 제가 코드에 대한 이해가 아직 부족해서 조금 더 공부를 하고
포스팅할 에정입니다.)
크롤링을 위한 준비물 (라이브러리)
1. BeautifulSoup
2. 크롤링할 사이트(URL)
- 이번 시간엔 제가 미리 만들어놓은 사이트의 웹페이지 내용을 크롤링할 겁니다.
https://dongchanhong.github.io/python-study/
[Source Code]
1: from urllib.request import urlopen
2: from bs4 import BeautifulSoup
3: html = urlopen("http://dongchanhong.github.io/python-study/")
4: bsBody = BeautifulSoup(html.read(), "html.parser")
5: print(bsBody)
아무런 정제 없이 전체 HTML 페이지를 긁어 왔습니다.
다음엔 텍스트를 정제하는 방법, 원하는 부분만 선택해서 가져오는 방법등을 정리해 보겠습니다.
'프로그래밍 > 파이썬' 카테고리의 다른 글
[10. 웹크롤링] 네이버 실시간 검색어 가져오기 - 1 (0) | 2018.12.23 |
---|---|
[9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기 - 2 (0) | 2018.12.22 |
[8. 파이썬으로 PDF파일 읽어오기] PDF파일에서 텍스트 내용 파싱 (1) | 2018.12.16 |
[7. 파이썬 디자이너 PyQt 사용하기] 파이썬으로 윈도우 GUI 프로그램 만들기 (0) | 2018.12.15 |
[6. 웹크롤러만들기 - 2] 파이썬으로 만드는 웹 크롤러 (크롤러페이지 만들기) (0) | 2018.12.12 |