블로그 이미지
잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.
붉은kkk

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

calendar

1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

웹크롤러 만들기 2탄을 포스팅합니다.

오늘은 완전히 간단한 예제 먼저 연습하고 다음시간에 신문기사 크롤러를 만들어 볼 거에요. 

(신문기사 크롤러를 만들어놓긴 했지만, 제가 코드에 대한 이해가 아직 부족해서 조금 더 공부를 하고 

포스팅할 에정입니다.)


크롤링을 위한 준비물 (라이브러리)

1. BeautifulSoup

2. 크롤링할 사이트(URL)

   - 이번 시간엔 제가 미리 만들어놓은 사이트의 웹페이지 내용을 크롤링할 겁니다.

     https://dongchanhong.github.io/python-study/



[Source Code]

1: from urllib.request import urlopen
2: from bs4 import BeautifulSoup
3: html = urlopen("http://dongchanhong.github.io/python-study/")
4: bsBody = BeautifulSoup(html.read(), "html.parser")
5: print(bsBody)


아무런 정제 없이 전체 HTML 페이지를 긁어 왔습니다.


다음엔 텍스트를 정제하는 방법, 원하는 부분만 선택해서 가져오는 방법등을 정리해 보겠습니다.