옆집오빠 :: [9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기

잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.

붉은kkk

태그목록

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

calendar

이전 다음 2025.7

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

티스토리 가입하기 RSS FEED

[9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기 - 1

2018. 12. 19. 00:01 | Posted by 붉은kkk

웹크롤러 만들기 2탄을 포스팅합니다.

오늘은 완전히 간단한 예제 먼저 연습하고 다음시간에 신문기사 크롤러를 만들어 볼 거에요.

(신문기사 크롤러를 만들어놓긴 했지만, 제가 코드에 대한 이해가 아직 부족해서 조금 더 공부를 하고

포스팅할 에정입니다.)

크롤링을 위한 준비물 (라이브러리)

1. BeautifulSoup

2. 크롤링할 사이트(URL)

- 이번 시간엔 제가 미리 만들어놓은 사이트의 웹페이지 내용을 크롤링할 겁니다.

https://dongchanhong.github.io/python-study/

[Source Code]

1: from urllib.request import urlopen
2: from bs4 import BeautifulSoup
3: html = urlopen("http://dongchanhong.github.io/python-study/")
4: bsBody = BeautifulSoup(html.read(), "html.parser")
5: print(bsBody)

아무런 정제 없이 전체 HTML 페이지를 긁어 왔습니다.

다음엔 텍스트를 정제하는 방법, 원하는 부분만 선택해서 가져오는 방법등을 정리해 보겠습니다.

'프로그래밍 > 파이썬' 카테고리의 다른 글

[10. 웹크롤링] 네이버 실시간 검색어 가져오기 - 1 (0)	2018.12.23
[9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기 - 2 (0)	2018.12.22
[8. 파이썬으로 PDF파일 읽어오기] PDF파일에서 텍스트 내용 파싱 (1)	2018.12.16
[7. 파이썬 디자이너 PyQt 사용하기] 파이썬으로 윈도우 GUI 프로그램 만들기 (0)	2018.12.15
[6. 웹크롤러만들기 - 2] 파이썬으로 만드는 웹 크롤러 (크롤러페이지 만들기) (0)	2018.12.12

옆집오빠