이제 웹 크롤러를 만들어 볼까 합니다.
크롤러란 웹페이지의 내용을 가져오게 해주는 프로그램을 의미하며, 웹페이지의 내용을 가져오는 것을 크롤링 또는 스크래핑이라고 합니다.
우선 크롤링을 하기 전에 주의해야될 사항이 있는데 허락된 사이트에서만 크롤링을 해야된다는 점입니다.
예를들어 Naver나 Daum의 경우 크롤링을 허용하지 않고 있습니다.
자칫 잘못하다간 불법적인 영역이 될 수 있기 때문에 조심! 조심! 합시다.
크롤링이 가능한 사이트인지 아닌지 판별하기 위해서는 robots.txt파일을 살펴 봐야되요.
이 robots.txt는 무분별한 크롤링을 막고 컨트롤하기 위해 만들어진 규약이라고 하네요.
ex)
1. www.naver.com/robots.txt
- 느낌이 허용하지 않는 거 같습니다. (Disallow가 있네요)
2. www.daum.net/robots.txt
- 여기도 마찬가지
3. www.google.com/robots.txt
- 구글도 제한이 있는거 같네요.
4. www.tistory.com/robots.txt
- 티스토리는 허용되는 것으로 보이네요.
크롤러를 만들기 전 불법/합법의 영역에 대한 내용을 확실히 파악하고 시작을 해야될 것 같습니다.
오늘은 여기까지, 항상 저작권 조심하세요^^;
다음 시간 부터는 크롤링이 허용된 사이트에서 크롤링 하는 방법에 대한 연습을 시작해보겠습니다.
'프로그래밍 > 파이썬' 카테고리의 다른 글
[7. 파이썬 디자이너 PyQt 사용하기] 파이썬으로 윈도우 GUI 프로그램 만들기 (0) | 2018.12.15 |
---|---|
[6. 웹크롤러만들기 - 2] 파이썬으로 만드는 웹 크롤러 (크롤러페이지 만들기) (0) | 2018.12.12 |
[5. 실행파일만들기] 파이썬으로 만든 프로그램 실행파일로 만들기 (0) | 2018.12.11 |
[4. 워드클라우드] 파이썬을 이용한 빅데이터 분석, 워드 클라우드 사용 (0) | 2018.12.09 |
[3. 그래프출력] 파이썬 matplotlib 그래프 출력 (한글폰트 사용) (0) | 2018.12.08 |