블로그 이미지
잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.
붉은kkk

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

calendar

1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

지난 시간엔 크롤링이 가능한 사이트에 대한 정보를 찾느라 시간을 보냈습니다.

우선 크롤러를 만드는게 목적이기 때문에, 고민은 잠시 접어 두고 크롤링을 할 수 있는 사이트를 직접 만든 뒤 

크롤링을 해 보도록 하겠습니다.


1. 크롤러 연습용 사이트 만들기

필요한 사항

    - HTML 문서를 업로드 할 수 있는 웹사이트가 필요

    - 무료 웹사이트를 어디서 만들수 있는가?

       GitHub에서 무료 웹사이트 제작 가능



2. GitHub 가입 및 웹사이트 만들기

    - https://github.com

    - 가입과정은 생략.

     - 가입 이후 repository 생성하기


저는 Python-study라는 이름으로 만들었어요. 

자, 이제 지루한 과정도 거의 끝에 다다르고 있습니다.


제 사이트 주소가 생성되었습니다.

 https://github.com/dongchanhong/python-study



3. 웹사이트 Index.html 만들기

     - 사이트에 접속시 실행되는 페이지를 만들어 보겠습니다.


Index.html도 만들었으니, 이 파일을 업로드 하고 페이지가 제대로 나오는지만 확인하면 끝이에요.

(홈페이지는 Index.html을 시작 페이지로 인식합니다.)



4. GitHub에 Index.html 올리기

● GitHub를 사용하기 쉽게 Desktop 프로그램을 설치해 주세요.

    - set up in Desktop을 클릭해서 프로그램 다운로드 


... 설치가 완료되면 실행해서 ... 로그인 등등 설정을 해주시고 ... 저는 아래와 같이 완료 되었습니다.



로그인하고, 기존에 만들었던 저장소를 열어서 여기에 HTML 문서를 업로드 해보는 것으로 오늘은 끝을 낼게요.



길고 긴 과정이 지나 이제 다 됐습니다...


파일 업로드 된 걸 확인했고, 마지막으로 설정을 변경 해 줘야됩니다. 

(지금 상태에서는 사이트 접속시 404 Not Found가 나옵니다.)


※ Settings → source에서 master branch를 선택하고 Save를 해주셔야됩니다.

그러면 이렇게 사이트가 생성되었다고 나와요.


이제 진짜 끝이 났습니다.

위에 생성된 https://dongchanhong.github.io/python-study/로 접속을 하면

이렇게 나오네요. 


이제 다음 시간부터는 크롤링 연습을 하나 하나 진행 해 보도록 하겠습니다.

이제 웹 크롤러를 만들어 볼까 합니다.


크롤러란 웹페이지의 내용을 가져오게 해주는 프로그램을 의미하며, 웹페이지의 내용을 가져오는 것을 크롤링 또는 스크래핑이라고 합니다.


우선 크롤링을 하기 전에 주의해야될 사항이 있는데 허락된 사이트에서만 크롤링을 해야된다는 점입니다.


예를들어 Naver나 Daum의 경우 크롤링을 허용하지 않고 있습니다.


자칫 잘못하다간 불법적인 영역이 될 수 있기 때문에 조심! 조심! 합시다.



크롤링이 가능한 사이트인지 아닌지 판별하기 위해서는 robots.txt파일을 살펴 봐야되요.
이 robots.txt는 무분별한 크롤링을 막고 컨트롤하기 위해 만들어진 규약이라고 하네요. 


ex)

1. www.naver.com/robots.txt

- 느낌이 허용하지 않는 거 같습니다. (Disallow가 있네요)


2. www.daum.net/robots.txt

- 여기도 마찬가지


3. www.google.com/robots.txt


- 구글도 제한이 있는거 같네요.


4. www.tistory.com/robots.txt

- 티스토리는 허용되는 것으로 보이네요.


크롤러를 만들기 전 불법/합법의 영역에 대한 내용을 확실히 파악하고 시작을 해야될 것 같습니다.


오늘은 여기까지, 항상 저작권 조심하세요^^;

다음 시간 부터는 크롤링이 허용된 사이트에서 크롤링 하는 방법에 대한 연습을 시작해보겠습니다.

이전 1 다음