블로그 이미지
잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.
붉은kkk

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

calendar

1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31


네이버 실시간 검색어 웹크롤링도 배웠으니 계속 응용을 해봐야겠죠?


이번엔 네이버 영화 리뷰를 크롤링 해 보겠습니다.


시작전 주의 사항 먼저~


주의 : 허락되지 않은 사이트의 크롤링은 법적으로 문제가 될 수 있습니다. 

제 블로그는 파이썬으로 어떻게 크롤링을 할 수 있는지에 대해서만 알려주고 있으며, 

크롤링으로 인해 법적 문제 발생시 법적 책임은 지지 않음을 알려 드립니다.



1. 크롤링할 페이지 HTML 구조 분석

     -  https://movie.naver.com/movie/running/current.nhn 

        현재 상영작 중 하나를 골라서 분석을 해 보겠습니다.

        웹페이지에 접근 후 F12를 눌러서 Data 구조를 분석 해 봅니다.

[현재 상영작 페이지]


[아쿠아맨 리뷰페이지]

- 분석을 했더니, 아래와 같은 구조를 찾았습니다.

  <ul class="rvw_list_area">

    <li> ... 

 


2. 크롤링 코드 작성

- 바로 코드를 보여드릴게요.

1: import urllib.request

2: from bs4 import BeautifulSoup

3: print("영화 리뷰를 가져올 페이지를 입력하세요.")
4: MovieName = input()

5: MoviePage = int(input('리뷰 페이지수를 입력하세요:'))

6: MoviePage = MoviePage + 1      

7: # ??? 리뷰 페이지수를 입력하면 1페이지 적게 출력되서 추가된 코드, 왜 그런지 모르겠네요.

8: print("리뷰내용은 MovieReview.txt로 저장됩니다.")

9: 
10: fileOut = open('MovieReview.txt', 'w', encoding='utf-8')

11:
12: def main():
13:    for pageidx in range(1, MoviePage):
14:     url = "%s&page=%d" % (MovieName, pageidx)
15:     soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")

16:     ul = soup.find("ul",class_="rvw_list_area")
17:     for i in ul.find_all("li"):
18:         print(i.strong.get_text(), file=fileOut)
19:         

20: if __name__ == "__main__":    #프로그램의 시작점일 때만 아래 코드 실행
21:    main()

22:    
23: fileOut.close()


- 리뷰 페이지와 크롤링할 페이지 수를 입력하면, 그 뒤엔 파일로 만들어지는 구조에요. (제목만 가져옵니다)

  이 후의 응용은 추가적으로 해 보시면 될 것 같네요.


취미로 시작한 프로그래밍인데 점점 할 수 있는게 많아지고 하고 싶은 것도 많아지고 재밌어 지네요.

이론적인 부분의 공부도 필요한데, 이 부분은 시간을 들여서 천천히 하나하나 내공을 다져봐야겠어요.

(책에 나와있는 이론들은 사실 재미없습니다. 구글링으로 프로그래밍이 되니까요... 그래도 나중을 위해서 천천히...)


다음엔 더 신박한 주제로 포스팅 할게요. 다들 즐거운 프로그래밍 생활 되세요. 





설연휴에 집에만 있기 갑갑해서 영화를 한편 봤답니다. (레지던트 이블6 - 파멸의날)


레지던트이블은 게임에서 출발해서 영화화 되었는데요. 좀비게임인 바이오하자드에서 파생되었습니다.


이번 6편이 진짜~ 진짜~ 마지막이겠죠? ㅋㅋ 제목을 보면 그럴거 같긴한데 


이전에도 낚시가 상당했던 영화였습니다.


2012년에 나온 5편이 레지던트이블 - 최후의 심판 이었으니까요.



<시리즈 히스토리>

2002년 레지던트이블

2004년 레지던트이블2

2007년 레지던트이블3 - 인류의 멸망

2010년 레지던트이블4 - 끝나지 않은 전쟁

2012년 레지던트이블5 - 최후의 심판

2017년 레지던트이블6 - 파멸의 날



복습을 하고 볼까 고민을 하다가 (사실 이전에 몇편까지 봤는지도 기억이 안나고 내용도 하나도 떠오르지 않더라구요. 그냥 단지 좀비랑 싸우던 영화지? 이런 느낌만 남아 있었어요.) 그냥 바로 영화관으로 직행했습니다.


제 점수는요? ㅎㅎ 꽤 높답니다^^


우선은 시간 가는 줄을 몰랐어요. 액션신이 화려하고 볼 거리가 많아서 지루할 틈이 별로 없더라구요.


그리고 누가 나쁜놈일까 제 나름대로 영화를 보는 동안 추리하는 재미도 있었어요.


액션영화답게 화려한 볼거리, 스피드한 액션, 총격씬, 바이크씬, 장갑차씬 등등등 종합선물셋트 느낌. 


상영시간 내내 꽉채운 액션이었어요. 특히 공성전할때 장난아니었어요.


아직 못 보신 분들은 한번쯤 보시길 추천드립니다. 킬링타임용으로 최고일 듯 하네요.


물론, 이번편을 끝으로 시리즈의 막은 내린 느낌입니다. 마무리도 괜찮았어요. 스포는 안할게요 ㅋ


스틸컷으로~ 마무리.(이준기도 나왔다는걸 리뷰 작성하면서 알았네요. 누군지 모르고 봤는데 액션씬 맘에 들었던 배우였습니다 ㅎㅎ)


영화 포스터


아래는 스틸컷~ 주르륵. 이준기도 있고 ㅋㅋ




이전 1 다음