옆집오빠 :: [10. 웹크롤링] 네이버 실시간 검색어 가져오기

잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.

붉은kkk

태그목록

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

링크

calendar

이전 다음 2025.5

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

티스토리 가입하기 RSS FEED

[10. 웹크롤링] 네이버 실시간 검색어 가져오기 - 1

2018. 12. 23. 15:23 | Posted by 붉은kkk

이번엔 네이버 실시간 검색어를 가져오는 프로그램을 만들어 볼 거에요.

실시간 검색어를 주기적으로 알 수 있다면,

현재 인기있는 것이 무엇인지 어떤 분야가 뜨고 있는지 등을 쉽게 알 수 있게 될 테고

그런것들은 구상하고 있는 사업 아이템에 도움이 될 거에요.

(글을 쓰는데도 많은 영감을 얻을 수 있을 거 같습니다.)

그럼 파이썬으로 코딩을 해볼까요?

주의 : 허락되지 않은 사이트의 크롤링은 법적으로 문제가 될 수 있습니다.

제 블로그는 파이썬으로 어떻게 크롤링을 할 수 있는지에 대해서만 알려주고 있지만, 크롤링으로 인한 법적 문제 발생시 법적 책임은 지지 않음을 알려 드립니다.

● 준비물 (라이브러리)

- BeautifulSoup

1. 네이버 실시간 검색어 Data 분석

- 실시간 검색어 검색 시 HTML 코드가 어떻게 되어 있는지 분석을 해봐야 됩니다.

그래야 어느 부분에서 Data를 가져와야 되는지 알 수가 있거든요.

1~20위까지의 급상승 검색어에 대한 내용을 가져올건데 마우스 우측 버튼을 눌러 소스코드 보기 or

크롬에서 F12로(개발자도구) 소스를 분석해야됩니다.

소스 분석을 해 보면 <div class="ah_roll_area PM_CL_realtimeKeyword_rolling"> 밑 부분에

급상승 검색어가 나와있는게 보이네요. (힌트는 찾았으니 이부분을 토대로 긁어보겠습니다.)

2. 네이버 실시간 검색어 검색 프로그램 만들기

- 뉴스토픽 부분 연예, 스포츠 부분의 실시간 검색어를 크롤링 하는 프로그램을 만들게요.

1: #-*- coding : utf-8

2: import requests
3: from bs4 import BeautifulSoup

4: #Text를 html에 저장합니다.
5: html = requests.get("http://www.naver.com").text

6: #BeautifulSoup을 이용해 html을 read합니다.
7: soup = BeautifulSoup(html, 'html.parser')

8: #가져오고 싶은 Text 부분을 선택해서 가져옵니다.
9: #실시간 검색어는 이 부분에 있기 때문에 가져온 Data를 for문으로 출력 해 줍니다.
10: keywords = soup.select('.ah_roll_area .ah_k')

11: for i, keyword in enumerate(keywords, 1):
12: print("{}위 {}".format(i,keyword.get_text()))

완성입니다. 동작이 잘되네요 ^^, 이렇게 하나하나 오늘도 파이썬을 공부해 나가고 있습니다.

다음엔 UI도 입혀보고 해야겠네요.

이론적인 부분도 더 파고들어서 깔끔하게 정리해서 설명드릴 수 있도록 공부해봐야겠습니다.

다음 포스팅으로 찾아올게요.

'프로그래밍 > 파이썬' 카테고리의 다른 글

[12. 파이썬 에디트 도구] 파이참 사용하기 (2)	2019.01.01
[11. 웹크롤링] 네이버 영화 리뷰 크롤링 (0)	2018.12.25
[9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기 - 2 (0)	2018.12.22
[9. 웹크롤러 만들기 2탄] BeautifulSoup 사용하기 - 1 (0)	2018.12.19
[8. 파이썬으로 PDF파일 읽어오기] PDF파일에서 텍스트 내용 파싱 (1)	2018.12.16

옆집오빠