블로그 이미지
잡다한 취미 생활 및 일상에 대한 소소한 이야기를 적어나가는 블로그입니다.
붉은kkk

공지사항

최근에 올라온 글

최근에 달린 댓글

글 보관함

calendar

1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

오랫만에 포스팅을 하네요.

 

이번엔 웹에서 파이썬 프로그램을 실행하는 방법을 알아보려고 합니다.

 

매번 생각만 하고 공부를 안했던 부분인데, 이제 필요가 있어서 공부를 시작했습니다. 

 

그게 뭐냐면, 파이썬으로 만든 프로그램 중 꽤나 재밌는 것들을 앱을 통해 활용할 수 있게 하는거에요.

 

앱 (요청) --> 웹 (파이썬 실행) --> 앱 (결과 리턴) 

이걸 만들고 싶습니다 ㅎㅎ

 

그럼 차근차근 쉬운것부터 시작하겠습니다.

 

1. 준비물

   웹에서 파이썬을 실행하기 위해 필요한 준비물은 Flask입니다.

   pip install flask로 설치를 해 주세요. (이외에 Django 등 여러가지가 있지만 전 Flask부터)



2. 기본 프로그램 작성

1: from flask import Flask
2: 
3: app = Flask(__name__)
4: 
5: @app.route('/')
6: def hello():
7:  return '<h1>Flask를 사용한 웹서버 만들기</h1>'

8: 
9: if __name__ == '__main__':
10:  app.run(debug=True)

 

 

3. 실행

예제 프로그램도 만들었으니 이제 실행을 해야겠죠?

...쉘에서 실행을 하면 에러가 납니다. 

이번에 만든 프로그램은 cmd창에서 실행을 해야 되요.

짠! 

cmd창에서는 위와 같이 실행이 됩니다.

 

살짝 지쳐 가는데, 이제 다 했습니다.

마지막 결과물 확인과정만 남았네요.

Running on http://127.0.0.1:5000/ 이부분을 웹브라우저에 입력해봅시다.

 

4. 결과물 확인

!!! 두둥 !!!

원하는 결과가 웹브라우저를 통해 보여지게 되었습니다.

 

이제 웹서버를 어떻게 만드는지 확인을 했으니, 다음번엔 응용을 들어가야겠네요.

 

다음 포스팅을 찾아오겠습니다.

 

즐거운 파이썬 생활 되세요^^ 

파이썬으로 할 수 있는 것 중 정말 강력한 기능을 찾았습니다.

 

무려 게임 매크로 만들기!!!

 

(게임 매크로 만들기를 통해 발생할 수 있는 문제는 충분히 고려하여 제작/사용 하기를 권해 드립니다.)

 

 

오늘은 게임 매크로를 만들기 위해 필요한 아주 기초적인 내용에 대해 다뤄보도록 할게요.

 

1. 준비물

   파이썬 매크로 제작을 위해 필요한 준비물은 pyautogui입니다.

   pip install pyautogui로 설치를 해 주세요.

 

2. 마우스 좌표 찾기 예제 소스

   마우스 좌표 찾기 예제입니다.

   와, 이거 사실 너무 쉽게...되네요. 

   더군다나 이 프로그램이 실행되고 있다는 걸 들키지도 않나봐요... 

 

   MousePosition.py

   1: import pyautogui as pag
   2: while True:
   3:   x, y = pag.position()
   4:   print('x좌표 : %s, y좌표 : %s' % (x , y))
    

3. 실행 화면

마우스를 움직여보면 좌표를 읽어서 알려줍니다.

 

다음은 특정 위치를 설정해서 자동적으로 움직이게 하고 마우스 클릭도 할 수 있게 만들어볼 예정입니다.

 

다음 포스팅 기대해주세요.

예전에 유행했던 적이 있는 유튜브 동영상 다운로더를 파이썬으로 만들어 보았습니다.



※ 주의

유튜브 다운로더는 엄연히 유튜브 약관 위반이므로 사용시 발생되는 모든 책임은 스스로 책임지셔야 함을 알려드립니다.


B. 콘텐츠는 있는 그대로 귀하에게 제공됩니다. 귀하는 본 서비스의 제공된 기능을 통하여 의도한 대로, 그리고 본 약관에 의해 허용된 대로 참고 목적 또는 개인적인 목적에 한하여 콘텐츠에 접속할 수 있습니다. 귀하는 해당 콘텐츠에 대하여 본 서비스에서 YouTube가 표시한 “다운로드” 또는 그와 유사한 링크를 발견하지 않는 한 콘텐츠를 다운로드 하면 안 됩니다. 귀하는 YouTube 또는 각 콘텐츠의 라이센서의 사전 서면 동의 없이는 어떠한 목적으로도 콘텐츠를 복사, 복제(reproduce), 온라인으로 제공하거나 전자적인 방법으로 전송하거나, 발표, 각색, 배포, 전송, 방송, 전시(display), 판매, 라이센스 허여하거나 달리 이용하지 않아야 합니다. YouTube와 라이센서들은 본 서비스 및 콘텐츠에서 명시적으로 허여되지 않은 모든 권리를 보유합니다.



준비물

1. pytube

   : 유튜브 영상을 다운로드 받을 수 있게 해주는 라이브러리입니다.

     https://python-pytube.readthedocs.io/en/latest/ 


라이브러리 다운로드를 먼저 해 주세요.


>>> pip install pytube

끝입니다.


실행은 스스로 해보세요^^ 

- HTML to PDF -


웹에 있는 HTML을 PDF로 변환해야될 일이 생겨서 파이썬으로 구현해보았습니다.


PDF관련 라이브러리들이 동작안되는 것들이 꽤 있어서 현시점 기준 작동하는 라이브러리로 설명 드리겠습니다.


필요한 준비물

1. PDFkit (https://pypi.org/project/pdfkit/)

2. WKHTMLTOPDF (https://wkhtmltopdf.org/downloads.html)


PDFkit은 pip으로 install 해 줍니다.

 

 pip install PDFkit



WKHTMLTOPDF는 다운로드 페이지에서 사용하고 있는 OS에 맞는 버전을 선택하여 설치해 주시면 됩니다.




[예제 Sample]

import pdfkit

pdfkit.from_url('http://google.com', 'out.pdf')
pdfkit.from_file('test.html', 'out.pdf')
pdfkit.from_string('hello!', 'out.pdf)



...


분명 에제를 따라 했는데...

안되더군요. 에러가 딱!!!


...


네, 처음 보이던 샘플코드로 끝이 아니었습니다. 조금 더 설정해 줘야될 부분이 남아있었습니다.





같이 기재해두면 되지, 이렇게 띄엄띄엄 분리를 해놔서 잠시 헤맸네요.


...블라블라... path설정을 해줘라! 라는 내용이네요.

다시 적용해서 예제 코드를 변경하면



[예제 Sample]

import pdfkit config = pdfkit.configuration(wkhtmltopdf='C:/Program Files/wkhtmltopdf/bin/wkhtmltopdf.exe')
pdfkit.from_url('http://google.com', 'out.pdf', configuration=config)


잘 됩니다!!! 



휴~ HTML to PDF도 이제 완료!


고민하는 만큼 늘어나는 코딩실력, 프로그래밍이 점점 재밌어 지고 있습니다.

ㅎㅎ 즐거운 파이썬 되세요^^








파이썬 에디트 도구로 파이참이 유명하다고 하네요.



다운로드는 아래 사이트에서 하시면 되요.


http://www.jetbrains.com/pycharm/


음... 전 여기까지만, 실제 사용은 하지 않을 예정입니다.

무료 제품이 아닌 관계로 에디터로 많이 사용하는 제품이다라는 정보만 제공드리고 이만 다음 포스팅으로 찾아 올게요.


네이버 실시간 검색어 웹크롤링도 배웠으니 계속 응용을 해봐야겠죠?


이번엔 네이버 영화 리뷰를 크롤링 해 보겠습니다.


시작전 주의 사항 먼저~


주의 : 허락되지 않은 사이트의 크롤링은 법적으로 문제가 될 수 있습니다. 

제 블로그는 파이썬으로 어떻게 크롤링을 할 수 있는지에 대해서만 알려주고 있으며, 

크롤링으로 인해 법적 문제 발생시 법적 책임은 지지 않음을 알려 드립니다.



1. 크롤링할 페이지 HTML 구조 분석

     -  https://movie.naver.com/movie/running/current.nhn 

        현재 상영작 중 하나를 골라서 분석을 해 보겠습니다.

        웹페이지에 접근 후 F12를 눌러서 Data 구조를 분석 해 봅니다.

[현재 상영작 페이지]


[아쿠아맨 리뷰페이지]

- 분석을 했더니, 아래와 같은 구조를 찾았습니다.

  <ul class="rvw_list_area">

    <li> ... 

 


2. 크롤링 코드 작성

- 바로 코드를 보여드릴게요.

1: import urllib.request

2: from bs4 import BeautifulSoup

3: print("영화 리뷰를 가져올 페이지를 입력하세요.")
4: MovieName = input()

5: MoviePage = int(input('리뷰 페이지수를 입력하세요:'))

6: MoviePage = MoviePage + 1      

7: # ??? 리뷰 페이지수를 입력하면 1페이지 적게 출력되서 추가된 코드, 왜 그런지 모르겠네요.

8: print("리뷰내용은 MovieReview.txt로 저장됩니다.")

9: 
10: fileOut = open('MovieReview.txt', 'w', encoding='utf-8')

11:
12: def main():
13:    for pageidx in range(1, MoviePage):
14:     url = "%s&page=%d" % (MovieName, pageidx)
15:     soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")

16:     ul = soup.find("ul",class_="rvw_list_area")
17:     for i in ul.find_all("li"):
18:         print(i.strong.get_text(), file=fileOut)
19:         

20: if __name__ == "__main__":    #프로그램의 시작점일 때만 아래 코드 실행
21:    main()

22:    
23: fileOut.close()


- 리뷰 페이지와 크롤링할 페이지 수를 입력하면, 그 뒤엔 파일로 만들어지는 구조에요. (제목만 가져옵니다)

  이 후의 응용은 추가적으로 해 보시면 될 것 같네요.


취미로 시작한 프로그래밍인데 점점 할 수 있는게 많아지고 하고 싶은 것도 많아지고 재밌어 지네요.

이론적인 부분의 공부도 필요한데, 이 부분은 시간을 들여서 천천히 하나하나 내공을 다져봐야겠어요.

(책에 나와있는 이론들은 사실 재미없습니다. 구글링으로 프로그래밍이 되니까요... 그래도 나중을 위해서 천천히...)


다음엔 더 신박한 주제로 포스팅 할게요. 다들 즐거운 프로그래밍 생활 되세요. 





이번엔 네이버 실시간 검색어를 가져오는 프로그램을 만들어 볼 거에요.


실시간 검색어를 주기적으로 알 수 있다면, 


현재 인기있는 것이 무엇인지 어떤 분야가 뜨고 있는지 등을 쉽게 알 수 있게 될 테고


그런것들은 구상하고 있는 사업 아이템에 도움이 될 거에요. 


(글을 쓰는데도 많은 영감을 얻을 수 있을 거 같습니다.)



그럼 파이썬으로 코딩을 해볼까요?


주의 : 허락되지 않은 사이트의 크롤링은 법적으로 문제가 될 수 있습니다. 

         제 블로그는 파이썬으로 어떻게 크롤링을 할 수 있는지에 대해서만 알려주고 있지만, 크롤링으로 인한 법적 문제 발생시 법적 책임은 지지 않음을 알려 드립니다.


준비물 (라이브러리)

   - BeautifulSoup



1. 네이버 실시간 검색어 Data 분석

    - 실시간 검색어 검색 시 HTML 코드가 어떻게 되어 있는지 분석을 해봐야 됩니다.

       그래야 어느 부분에서 Data를 가져와야 되는지 알 수가 있거든요.




        1~20위까지의 급상승 검색어에 대한 내용을 가져올건데 마우스 우측 버튼을 눌러 소스코드 보기 or 

        크롬에서 F12로(개발자도구) 소스를 분석해야됩니다.


        소스 분석을 해 보면 <div class="ah_roll_area PM_CL_realtimeKeyword_rolling"> 밑 부분에 

        급상승 검색어가 나와있는게 보이네요. (힌트는 찾았으니 이부분을 토대로 긁어보겠습니다.)




2. 네이버 실시간 검색어 검색 프로그램 만들기

 - 뉴스토픽 부분 연예, 스포츠 부분의 실시간 검색어를 크롤링 하는 프로그램을 만들게요.

1: #-*- coding : utf-8

2: import requests
3: from bs4 import BeautifulSoup

4: #Text를 html에 저장합니다.
5: html = requests.get("http://www.naver.com").text

6: #BeautifulSoup을 이용해 html을 read합니다.
7: soup = BeautifulSoup(html, 'html.parser')

8: #가져오고 싶은 Text 부분을 선택해서 가져옵니다.
9: #실시간 검색어는 이 부분에 있기 때문에 가져온 Data를 for문으로 출력 해 줍니다.
10: keywords = soup.select('.ah_roll_area .ah_k')

11: for i, keyword in enumerate(keywords, 1):
12:      print("{}위 {}".format(i,keyword.get_text()))



완성입니다. 동작이 잘되네요 ^^, 이렇게 하나하나 오늘도 파이썬을 공부해 나가고 있습니다.

다음엔 UI도 입혀보고 해야겠네요. 

이론적인 부분도 더 파고들어서 깔끔하게 정리해서 설명드릴 수 있도록 공부해봐야겠습니다.


다음 포스팅으로 찾아올게요.



오늘은 뉴스기사를 크롤링하는 웹크롤러를 만들어 보겠습니다.


^^ 뉴스기사를 모아서 보면, 많은 양의 정보를 한번에 간편하게 볼 수 있을거 같네요.



아래 Source는 RunningWater님 블로그를 통해 배운 내용입니다.

(제 편의에 의해 Source의 일부만 변형되었습니다.

Source에 대한 상세 내용은 아래 RunningWater님 블로그를 참조해주세요.) 

출처 : https://justmakeyourself.tistory.com/entry/newsscraping-by-python-2




[Source code]

1: import requests
2: from bs4 import BeautifulSoup

3: 

4:  # 기사의 링크들이 담기는 리스트입니다.
5: rsss = []

6: # 파일은 아래 폴더에 저장됩니다.

7: fileOut = open('RssfileOut.txt','w', encoding='utf-8')

8: # rss와 기사에서 특정 부분을 크롤링하는 함수입니다.

9: def crawler(url, parser, css_selector):
10:    r = requests.get(url)
11:    soup = BeautifulSoup(r.content, parser)
12:    datas = soup.select(css_selector)

13:    if parser == 'lxml':
14:        print(datas[0].text, file=fileOut)
15:    else:
16:        for data in datas:
17:            rsss.append(data.text)

18: # 실행코드
19: print("크롤링을 시작합니다.")

20: crawler('http://file.mk.co.kr/news/rss/rss_50300009.xml','xml','item link')

21: print("rss 추출이 완료되었습니다.")

22: for link in rsss:
23:    try:
24:        crawler(link, 'lxml', '#article_body')
25:        print("="*20)
26:    except Exception as e:
27:        print(e)
28:        print('진행중이에요...')
29:        continue

30: print("크롤링을 종료합니다.")
31: fileOut.close()
       
저는 RSS뉴스 중 매일경제 신문의 부동산 섹션을 가져오는 프로그램을 작성해 보았어요.

7번행에 있는 코드는 가져온 기사를 파일로 저장해주는 코드이고

20번행에 있는 코드의 URL을 변경하면 본인이 원하는 RSS뉴스를 가져올 수 있습니다.


→ 프로그램 실행모습이에요, 크롤링 될 때 "=*20개"가 출력되면서 하나하나 크롤링 되는 거랍니다. 

    종료되면 크롤링을 종료합니다라는 내용이 출력되고 완료되요.

    결과는 직접 확인해보세요^^ 



그리고 가장 중요한 뉴스 기사의 무단전재 및 재배포는 금지입니다.

꼭 명심하세요.



하나하나 생각하고 있는 것들은 구현하다 보니 점점 파이썬이 재밌어지네요. 

다음에도 더 재미난 주제로 찾아올게요. 




이전 1 2 3 4 5 6 다음