비투즈의 노트르담

크롤링 : 각종 데이터를 수집하는 작업.

Sqoop을 이용하여 DB에 저장된 데이터를 수집하거나

웹사이트 데이터를 통해 가져오는 크롤링 작업

 웹사이트에서 데이터를 수집하기 위해 Open API를 사용하여 댓글 등 수집하려고 하는데

기본적으로 Python을 많이 사용하는 거 같아 설치를 시작한다.

 

시행착오 : Redhat6과 Windown7에 설치 시도.

               Redhat6에 이미 설치된 Python2 버전에 3 버전 lib 사용하려고 하니

 no module named request 에러 문구가 지속적으로 나왔다.

pip 이란 별도 패키지 설치 기능을 적용해야 했으나 설치해도 Python3 lib 패키지 사용으로 실패.

Window7에서 Python 설치했으나 api-ms-win-crt-runtime-1-1.0.ddl 못찾는 버그...

MS C+ 패키지? 를 설치하면 해결되는것 같았으나 문제가 지속적 발생.

 

Python 3.4 를 설치하였더니 에러가 발생하지 않았다. ( 설치중 Path 알아서 적용되고 Pip도 알아서 설치됨)

 ============wether.py=====================================

# -*- coding: utf-8 -*-
from urllib.request import urlopen, Request
import urllib
import bs4

location = '봉명동'
enc_location = urllib.parse.quote(location + '+날씨')

url = 'https://search.naver.com/search.naver?ie=utf8&query='+ enc_location

req = Request(url)
page = urlopen(req)
html = page.read()
soup = bs4.BeautifulSoup(html,'html5lib')
print('현재 ' + location + ' 날씨는 ' + soup.find('p', class_='info_temperature').find('span', class_='todaytemp').text + '도 입니다.')
============================================================

python wether.py

현재 봉명동 날씨는 27도 입니다.

 

제대로 된 크롤링은 아니지만 우선 웹페이지에서 데이터 가져오기 성공.

 

 

 

*설치참조 : http://ledgku.tistory.com/19

 테스트참조 :  ㅠㅠ 링크 잊어버림...

'Crawling(Python)' 카테고리의 다른 글

3)파이썬 문자 형태소 분석  (0) 2018.07.10
2)댓글 수집하기  (0) 2018.07.10