1.크롤링시작하기(Python 설치)2018. 7. 10. 14:00
크롤링 : 각종 데이터를 수집하는 작업.
Sqoop을 이용하여 DB에 저장된 데이터를 수집하거나
웹사이트 데이터를 통해 가져오는 크롤링 작업
웹사이트에서 데이터를 수집하기 위해 Open API를 사용하여 댓글 등 수집하려고 하는데
기본적으로 Python을 많이 사용하는 거 같아 설치를 시작한다.
시행착오 : Redhat6과 Windown7에 설치 시도.
Redhat6에 이미 설치된 Python2 버전에 3 버전 lib 사용하려고 하니
no module named request 에러 문구가 지속적으로 나왔다.
pip 이란 별도 패키지 설치 기능을 적용해야 했으나 설치해도 Python3 lib 패키지 사용으로 실패.
Window7에서 Python 설치했으나 api-ms-win-crt-runtime-1-1.0.ddl 못찾는 버그...
MS C+ 패키지? 를 설치하면 해결되는것 같았으나 문제가 지속적 발생.
Python 3.4 를 설치하였더니 에러가 발생하지 않았다. ( 설치중 Path 알아서 적용되고 Pip도 알아서 설치됨)
============wether.py=====================================
# -*- coding: utf-8 -*-
from urllib.request import urlopen, Request
import urllib
import bs4
location = '봉명동'
enc_location = urllib.parse.quote(location + '+날씨')
url = 'https://search.naver.com/search.naver?ie=utf8&query='+ enc_location
req = Request(url)
page = urlopen(req)
html = page.read()
soup = bs4.BeautifulSoup(html,'html5lib')
print('현재 ' + location + ' 날씨는 ' + soup.find('p', class_='info_temperature').find('span', class_='todaytemp').text + '도 입니다.')
============================================================
python wether.py
현재 봉명동 날씨는 27도 입니다.
제대로 된 크롤링은 아니지만 우선 웹페이지에서 데이터 가져오기 성공.
*설치참조 : http://ledgku.tistory.com/19
테스트참조 : ㅠㅠ 링크 잊어버림...
'Crawling(Python)' 카테고리의 다른 글
3)파이썬 문자 형태소 분석 (0) | 2018.07.10 |
---|---|
2)댓글 수집하기 (0) | 2018.07.10 |