비투즈의 노트르담

Crawling(Python) (3)

  1. 2018.07.10 3)파이썬 문자 형태소 분석

    인터넷들 예제를 무더기로 보고 따라하다 보니 아래 블로거의 예제를 애용하게 되었다. https://blog.naver.com/imsam77/221258133789 --임샘의 세상에 휘둘리지 않는 힘 (이분은 또 Lifebloom(www.lifebloom.biz) 를 참조하는듯 하다. IT 전문이신 줄 알았는데 분야별 구분하여 스스로를 발전시키시는 것 같아 본받을점이 있는 듯 하다. 우선 예제들 중에 많이 참조할 듯 하여 #태그 예제를 따라하려고 했으나 Try setting up the JAVA_HOME environment variable proprerly 발생 python 만 필요한 줄 알았는데 JAVA도 필요 한 듯 하다. 이유를 찾아보니 파이썬용 한글자연어처리 모듈(KoNLPY, korean nat..

  2. 2018.07.10 2)댓글 수집하기

    ==================recent.py===================== # 1. 웹크롤링에 필요한 2가지 모듈 호출 from urllib.request import urlopen # 특정 웹서버에 접근 from bs4 import BeautifulSoup # 웹페이지 내용구조 해석 ### I. 1쪽 리뷰만 긁고 출력하기 # 2. 다음 영화소개홈페이지 중 1번째 고객리뷰에접속 url='http://movie.daum.net/moviedb/grade?movieId=97728&type=netizen&page=1' webpage=urlopen(url) # 3. 댓글 페이지 html 구조 긁어오기 source = BeautifulSoup(webpage,'html.parser',from_encodi..

  3. 2018.07.10 1.크롤링시작하기(Python 설치)

    크롤링 : 각종 데이터를 수집하는 작업. Sqoop을 이용하여 DB에 저장된 데이터를 수집하거나 웹사이트 데이터를 통해 가져오는 크롤링 작업 웹사이트에서 데이터를 수집하기 위해 Open API를 사용하여 댓글 등 수집하려고 하는데 기본적으로 Python을 많이 사용하는 거 같아 설치를 시작한다. 시행착오 : Redhat6과 Windown7에 설치 시도. Redhat6에 이미 설치된 Python2 버전에 3 버전 lib 사용하려고 하니 no module named request 에러 문구가 지속적으로 나왔다. pip 이란 별도 패키지 설치 기능을 적용해야 했으나 설치해도 Python3 lib 패키지 사용으로 실패. Window7에서 Python 설치했으나 api-ms-win-crt-runtime-1-1.0..

1