티스토리 뷰

      




지난 포스트([Python] 파이썬 설치 및 셋팅 방법)에서 말씀드린 것처럼 파이썬(Python)으로 

크롤링(Crawling)을 하기로 했습니다.

파이썬에는 크롤링을 지원하기 위한 대표적인 라이브러리 2가지가 있어서 

무엇을 사용할까 고민했는데요. 최종 Scrapy를 사용하게 되었습니다.

비교한 대상은 Scrapy랑 Beautifulsoup 2가지였고, 가장 큰 특징은 다음과 같습니다. 


    • scrapy : 스크랩 과정(크롤링→데이터처리) 단순 
    • beautifulsoup : 파이썬3 호환, 마크업 언어 처리 강점, 한글 자료 좀더 많음 


원래대로라면 당연히 한글 자료가 더 많은 beautifulsoup을 선택했어야 하나;;

간단하게 양쪽을 써본 결과 Scrapy가 제 취향에 맞네요

일단, 시작이 반이라고 Scrapy 설치 및 셋팅부터 해봅니다.



[설치 및 셋팅 과정 요약]

   1. Scrapy 인스톨 가이드 참조 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy

   2. 파이썬(Python) 설치 및 셋팅 (이전글 참고)  [Python] 파이썬 설치 및 셋팅 방법

   3. pywin32 설치 : http://sourceforge.net/projects/pywin32/    

   4. lxml 설치 : http://lxml.de/installation.html#installation

   5. pyOpenSSL 설치 : https://pypi.python.org/pypi/pyOpenSSL

   6. Scrapy 설치 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy





[설치 및 셋팅 과정 상세]


1.Scrapy 인스톨 가이드 참조 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy

  ※ 예전에는 설치 방법이 복잡했습니다만 엄청 간단해졌네요. 현시점에서는 이 글만 보고 설치하셔도 되지만 

      시간이 흐른뒤에 보시는 분들은 버전업에 따라 변경된 부분이 없는지 한번 꼭 읽어 보세요



2. 파이썬(Python) 설치 및 셋팅 : (이전글 참조) http://uslifelog.tistory.com/26

   ※ 파이썬 2.7.10버전 부터는 PIP 패키지가 기본 내장되어 있습니다. 덕분에 각종 패키지를 편하게 설치할 수 있지만

      환경 변수 셋팅이 필요하니 이전글에서 셋팅 방법 확인하세요. 



3. pywin32 설치 

    3-1) 설치 파일 다운로드 : http://sourceforge.net/projects/pywin32/

Browse All Files 링크 클릭



pywin32 폴더 클릭


최근 build 버전 클릭(2015.11.13 기준 219버전)


OS 버전에 따라 32bit는 win32, 64bit는 amd64 중에서

Scrapy가 파이썬 2.x버전대에서 동작하므로 py2.7 다운로드


    3-2) 설치 파일 실행 



그냥 쭈욱 다음 다음 누르시다보면 끝.



4. lxml 설치 

    4-1) 설치 가이드 라인 참조 : http://lxml.de/installation.html#installation


    4-1) PIP 패키지를 이용하여 설치 

        - command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터

        - 설치 명령어 입력 : pip install lxml




5. pyOpenSSL 설치 

    5-1) 설치 파일 다운로드 : https://pypi.python.org/pypi/pyOpenSSL

pyOpenSSL-0.15.1-py2.py3-none-any.whl (md5, pgp)를 클릭해서 다운로드 받은 후 C드라이브로 복사(경로 : c:\)


    5-2) PIP 패키지를 이용하여 설치 

        - command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터

        - 설치 명령어 입력 : pip install pyOpenSSL-0.15.1-py2.py3-none-any.whl




6. Scrapy 설치

    6-1) PIP 패키지를 이용하여 설치 

        - command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터

        - 설치 명령어 입력 : pip install Scrapy


    6-2) scrapy 명령어 입력하여 실행되는지 확인




예전에는 설치하는데만 한나절이 걸렸었는데, 계속 버전업이 되면서 편해졌네요


아직 수작업이 조금 들어가기는 하지만 Good!!!


 







홍보배너링크
댓글
최근에 올라온 글
최근에 달린 댓글