[Scrapy] 스크래피 설치 및 셋팅(Windows 환경)
지난 포스트([Python] 파이썬 설치 및 셋팅 방법)에서 말씀드린 것처럼 파이썬(Python)으로
크롤링(Crawling)을 하기로 했습니다.
파이썬에는 크롤링을 지원하기 위한 대표적인 라이브러리 2가지가 있어서
무엇을 사용할까 고민했는데요. 최종 Scrapy를 사용하게 되었습니다.
비교한 대상은 Scrapy랑 Beautifulsoup 2가지였고, 가장 큰 특징은 다음과 같습니다.
- scrapy : 스크랩 과정(크롤링→데이터처리) 단순
- beautifulsoup : 파이썬3 호환, 마크업 언어 처리 강점, 한글 자료 좀더 많음
원래대로라면 당연히 한글 자료가 더 많은 beautifulsoup을 선택했어야 하나;;
간단하게 양쪽을 써본 결과 Scrapy가 제 취향에 맞네요
일단, 시작이 반이라고 Scrapy 설치 및 셋팅부터 해봅니다.
[설치 및 셋팅 과정 요약]
1. Scrapy 인스톨 가이드 참조 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy
2. 파이썬(Python) 설치 및 셋팅 : (이전글 참고) [Python] 파이썬 설치 및 셋팅 방법
3. pywin32 설치 : http://sourceforge.net/projects/pywin32/
4. lxml 설치 : http://lxml.de/installation.html#installation
5. pyOpenSSL 설치 : https://pypi.python.org/pypi/pyOpenSSL
6. Scrapy 설치 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy
[설치 및 셋팅 과정 상세]
1.Scrapy 인스톨 가이드 참조 : http://doc.scrapy.org/en/latest/intro/install.html#installing-scrapy
※ 예전에는 설치 방법이 복잡했습니다만 엄청 간단해졌네요. 현시점에서는 이 글만 보고 설치하셔도 되지만
시간이 흐른뒤에 보시는 분들은 버전업에 따라 변경된 부분이 없는지 한번 꼭 읽어 보세요
2. 파이썬(Python) 설치 및 셋팅 : (이전글 참조) http://uslifelog.tistory.com/26
※ 파이썬 2.7.10버전 부터는 PIP 패키지가 기본 내장되어 있습니다. 덕분에 각종 패키지를 편하게 설치할 수 있지만
환경 변수 셋팅이 필요하니 이전글에서 셋팅 방법 확인하세요.
3. pywin32 설치
3-1) 설치 파일 다운로드 : http://sourceforge.net/projects/pywin32/
Browse All Files 링크 클릭
pywin32 폴더 클릭
최근 build 버전 클릭(2015.11.13 기준 219버전)
OS 버전에 따라 32bit는 win32, 64bit는 amd64 중에서
Scrapy가 파이썬 2.x버전대에서 동작하므로 py2.7 다운로드
3-2) 설치 파일 실행
그냥 쭈욱 다음 다음 누르시다보면 끝.
4. lxml 설치
4-1) 설치 가이드 라인 참조 : http://lxml.de/installation.html#installation
4-1) PIP 패키지를 이용하여 설치
- command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터
- 설치 명령어 입력 : pip install lxml
5. pyOpenSSL 설치
5-1) 설치 파일 다운로드 : https://pypi.python.org/pypi/pyOpenSSL
pyOpenSSL-0.15.1-py2.py3-none-any.whl (md5, pgp)를 클릭해서 다운로드 받은 후 C드라이브로 복사(경로 : c:\)
5-2) PIP 패키지를 이용하여 설치
- command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터
- 설치 명령어 입력 : pip install pyOpenSSL-0.15.1-py2.py3-none-any.whl
6. Scrapy 설치
6-1) PIP 패키지를 이용하여 설치
- command 창 열기 : (단축키)윈도우키+R → cmd 입력 후 엔터
- 설치 명령어 입력 : pip install Scrapy
6-2) scrapy 명령어 입력하여 실행되는지 확인
예전에는 설치하는데만 한나절이 걸렸었는데, 계속 버전업이 되면서 편해졌네요
아직 수작업이 조금 들어가기는 하지만 Good!!!
■ 관련글 보기
▷ [Scrapy] 웹사이트 크롤링해서 파일 저장 하기(분양정보수집사례)
▷ [Scrapy] 웹사이트 크롤링해서 DB 저장 하기(분양정보수집사례)