※ 주의 : 불법적인 크롤링에 대한 책임은 전적으로 본인에게 있습니다. 해당 포스팅 공유에 문제가 있다면 연락 부탁드립니다. 지난글([Scrapy] 스크래피 설치 및 셋팅(Windows 환경))에서 크롤링을 하기 위한 준비 작업을 모두 마쳤습니다. 이번 포스팅은 웹사이트 정보를 가져와서 필요한 부분만 추출하고 원하는 형식으로 가공하여 파일에 저장하는 방법에 대한 글입니다. 파이썬 언어에 대한 기초적인 이해가 필요하긴 하지만 타프로그래밍 언어를 어느 정도 사용하실 줄 아신다면 느낌적인 느낌(?)으로 동작 원리 및 절차를 이해하실 수 있으실 겁니다 코드별 설명은 주석으로 달아놓았으므로 참고하시기 바라며, 추가적인 함수나 설명은 Scrapy 공식문서(영문)를 참고 부탁 드립니다. 그럼 시작해 보겠습니다. [작..
지난 포스트([Python] 파이썬 설치 및 셋팅 방법)에서 말씀드린 것처럼 파이썬(Python)으로 크롤링(Crawling)을 하기로 했습니다. 파이썬에는 크롤링을 지원하기 위한 대표적인 라이브러리 2가지가 있어서 무엇을 사용할까 고민했는데요. 최종 Scrapy를 사용하게 되었습니다. 비교한 대상은 Scrapy랑 Beautifulsoup 2가지였고, 가장 큰 특징은 다음과 같습니다. scrapy : 스크랩 과정(크롤링→데이터처리) 단순 beautifulsoup : 파이썬3 호환, 마크업 언어 처리 강점, 한글 자료 좀더 많음 원래대로라면 당연히 한글 자료가 더 많은 beautifulsoup을 선택했어야 하나;; 간단하게 양쪽을 써본 결과 Scrapy가 제 취향에 맞네요 일단, 시작이 반이라고 Scrap..