※ 주의 : 불법적인 크롤링에 대한 책임은 전적으로 본인에게 있습니다. 해당 포스팅 공유에 문제가 있다면 연락 부탁드립니다. 지난글([Scrapy] 웹사이트 크롤링해서 파일 저장 하기(분양정보수집사례))에서 크롤링 결과를파일로 저장하는 방법을 소개해 드렸습니다. 파일로 남길 경우 I/F 등 송수신에는 유리 할 수 있으나, 데이터 분석 혹은 주기적 크롤링이필요할 경우에는 DB에 저장해서 관리하는 것이 데이터를 다루기에 훨씬 수월합니다.그래서 이번에는 크롤링 결과를 DB에 저장하는 방법을 소개해 드릴 예정입니다. 작업에 들어가기 전에 DB가 설치되어 있어야 하는데요. 해당 포스트에서는 비상업적/개인적 사용용도로 사용할 수 있는 MYSQL을 이용하도록 하겠습니다.설치 방법은 지난글([DB] 윈도우7에 mysq..
파이썬에서 문자열 입출력을 처리하다 보면 가끔 에러가 발생할 때가 있습니다. 작성된 코드나 문자열에 특이점이 없다고 생각되면 문자열 중간에 라틴어라던지 프랑스어 등 성조표기가 된 것이 없는지 봐야 합니다. 저는 파일에서 문자열을 불러들일 때 Café 라는 단어가 포함되어 있는 줄 모르고 도대체 왜 UnicodeEncodeError가 발생하는 건지 멘붕에 빠진적이 있었네요. "McCafé is a coffee-house-style food and drink chain"이라는 문자열을 출력하는 코드를 비교해 보겠습니다. # -*- coding: utf-8 -*- text = u"McCafé is a coffee-house-style food and drink chain, owned by McDonald's"..
※ 주의 : 불법적인 크롤링에 대한 책임은 전적으로 본인에게 있습니다. 해당 포스팅 공유에 문제가 있다면 연락 부탁드립니다. 지난글([Scrapy] 스크래피 설치 및 셋팅(Windows 환경))에서 크롤링을 하기 위한 준비 작업을 모두 마쳤습니다. 이번 포스팅은 웹사이트 정보를 가져와서 필요한 부분만 추출하고 원하는 형식으로 가공하여 파일에 저장하는 방법에 대한 글입니다. 파이썬 언어에 대한 기초적인 이해가 필요하긴 하지만 타프로그래밍 언어를 어느 정도 사용하실 줄 아신다면 느낌적인 느낌(?)으로 동작 원리 및 절차를 이해하실 수 있으실 겁니다 코드별 설명은 주석으로 달아놓았으므로 참고하시기 바라며, 추가적인 함수나 설명은 Scrapy 공식문서(영문)를 참고 부탁 드립니다. 그럼 시작해 보겠습니다. [작..
지난 포스트([Python] 파이썬 설치 및 셋팅 방법)에서 말씀드린 것처럼 파이썬(Python)으로 크롤링(Crawling)을 하기로 했습니다. 파이썬에는 크롤링을 지원하기 위한 대표적인 라이브러리 2가지가 있어서 무엇을 사용할까 고민했는데요. 최종 Scrapy를 사용하게 되었습니다. 비교한 대상은 Scrapy랑 Beautifulsoup 2가지였고, 가장 큰 특징은 다음과 같습니다. scrapy : 스크랩 과정(크롤링→데이터처리) 단순 beautifulsoup : 파이썬3 호환, 마크업 언어 처리 강점, 한글 자료 좀더 많음 원래대로라면 당연히 한글 자료가 더 많은 beautifulsoup을 선택했어야 하나;; 간단하게 양쪽을 써본 결과 Scrapy가 제 취향에 맞네요 일단, 시작이 반이라고 Scrap..
웹 사이트 정보를 추출(크롤링)하기 위해 어떤 언어를 사용할까 고민했는데요. 개인용도로 사용하기 위한 것인 만큼 빠른 생산성을 자랑하는 파이썬(Python)을 선택했습니다. 파이썬의 장점은 짧은 코딩(?)과 배우기 쉽다(?)는 점이죠 구글에서 많이 사용하는 것 때문에 유명하기도 하구요. 이전 포스팅에서 언급한 것 처럼 팀뷰어(Teamviewer) 아이디가 도용되어서 피씨를 포맷하는 바람에 파이썬(Python)을 다시 설치하게 되었습니다ㅜ 현재 최신 버전은 3.5.0이지만, 제가 사용하고 있는 3'rd Party 제품들이 아직 2.x 버전에서만 돌아가는 것들이 많아서 저는 2.7.10 버전을 설치하였습니다. 설치에 어려움을 겪으시는 분들은 없으시겠지만, 혹시나 하는 마음에 설치 절차 및 셋팅 방법을 한땀 ..