파이썬에서 문자열 입출력을 처리하다 보면 가끔 에러가 발생할 때가 있습니다. 작성된 코드나 문자열에 특이점이 없다고 생각되면 문자열 중간에 라틴어라던지 프랑스어 등 성조표기가 된 것이 없는지 봐야 합니다. 저는 파일에서 문자열을 불러들일 때 Café 라는 단어가 포함되어 있는 줄 모르고 도대체 왜 UnicodeEncodeError가 발생하는 건지 멘붕에 빠진적이 있었네요. "McCafé is a coffee-house-style food and drink chain"이라는 문자열을 출력하는 코드를 비교해 보겠습니다. # -*- coding: utf-8 -*- text = u"McCafé is a coffee-house-style food and drink chain, owned by McDonald's"..
※ 주의 : 불법적인 크롤링에 대한 책임은 전적으로 본인에게 있습니다. 해당 포스팅 공유에 문제가 있다면 연락 부탁드립니다. 지난글([Scrapy] 스크래피 설치 및 셋팅(Windows 환경))에서 크롤링을 하기 위한 준비 작업을 모두 마쳤습니다. 이번 포스팅은 웹사이트 정보를 가져와서 필요한 부분만 추출하고 원하는 형식으로 가공하여 파일에 저장하는 방법에 대한 글입니다. 파이썬 언어에 대한 기초적인 이해가 필요하긴 하지만 타프로그래밍 언어를 어느 정도 사용하실 줄 아신다면 느낌적인 느낌(?)으로 동작 원리 및 절차를 이해하실 수 있으실 겁니다 코드별 설명은 주석으로 달아놓았으므로 참고하시기 바라며, 추가적인 함수나 설명은 Scrapy 공식문서(영문)를 참고 부탁 드립니다. 그럼 시작해 보겠습니다. [작..
웹사이트나 블로그를 다니다 보면 아래처럼 깔끔하게 소스코드가 표시되는 것을 보신적이 있으실 겁니다. 보통 코드 하이라이터라고 불리우는데요. 소스코드를 블로그 편집기에 그대로 붙여 넣으시면 태그 인식등으로 인해 제대로 표시되지 않을 뿐만 아니라, 들여쓰기 및 예약어 등이 구별되지 않아 가독성이 떨어지게 됩니다. 소스코드 하이라이팅을 지원 하기 위해서 여러가지 플러그인들이 존재하는데요. 개인적으로는 가볍고 사용방법이 편리한 SyntaxHighlighter을 선호합니다. 이번에 블로그를 신규 개설하다보니 다시 설치해야 하는 상황이 되어서 겸사겸사 적용방법을 포스팅하게되었습니다. 설치 과정은 단순합니다. 바쁘신 분들은 아래 설치 과정 요약만 보셔도 될거에요 :) 설치 과정 요약 1.설치 파일 다운로드 : htt..