[Python] 네이버 영화 한줄평 크롤링 코드

프로그래밍

by ∫2tdt=t²+c 2017. 3. 17. 01:03

스팀 게임평이 양이 적어서 감성사전을 구축하기 어렵다고 판단하여 네이버 영화 평점을 수집하는 일을 수행했었는데요, 이 역시 수집만 하고 다음 단계로 넘어가지 않았기에 방치해두기 아까운 코드, 공유해드립니다.

앞의 글과 마찬가지로 Python3로 작성되었으며, 실행을 위해서 BeautifulSoup 라이브러리가 필요합니다.

import urllib import urllib.request import urllib.parse import bs4 import re import os import time from concurrent.futures import ThreadPoolExecutor def deleteTag(x): return re.sub("<[^>]*>", "", x) def getComments(code): def makeArgs(code, page): params = { 'code': code, 'type': 'after', 'isActualPointWriteExecute': 'false', 'isMileageSubscriptionAlready': 'false', 'isMileageSubscriptionReject': 'false', 'page': page } return urllib.parse.urlencode(params) def innerHTML(s, sl=0): ret = '' for i in s.contents[sl:]: if i is str: ret += i.strip() else: ret += str(i) return ret def fText(s): if len(s): return innerHTML(s[0]).strip() return '' retList = [] colSet = set() print("Processing: %d" % code) page = 1 while 1: try: f = urllib.request.urlopen( "http://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?" + makeArgs(code, page)) data = f.read().decode('utf-8') except: break soup = bs4.BeautifulSoup(re.sub("&#(?![0-9])", "", data), "html.parser") cs = soup.select(".score_result li") if not len(cs): break for link in cs: try: url = link.select('.score_reple em a')[0].get('onclick') except: print(page) print(data) raise "" m = re.search('[0-9]+', url) if m: url = m.group(0) else: url = '' if url in colSet: return retList colSet.add(url) cat = fText(link.select('.star_score em')) cont = fText(link.select('.score_reple p')) cont = re.sub('<span [^>]+>.+?</span>', '', cont) retList.append((url, cat, cont)) page += 1 return retList def fetch(i): outname = 'comments/%d.txt' % i try: if os.stat(outname).st_size > 0: return except: None rs = getComments(i) if not len(rs): return f = open(outname, 'w', encoding='utf-8') f.write('INSERT IGNORE INTO movie VALUES ') for idx, r in enumerate(rs): if idx: f.write(',\n') f.write("(%d,%s,%s,'%s')" % (i, r[0], r[1], r[2].replace("'", "''").replace("\\", "\\\\"))) f.write(';\n') f.close() time.sleep(1) with ThreadPoolExecutor(max_workers=5) as executor: # 영화 고유 ID값의 범위를 몰라서 대략 아래처럼 잡았습니다. for i in range(10000, 200000): executor.submit(fetch, i)

실행하면 comments 폴더 안에 txt파일로 영화평들이 다운로드됩니다. comments 폴더를 미리 만들어두셔야 에러가 안 날거에요.

저작자표시 비영리 동일조건

'프로그래밍' 카테고리의 다른 글

영어 동사 원형 복원기(English Verb Lemmatizer) (0)	2017.09.26
[Python] TextRank 구현 코드 (55)	2017.04.20
[Python] 특정 분포가 멱법칙(Power-law Distribution)을 따르는지 확인하기 (0)	2017.04.11
[Python] Steam 게임평 크롤링 코드 (0)	2017.03.17
[Python] 단어 간 상호정보량 계산 코드 (0)	2017.02.14
CppCon 자료 링크 (0)	2017.02.05

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'프로그래밍' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바