작년에 게임과 관련된 한국어 감성분석 사전을 만들어볼까 하는 생각에 Steam에 등록된 한국어 게임평들을 모두 긁어온 적이 있었는데요, 결론부터 밝히자면 그 수가 적어서 유의미한 분석을 할 수는 없었습니다.
그래서 당분간 묵혀두었는데, 기껏 짜놓은 코드 하드 속에서 용량만 차지하게 냅두느니, 먼지 털고 올려두면 누군가에게 도움이 될 수 있지 않을까 하는 생각에 공유하기로 마음 먹었습니다.
Python3 기반의 코드이고, 간단하므로 크게 설명할 건덕지는 없을듯합니다. BeautifulSoup 라이브러리가 필요합니다.
사실 크롤링이라는게 어려운 기법이 필요한것은 아니고 은근과 끈기를 얼마나 가지고 (서버의 감시를 피해서) 잘 긁어오느냐가 관건인건데, 스팀에서 전체 게임 목록을 따로 제공해주지 않길래 게임의 고유 ID를 1부터 십만까지 뒤지며 차례로 다 검사해봤습니다. 나중에 게임이 더 늘어나면 해당 조사 범위를 조절할 필요가 있겠죠?
[Python] TextRank 구현 코드 (55) | 2017.04.20 |
---|---|
[Python] 특정 분포가 멱법칙(Power-law Distribution)을 따르는지 확인하기 (0) | 2017.04.11 |
[Python] 네이버 영화 한줄평 크롤링 코드 (14) | 2017.03.17 |
[Python] 단어 간 상호정보량 계산 코드 (0) | 2017.02.14 |
CppCon 자료 링크 (0) | 2017.02.05 |
[C++] 한글 두벌식 자판에서의 편집거리 (2) | 2016.12.26 |
댓글 영역