나의 큰 O는 log x야

고정 헤더 영역

글 제목

메뉴 레이어

나의 큰 O는 log x야

메뉴 리스트

  • 홈
  • Tag
  • Guestbook
  • Admin
  • 분류 전체보기
    • 적분史
    • 프로그래밍
      • PG어
      • 테크닉
      • 3D
      • Multi precision
      • 포니게임개발
      • 스페샬
      • NLP
    • 소리
    • 언어
      • 어원 이야기
      • 라틴어
    • 수업노트
      • 한국고대경제와사회
      • 영어구조론
      • 정보검색론
      • 인간의삶과역사속의미생물
      • 기타
    • 잉여
      • 미래
      • 수학
      • 종교개혁
    • 그냥 공부
    • 가짜 정보 정정합니다.

검색 레이어

나의 큰 O는 log x야

검색 영역

컨텐츠 검색

텍스트 처리

  • [Python] 임의의 웹 페이지에서 텍스트를 추출하기

    2018.11.04 by ∫2tdt=t²+c

[Python] 임의의 웹 페이지에서 텍스트를 추출하기

텍스트 마이닝을 하는 데에 있어 텍스트 데이터를 수집하는것은 아주 중요합니다. 아무리 휘황찬란한 텍스트 분석 기술이 있어도 분석할 텍스트가 없다면 쓸모가 없으니깐요. 과거였다면 대량의 텍스트 데이터를 구하는게 어려운 작업이었겠지만, 현재는 다행히도 웹으로부터 (정제되지는 않았지만) 수많은 텍스트를 구할 수 있습니다. 웹 페이지에서 텍스트를 추출하는 작업은 의외로 간단합니다. 웹 페이지들은 HTML이라는 마크업 랭귀지로 구성되어 있고, 여기에서 필요한 텍스트만을 뽑아오는건 HTML 파서나 정규표현식 등을 이용해 쉽게 이뤄질 수 있기 때문입니다. 다만 문제는 우리가 보는 웹 페이지에는 실제 알맹이보다 다양한 껍데기들이 많다는 것입니다. 위 사진은 한 신문사의 기사 페이지입니다. 이 페이지의 알맹이는 기사 내..

프로그래밍 2018. 11. 4. 15:34

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

블로그 이미지

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

댓글

태그

라틴어 자연언어처리 pg어 포니게임 kiwi 악보 토픽 모델링 문헌정보통계 BigFloat NLP 우리역사바로알기대회 c++ python 한국고대경제와사회 Direct3D 텍스트 마이닝 정보조직론 리듬게임 php 영어구조론

방문자

오늘
어제
전체

페이징

이전
1
다음
나의 큰 O는 log x야
메일 bab2min@gmail.com
Skin Images are from Stinkehund.

티스토리툴바