상세 컨텐츠

본문 제목

[텍스트정보처리론] 3. XML

수업노트

by ∫2tdt=t²+c 2016. 4. 17. 22:57

본문

XML

XML Extensible Markup Language: 사람과 기계가 모두 읽을 수 있는 확장가능한 텍스트 기반 데이터 구조 표현 방식

SGML에서 유래하여 1998 W3C 표준으로 채택됨.

시스템 간 정보를 교환하는데 굉장히 유용하게 사용됨

HTML 역시 SGML에서 유래했기에 둘이 유사한 점이 많음


목적특징
HTML웹 페이지 기술문법 오류에 어느 정도 관대함
XML데이터 기술엄격한 문법


XML의 구성요소

Element: <el attr='v'>value</el>

Tag<el attr='v'>value</el>

Attribute: <el attr='v'>value</el>

Entity: <el attr='v'> &amp; &quot; &apos; &gt; &lt; </el>

Data(value): <el attr='v'>value</el>


합법적 XML

  • 시작 태그과 종료 태그가 반드시 존재해야함.
  • 요소 이름은 xml로 시작할 수 없음
  • 최상위 요소는 1개여야함.
  • 부모-자식 관계가 적절해야함. 예) <b><i>some</b></i> (비문법적)
  • 모든 Attribute 값은 따옴표로 둘러쌓여있어야함


DTD: XML에서 사용될 요소들을 정의하는 파일


XML 파싱 모델

방법장점단점사용대상
Simple API for XML순차적으로 문서를 읽어나가며 처리빠르고 적은 메모리 소모. 큰 문서도 처리 가능순차접근만 가능하고, 전체적인 관점에서 문서 접근 불가큰 XML Data
Document Object Model문서 전체를 메모리에 읽어들인 후 처리임의접근 가능, 트리 순회가 가능하고, 전체적인 관점에서 문서를 살펴볼 수 있음상대적으로 느리고 많은 메모리 소모.대게 웹 페이지


관련글 더보기

댓글 영역