结构化标记处理工具¶
Python 支持多种模块来处理各种形式的结构化数据标记。这包括处理标准通用标记语言 (SGML) 和超文本标记语言 (HTML) 的模块,以及几个用于处理可扩展标记语言 (XML) 的接口。
html
— 超文本标记语言支持html.parser
— 简单的 HTML 和 XHTML 解析器html.entities
— HTML 通用实体的定义- XML 处理模块
xml.etree.ElementTree
— ElementTree XML APIxml.dom
— 文档对象模型 APIxml.dom.minidom
— 最小 DOM 实现xml.dom.pulldom
— 支持构建部分 DOM 树xml.sax
— SAX2 解析器支持xml.sax.handler
— SAX 处理程序的基类ContentHandler
DTDHandler
EntityResolver
ErrorHandler
LexicalHandler
feature_namespaces
feature_namespace_prefixes
feature_string_interning
feature_validation
feature_external_ges
feature_external_pes
all_features
property_lexical_handler
property_declaration_handler
property_dom_node
property_xml_string
all_properties
- ContentHandler 对象
- DTDHandler 对象
- EntityResolver 对象
- ErrorHandler 对象
- LexicalHandler 对象
xml.sax.saxutils
— SAX 实用程序xml.sax.xmlreader
— XML 解析器的接口xml.parsers.expat
— 使用 Expat 的快速 XML 解析ExpatError
error
XMLParserType
ErrorString()
ParserCreate()
- XMLParser 对象
Parse()
ParseFile()
SetBase()
GetBase()
GetInputContext()
ExternalEntityParserCreate()
SetParamEntityParsing()
UseForeignDTD()
SetReparseDeferralEnabled()
GetReparseDeferralEnabled()
buffer_size
buffer_text
buffer_used
ordered_attributes
specified_attributes
ErrorByteIndex
ErrorCode
ErrorColumnNumber
ErrorLineNumber
CurrentByteIndex
CurrentColumnNumber
CurrentLineNumber
XmlDeclHandler()
StartDoctypeDeclHandler()
EndDoctypeDeclHandler()
ElementDeclHandler()
AttlistDeclHandler()
StartElementHandler()
EndElementHandler()
ProcessingInstructionHandler()
CharacterDataHandler()
UnparsedEntityDeclHandler()
EntityDeclHandler()
NotationDeclHandler()
StartNamespaceDeclHandler()
EndNamespaceDeclHandler()
CommentHandler()
StartCdataSectionHandler()
EndCdataSectionHandler()
DefaultHandler()
DefaultHandlerExpand()
NotStandaloneHandler()
ExternalEntityRefHandler()
- ExpatError 异常
- 示例
- 内容模型描述
- Expat 错误常量
codes
messages
XML_ERROR_ASYNC_ENTITY
XML_ERROR_ATTRIBUTE_EXTERNAL_ENTITY_REF
XML_ERROR_BAD_CHAR_REF
XML_ERROR_BINARY_ENTITY_REF
XML_ERROR_DUPLICATE_ATTRIBUTE
XML_ERROR_INCORRECT_ENCODING
XML_ERROR_无效的_TOKEN
XML_ERROR_文档元素后存在垃圾数据
XML_ERROR_XML处理指令位置错误
XML_ERROR_没有元素
XML_ERROR_内存不足
XML_ERROR_参数实体引用
XML_ERROR_不完整的字符
XML_ERROR_递归实体引用
XML_ERROR_语法错误
XML_ERROR_标签不匹配
XML_ERROR_未关闭的_TOKEN
XML_ERROR_未定义的实体
XML_ERROR_未知的编码
XML_ERROR_未关闭的_CDATA_节
XML_ERROR_外部实体处理错误
XML_ERROR_非独立
XML_ERROR_意外的状态
XML_ERROR_实体在参数实体中声明
XML_ERROR_该特性需要_XML_DTD
XML_ERROR_解析后无法更改特性
XML_ERROR_未绑定的前缀
XML_ERROR_取消声明前缀
XML_ERROR_不完整的参数实体
XML_ERROR_XML声明错误
XML_ERROR_文本声明错误
XML_ERROR_公共标识符错误
XML_ERROR_已暂停
XML_ERROR_未暂停
XML_ERROR_已中止
XML_ERROR_已完成
XML_ERROR_暂停参数实体
XML_ERROR_保留前缀_xml
XML_ERROR_保留前缀_xmlns
XML_ERROR_保留的命名空间_URI
XML_ERROR_无效的参数
XML_ERROR_没有缓冲区
XML_ERROR_放大限制违规