优秀的HTML分析器

谁能推荐一个好的HTML/XHTML解析器,类似于
HTMLParser.HTMLParser或htmllib.HTMLParser,但能够智能
是否知道某些标记(如
)是隐式闭合的?我需要
遍历整个DOM,构建一个DOM路径,但stdlib
解析器不会为任何隐式关闭的标记调用handdendtag().
我查看了BeautifulSoup,但它似乎只能通过首先解析才能工作
整个文档,然后允许您查询该文档
之后.我需要像SAX解析器这样的东西.

# 回答1


克里斯写道:
这不可能.您自己的任意可关闭标记的示例需要
仅使用类似SAX的解析器无法提供的上下文.
我建议你使用BeautifulSoup,如果你必须创建自己的
围绕您可以吸引消费者的事件生成.
迪兹
# 回答2


克里斯写道:
试试lxml.html.它对内存非常友好,而且速度非常快,所以你可能会最终
没有任何理由再使用萨克斯了.Http://codespeak.net/lxml/
斯特凡

标签: python

添加新评论