第13、14章没学
1、屏幕抓取是通过程序下载网页并从中提取信息的过程。从概念上讲,这项技术需要下载数据并对其进行分析。例如,可使用urllib来获取网页的HTML代码,再使用正则表达式或其他技术从中提取信息
2、Tidy是用于对格式不正确且不严谨的HTML进行修复的工具。
有多个用于python的Tidy库包装器,可从Tidy网站(http://html-tidy.org)获取可执行的二进制版本。有了二进制版本后,可使用模块subprocess来运行Tidy程序
3、在XHTML中,必须先(使用标签
要对Tidy生成的格式良好的XHTML进行解析,可使用标准库模块html.parser中的HTMLParser类。
使用HTMLParser意味着继承它,并重写各种事件处理方法。
就屏幕抓取而言,通常无需实现所有的解析器回调方法,也可能无需创建整个文档的抽象表示就能找到所需的内容,只需跟踪找到目标内容所需的信息就可以了。
4、使用模块HTMLParser的屏幕抓取程序