10/27python学习

第13、14章没学
1、屏幕抓取是通过程序下载网页并从中提取信息的过程。从概念上讲,这项技术需要下载数据并对其进行分析。例如,可使用urllib来获取网页的HTML代码,再使用正则表达式或其他技术从中提取信息
2、Tidy是用于对格式不正确且不严谨的HTML进行修复的工具。
有多个用于python的Tidy库包装器,可从Tidy网站(http://html-tidy.org)获取可执行的二进制版本。有了二进制版本后,可使用模块subprocess来运行Tidy程序
3、在XHTML中,必须先(使用标签

)显式地结束当前段落,它是一种XML方言,可使用各种出色的工具来处理。
要对Tidy生成的格式良好的XHTML进行解析,可使用标准库模块html.parser中的HTMLParser类。
使用HTMLParser意味着继承它,并重写各种事件处理方法。
就屏幕抓取而言,通常无需实现所有的解析器回调方法,也可能无需创建整个文档的抽象表示就能找到所需的内容,只需跟踪找到目标内容所需的信息就可以了。
4、使用模块HTMLParser的屏幕抓取程序
在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值