- 博客(7)
- 收藏
- 关注
原创 线程小总结
python爬虫之线程用法线程是程序最小的执行单元一个进程可以有多个线程,但是只有一个主线程;线程切换分为两种:一种是I/O切换,一种是时间切换(I/O切换:一旦运行I/O任务时便进行线程切换,CPU开始执行其他线程;时间切换:一旦到了一定时间,线程也进行切换,CPU开始执行其他线程)。python通过标准库threading实现多线程的运行。程序的运行总要考虑并发,并行数。在多线程程序中...
2019-09-10 17:39:12
137
原创 pyquery解析器总结
python爬虫之pyquery解析器PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。1.安装pip3 install pyquery2.简单使用pyquery库的引用:(注意大...
2019-09-10 17:18:56
187
原创 Beautiful Soup总结
Python爬虫之Beautiful Soup的用法1.Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...
2019-09-10 17:00:13
340
原创 python数据抓取之xpath总结
python爬虫之xpath总结XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。安装pip3 install lxml使用 1、导入1from lxml import etree 2、基本使用fr...
2019-09-09 19:14:48
283
原创 数据抓取之requests总结
python 爬虫之requests总结Requests:让HTTP服务人类Requests唯一的一个非转基因的Python HTTP库,人类可以安全享用Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。requests的底层实现其实...
2019-09-09 19:06:34
395
原创 python数据抓取之正则总结
python爬虫之正则总结使用import rematch,正则中最基本的函数,用法:result = re.match(pattern, 需要区配的字符串)result.group()取出被区配到的部分演示语法的时候,基本会用match函数演示。match区配的过程是:从左到右区配,直到出现不满足规则的时候停止语法表示字符. 区配任意一个字符(除\n)[] 区配[]中列举的字...
2019-09-09 18:53:48
175
原创 urllib总结
urllib总结urllib模拟浏览器发送请求的库,Python自带Python2:urllib urllib2Python3:urllib.request urllib.parse1.urllib.request
2019-09-09 18:36:20
177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人