- 博客(7)
- 收藏
- 关注
原创 线程小总结
python爬虫之线程用法 线程是程序最小的执行单元 一个进程可以有多个线程,但是只有一个主线程;线程切换分为两种:一种是I/O切换,一种是时间切换(I/O切换:一旦运行I/O任务时便进行线程切换,CPU开始执行其他线程;时间切换:一旦到了一定时间,线程也进行切换,CPU开始执行其他线程)。 python通过标准库threading实现多线程的运行。 程序的运行总要考虑并发,并行数。在多线程程序中...
2019-09-10 17:39:12 128
原创 pyquery解析器总结
python爬虫之pyquery解析器 PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。 1.安装 pip3 install pyquery 2.简单使用 pyquery库的引用:(注意大...
2019-09-10 17:18:56 178
原创 Beautiful Soup总结
Python爬虫之Beautiful Soup的用法 1.Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...
2019-09-10 17:00:13 328
原创 python数据抓取之xpath总结
python爬虫之xpath总结 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 安装 pip3 install lxml 使用 1、导入1from lxml import etree 2、基本使用 fr...
2019-09-09 19:14:48 272
原创 数据抓取之requests总结
python 爬虫之requests总结 Requests:让HTTP服务人类 Requests唯一的一个非转基因的Python HTTP库,人类可以安全享用 Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。 requests的底层实现其实...
2019-09-09 19:06:34 385
原创 python数据抓取之正则总结
python爬虫之正则总结 使用 import re match,正则中最基本的函数,用法: result = re.match(pattern, 需要区配的字符串) result.group()取出被区配到的部分 演示语法的时候,基本会用match函数演示。match区配的过程是:从左到右区配,直到出现不满足规则的时候停止 语法 表示字符 . 区配任意一个字符(除\n) [] 区配[]中列举的字...
2019-09-09 18:53:48 165
原创 urllib总结
urllib总结 urllib 模拟浏览器发送请求的库,Python自带 Python2:urllib urllib2 Python3:urllib.request urllib.parse 1.urllib.request
2019-09-09 18:36:20 164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人