自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 线程小总结

python爬虫之线程用法线程是程序最小的执行单元一个进程可以有多个线程,但是只有一个主线程;线程切换分为两种:一种是I/O切换,一种是时间切换(I/O切换:一旦运行I/O任务时便进行线程切换,CPU开始执行其他线程;时间切换:一旦到了一定时间,线程也进行切换,CPU开始执行其他线程)。python通过标准库threading实现多线程的运行。程序的运行总要考虑并发,并行数。在多线程程序中...

2019-09-10 17:39:12 91

原创 pyquery解析器总结

python爬虫之pyquery解析器PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。1.安装pip3 install pyquery2.简单使用pyquery库的引用:(注意大...

2019-09-10 17:18:56 151

原创 Beautiful Soup总结

Python爬虫之Beautiful Soup的用法1.Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...

2019-09-10 17:00:13 279

原创 python数据抓取之xpath总结

python爬虫之xpath总结XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。安装pip3 install lxml使用  1、导入1from lxml import etree  2、基本使用fr...

2019-09-09 19:14:48 219

原创 数据抓取之requests总结

python 爬虫之requests总结Requests:让HTTP服务人类Requests唯一的一个非转基因的Python HTTP库,人类可以安全享用Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。requests的底层实现其实...

2019-09-09 19:06:34 343

原创 python数据抓取之正则总结

python爬虫之正则总结使用import rematch,正则中最基本的函数,用法:result = re.match(pattern, 需要区配的字符串)result.group()取出被区配到的部分演示语法的时候,基本会用match函数演示。match区配的过程是:从左到右区配,直到出现不满足规则的时候停止语法表示字符. 区配任意一个字符(除\n)[] 区配[]中列举的字...

2019-09-09 18:53:48 125

原创 urllib总结

urllib总结urllib模拟浏览器发送请求的库,Python自带Python2:urllib urllib2Python3:urllib.request urllib.parse1.urllib.request

2019-09-09 18:36:20 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除