自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 线程小总结

python爬虫之线程用法 线程是程序最小的执行单元 一个进程可以有多个线程,但是只有一个主线程;线程切换分为两种:一种是I/O切换,一种是时间切换(I/O切换:一旦运行I/O任务时便进行线程切换,CPU开始执行其他线程;时间切换:一旦到了一定时间,线程也进行切换,CPU开始执行其他线程)。 python通过标准库threading实现多线程的运行。 程序的运行总要考虑并发,并行数。在多线程程序中...

2019-09-10 17:39:12 117

原创 pyquery解析器总结

python爬虫之pyquery解析器 PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。 1.安装 pip3 install pyquery 2.简单使用 pyquery库的引用:(注意大...

2019-09-10 17:18:56 172

原创 Beautiful Soup总结

Python爬虫之Beautiful Soup的用法 1.Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...

2019-09-10 17:00:13 319

原创 python数据抓取之xpath总结

python爬虫之xpath总结 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 安装 pip3 install lxml 使用   1、导入1from lxml import etree   2、基本使用 fr...

2019-09-09 19:14:48 257

原创 数据抓取之requests总结

python 爬虫之requests总结 Requests:让HTTP服务人类 Requests唯一的一个非转基因的Python HTTP库,人类可以安全享用 Requests继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的URL和POST数据自动编码。 requests的底层实现其实...

2019-09-09 19:06:34 376

原创 python数据抓取之正则总结

python爬虫之正则总结 使用 import re match,正则中最基本的函数,用法: result = re.match(pattern, 需要区配的字符串) result.group()取出被区配到的部分 演示语法的时候,基本会用match函数演示。match区配的过程是:从左到右区配,直到出现不满足规则的时候停止 语法 表示字符 . 区配任意一个字符(除\n) [] 区配[]中列举的字...

2019-09-09 18:53:48 151

原创 urllib总结

urllib总结 urllib 模拟浏览器发送请求的库,Python自带 Python2:urllib urllib2 Python3:urllib.request urllib.parse 1.urllib.request

2019-09-09 18:36:20 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除