![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
zz60708320
这个作者很懒,什么都没留下…
展开
-
爬虫基本原理
爬虫基本原理爬虫:请求网站并提取数据的自动化程序请求提取自动化爬虫基本流程1、发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息的,等待服务器响应2、如果服务器能正常响应,会得到一个Response,Response的内容便是所要获得的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型3、解析内容...原创 2018-12-28 22:24:12 · 169 阅读 · 0 评论 -
正则表达式(re模块)
正则表达式是一个特殊的字符序列,可以用于检测一个字符串是否与我们所设定的字符串相匹配。re库1、findall(pattern,string,flags):用来匹配正则表达式pattern:正则表达式string:要进行匹配的字符串flags:匹配的模式结果为一个所匹配内容的列表语法规则:’ \d ':标识匹配单个0-9的数字’ \D ':与 \d 相反,匹配数字以外的内容如果...原创 2018-12-24 22:53:57 · 265 阅读 · 0 评论 -
Urllib库学习笔记
Urllib库详解Python内置的HTTP请求库urllib.request:请求模块urllib.error:异常处理模块urllib.parse:url解析模块urllib.robotparser:robot.txt解析模块内置函数请求1、发送请求urlopen(url,data=None,[timeout,]*)注意:data类型需为bytes类型响应2、获取响应...原创 2019-01-12 16:47:02 · 143 阅读 · 0 评论