![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
码农一号已就位
一个平平无奇的网络系大学生
展开
-
网络分析法(2)-->> 正则表达式(3)对python的支持 findall(),split(),sub()精讲
文章目录re.findall()split()sub()可参考:网络分析法 (2)-- >>正则表达式(1)概念,匹配字符集,零宽断言网络分析法(2)–>> 正则表达式(2)对python的支持 match(),search()函数精讲re.findall()re.findall(patern,string,flags=0)搜索整个字符串,以列表形式返回所有匹配结果import repattern = re.compile(r'\d+')string = 'my iphone is 14原创 2020-08-25 01:57:11 · 3559 阅读 · 0 评论 -
网络分析法(2)-->> 正则表达式(2)对python的支持 match(),search()函数精讲
文章目录正则表达式对python的支持match()函数可参考网络分析法 (2)-- >>正则表达式(1)极其详尽版正则表达式对python的支持python中使用正则表达式使用re模块普通字符 字⺟、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候,只匹配与⾃身相同的⼀个字符。例如:表达式c,在匹配字符串abcde时,匹配结果是:成功;匹配到的内容 是c;匹配到的位置开始于2,结束于3。(注:下标从0开始还是从1开始,因当前编程语⾔的不同⽽可能原创 2020-08-23 02:40:18 · 4873 阅读 · 0 评论 -
网络分析法 (2)-- >>正则表达式(1)概念,匹配字符集,零宽断言
文章目录简介概念正则表达式的应⽤场景提取指定字符预定义字符集数量限定分支匹配分组零宽断言贪婪模式与非贪婪模式简介正则表达式并不是python独有的,它就是一种表达式,适用于多种语言,但是我们目前博客以学python爬虫,所以从python爬虫角度分析及使用概念正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。字符串是编程时涉及到的原创 2020-08-22 02:37:12 · 5184 阅读 · 0 评论 -
python爬虫之session实例精讲
session :通过在服务端记录的信息确定⽤户身份这⾥这个session就是⼀个指 的是会话会话对象是一种高级的用法,可以跨请求保持某些参数,比如在同一个Session实例之间保存Cookie,像浏览器一样,我们并不需要每次请求Cookie,Session会自动在后续的请求中添加获取的Cookie,这种处理方式在同一站点连续请求中特别方便...原创 2020-08-21 02:35:14 · 7585 阅读 · 1 评论 -
python 爬虫之requests模块设置代理
文章目录为什么设置代理?设置代理常用获取代理IP地址测试IP地址可用性为什么设置代理?我们都知道上网连接到互联网时会有一个【ip】地址。而网站都有请求的临界点,当我们对一个网站发起多次请求时,网站发现请求次数超过了临界点,就会自动屏蔽掉我们的【ip】,这时就再也无法访问此网站了。这就是基础的一种反爬技术对于这种情况,解决方案也其实很简单:只需在请求时通过设置代理【ip】的方式,就可以解决啦。在【requests】请求时,可以非常便捷的替换发给服务端的【ip】地址,这样网站面对多个不同的【ip】地原创 2020-08-19 23:51:39 · 7178 阅读 · 0 评论 -
程序猿必备知识-->>json格式 python版使用讲解
文章目录json的诞生什么是json?JSON格式JOSN的6种数据类型使用实例:json的诞生JSON的诞生原因是因为XML整合到HTML中各个浏览器实现的细节不尽相同,所以道格拉斯·克罗克福特(Douglas Crockford) 和 奇普·莫宁斯达(Chip Morningstar)一起从JS的数据类型中提取了一个子集,作为新的数据交换格式,因为主流的浏览器使用了通用的JavaScript引擎组件,所以在解析这种新数据格式时就不存在兼容性问题,于是他们将这种数据格式命名为 “JavaScript原创 2020-08-16 02:01:05 · 6138 阅读 · 0 评论 -
python爬虫之使用urllib模块实现有道翻译功能
目标:用python的urllib库实现有道翻译导入需要的库,设置交互进行交互import urllib.requestimport urllib.parseimport json# 请输入你要翻译的内容key = input('请输入您要翻译的内容:')分析网页,由于网页为动态网页所以从Network中寻找,找出结果如下:于是确定好data# 把提交的form表单的数据转换为bytes类型的数据data = { 'i': key, 'from': 'AUTO原创 2020-08-16 01:38:29 · 6849 阅读 · 0 评论 -
python 爬虫请求模块requests
文章目录requestsrequests安装requests库的基本使用响应对象response的⽅法状态码请求⽅式GET请求POST请求请求头requests设置代理cookiesession处理不信任的SSL证书requests相比urllib,第三方库requests更加简单人性化,是爬虫工作中常用的库requests安装初级爬虫的开始主要是使用requests模块安装requests模块:Windows系统:cmd中:pip install requestsmac系统中:终端中原创 2020-08-14 15:43:01 · 7549 阅读 · 0 评论 -
python爬虫精讲之请求模块urllib
文章目录Urllib版本常⽤的⽅法响应对象使用方法urllib.parse模块常⽤⽅法实例对比:用python爬虫一般使用的是requests模块,但是requests并不是一开始就存在并使用的,requests是第三方模块,而urllib是内置模块,python自带的模块而是发展过来的,而requests的出现使用前用的是urllib.request模块UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处原创 2020-08-14 00:44:15 · 6999 阅读 · 0 评论 -
python爬虫之初识网页,网页分析法(1),对网页了如指掌的话还怕找不到需要的数据吗?
文章目录HTMLHTML的组成标签网页头&网页体基本标签页:开发者工具工具栏,抓包工具==Elements====Console====Network==HeadersGeneralResponse HeadersRequest HeadersPreviewResponseTiming==Sources==MemoryPerformanceApplicationAuditHTML【HTML】被称为超文本标记语言,是一种标识性的语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分原创 2020-08-13 13:25:46 · 7706 阅读 · 0 评论 -
python之初级爬虫---->爬虫的开始
文章目录前言:浏览器????1、用户界面(User Interface)????2、浏览器引擎(Browser Engine)????3、渲染引擎(Rendering Engine)????4、网络(Networking)????5、JavaScript解释器(JavaScript Interpreter)????6、XML解析器(XML Parser)????7、显示后端(Display Backend)????8、数据持久层(Data Persistence)爬虫四部曲:requestsGETPOSTU原创 2020-08-13 01:26:01 · 6977 阅读 · 0 评论 -
初识爬虫,爬虫原理?爬虫是什么?为什么爬虫用python比较流行?
文章目录什么是爬虫?为什么需要爬虫?企业获取数据的⽅式?为什么选择python爬虫原理爬虫分类通⽤⽹络爬⾍聚焦⽹络爬⾍增量式⽹络爬⾍深层⽹络爬⾍:robots协议什么是爬虫?简单⼀句话就是代替⼈去模拟浏览器进⾏⽹⻚操作爬虫 (又叫蜘蛛、网络机器人),是一种按照一定规则,自动地抓取网络信息的程序或者脚本,它另外还有一些不常使用的名字:蚂蚁、自动索引、模拟程序、蠕虫。爬虫」(又叫蜘蛛、网络机器人),是一种按照一定规则,自动地抓取网络信息的程序或者脚本,它另外还有一些不常使用的名字:蚂蚁原创 2020-08-12 16:16:24 · 1967 阅读 · 0 评论