python网络爬虫的学习

最新推荐文章于 2023-07-20 15:25:31 发布

晴泪

最新推荐文章于 2023-07-20 15:25:31 发布

阅读量277

点赞数

分类专栏： python网络爬虫文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xxt201/article/details/123170140

版权

python网络爬虫专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在上一篇博客我已经将python高级摘要的笔记分享完毕了，从这一篇博客开始写python网络爬虫的笔记。

我将网络爬虫的学习路线绘制了一个思维导图，在我后面的笔记也会按照这个思维导图进行分享。

模块的安装

pip install 模块名

requests

requests是在urlLib包基础上再次进行封装的，是python最常见的爬虫模块，用来进行网页请求，有三种常用的解析方式：

正则：过滤字符串
xpath ：解析网页节点
parsel ：用来解析网页以供css使用

第四种bs4是不常用的，因为它很久之前就已经停止更新了，跟不上时代的步伐，现在是还可以用，但是不推荐使用，因为解析方式熟练操作一种就可以了。我比较喜欢用parsel，它是用css选择器进行过滤的，之前学过前端就相当于已经掌握这种解析方式了。

反反爬

反反爬他是一个网络爬虫中的行业术语。简单来说，在网络爬虫中有三种专业技术：

爬虫：抓取网页数据
反爬虫：防止爬虫抓取网页数据
反反爬：破解反爬虫，让爬虫能够抓取到数据

在网页中的数据很多都是希望大众能够访问到的，但是不希望竞争对手利用这些数据来超过自己。

爬虫小故事

在电商行业中，甲、乙两家店铺卖着相同的产品，甲的产品卖的十分的火热，而乙的产品卖不出去，于是乙利用爬虫技术爬取甲的产品数据进行分析，分析得出结论，甲的产品卖的比乙的产品价格低，并且部分资金用到了广告上面，其他方面都是大同小异。后面乙对分析得出的结果进行总结，将价格调到比甲低了一点，也是将部分资金用到了广告宣传上面。不久后乙的销量慢慢的的超过了甲，做到了薄利多销，使得乙卖产品一本万利。在这之后甲发现自家产品访问量很高，但购买量十分的少，后来了解到甲的产品访问量高是因为爬虫的原因。于是甲采取了反爬措施，网页上设置了访问频率，正常人是达不到这个速度的，如果达到了那说明是爬虫，并对其设置了禁止访问。甲又用了一个更加好的营销方案吸引用户，使得买乙的产品用户流失。乙对其爬取数据，发现爬取不到了，于是进行伪造真实的用户进行反反爬，让反爬虫发现不了这是爬虫。在乙得到甲的产品数据之后进行模仿并且超越，又赶上了甲产品的销量。甲又对爬虫设置拦截……

从此反爬虫与反反爬虫的斗争就开始了。

反反爬是爬虫的精髓，也是爬虫中的难点，如今互联网行业已经发展成熟，反爬虫的技术也是层出不穷。反反爬有伪造请求头、ip代理、伪造cookio、js逆向等等。

selenium

selenium模块是一个控制浏览器自动操作的模块。它可以模仿用户的操作，用来绕过反爬虫来进行爬取数据

script

script是一个python主流的爬虫框架，让其可以多线程对数据的爬取，完善的框架可以让python爬虫效率进一步的提升。

在过5个月左右就出去工作了，希望能在出去工作前敲到一万行代码，这是每个积极学生的目标，毕业后尽量找个大厂上班，拿到上万的工资，坚持下去，加油！

打卡第57天，对python大数据感兴趣的朋友欢迎一起讨论、交流，请多指教！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

晴泪 CSDN认证博客专家 CSDN认证企业博客

码龄4年

77: 原创

30万+: 周排名

144万+: 总排名

27万+: 访问

: 等级

1150: 积分

184: 粉丝

60: 获赞

14: 评论

404: 收藏

私信

关注

热门文章

分类专栏

最新评论

用python将数据写入excel
晴泪: 批量写入套个for循环就可以了
用python将数据写入excel
晴泪: import xlwt book = xlwt.Workbook(encoding='utf-8', style_compression=0) # 创建excel文件 sheet = book.add_sheet('班级信息', cell_overwrite_ok=True) # 创建sheet col = ('姓名', '性别', '年龄', '班级') # 列名 for i in range(len(col)): sheet.write(0, i, col[i]) # 写入列名 datalist = ['jack', 'men', '16', '20601'] # 需要保存的数据 datalist2 = ['jack2', 'men2', '162', '206012'] datalist3 = [datalist,datalist2] # print(datalist3) count = 0 for t in datalist3: count += 1 for i in range(len(t)): sheet.write(count, i, t[i]) # 写入数据 savepath = './classInfo.xls' book.save(savepath) # 保存r
用python将数据写入excel
晴泪: 你仔细检查一下，你应该是代码敲错了
用python将数据写入excel
晴泪: 你应该没有注意count，在没有批量写入的情况下他就是一个变量1，第一列插入的列名下标为0，而这个数据开始插入的下标为1，替换不了下标为0的列名
python多线程的使用
晴泪: 错了第二个实例只用了20秒，这个实例分为了两个线程，一个10秒，一个20秒，因为同时执行的所以等到20秒的这个结束时程序就结束了，所以这个程序用的时间是20秒

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。