Python爬虫第一周---CSDNTop博客的抓取

我和我的口袋裙

于 2019-09-05 17:04:44 发布

阅读量146

点赞数

文章标签： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45522366/article/details/100561058

版权

本次作业运用Python的urllib、re和lxml库，实现了CSDNTop博客的抓取。通过设置随机User-Agent和IP代理避免被屏蔽，利用XPath解析网页内容，并通过冒泡排序按阅读量对博客进行排序。在实践中加深了对Python模块和函数调用的理解，体验到爬虫的魅力，计划未来尝试编写12306抢票脚本。

摘要由CSDN通过智能技术生成

作业:
通过本周学习的内容, 使用urllib,re,lxml模块编写爬虫文件抓取CSDNTop博客的抓取.
注意事项:
1.文件命名规范.
2.注释清晰.
3.运行结果符合预期效果 .
思路提示:
1.ip代理的使用.
2.User-Agent伪装header,
3.urllib发送浏览器请求.
4.xpath解析方式.
5.文件的读写方式.
6.冒泡排序对阅读量进行排序.
作业内容:
1.User-Agent
在这里插入图片描述
注:
1.构建了pc端和移动端的User-Agent数据集,类型是列表格式.
2.引用Python的random模块,定义2种User-Agent数据集的随机选择方法,每次调用随机选择一个User-Agent.
2.IP代理

注:
1.通过range构建快代理网页的url,使用xpath获取免费代理IP,存储到定义好的data中.
2.getIP方法,是随机选取一个ip返回.

3.爬虫主文件
1.导入的包
在这里插入图片描述
2.定义的方法

在这里插入图片描述

4.调用

代码运行结果:

在这里插入图片描述
本周心得:

1.巩固了之前基础部分的知识,对函数的调用和Python模块包的自定义有了更加深刻的了解和认识.
2.体会到了爬虫的神奇和强大,期待在学习完成后可以自己写一个12306抢火车票的脚本!!!

我和我的口袋裙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫第一周---CSDNTop博客的抓取

作业:通过本周学习的内容, 使用urllib,re,lxml模块编写爬虫文件抓取CSDNTop博客的抓取.注意事项:1.文件命名规范.2.注释清晰.3.运行结果符合预期效果 .思路提示:1.ip代理的使用.2.User-Agent伪装header,3.urllib发送浏览器请求.4.xpath解析方式.5.文件的读写方式.6.冒泡排序对阅读量进行排序.作业内容:1.Us...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。