起点中文网越来越火爆了，我利用Python直接把整站数据采集完毕

最新推荐文章于 2022-02-24 13:49:10 发布

管彤python

最新推荐文章于 2022-02-24 13:49:10 发布

阅读量668

点赞数

分类专栏：爬虫自动化 python 文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65789665/article/details/122198372

版权

本文介绍了Python爬虫的相关知识，包括常用的网络库、requests库的特性和安装，以及爬虫的基本流程。重点讲解了如何利用requests库爬取起点中文网的数据，分为分析网页结构、获取文章和章节信息、保存为TXT文件三个步骤。

摘要由CSDN通过智能技术生成

主要讲解爬虫相关的知识如：http、网页、爬虫法律等，让大家对爬虫有了一个比较完善的了解和一些题外的知识点。

起点中文网越来越火爆了，我利用Python直接把整站数据采集完毕

今天这篇文章，我们从今天开始就正式进入实战阶段，后面将会有更多的实际案例。

为大家讲解了HTTP原理，很多人好奇：好好的讲爬虫和HTTP有什么关系？其实我们常说的爬虫（也叫网络爬虫）就是使用一些网络协议发起的网络请求，而目前使用最多的网络协议便是HTTP/S网络协议簇。

一、Python有哪些网络库

在真实浏览网页我们是通过鼠标点击网页然后由浏览器帮我们发起网络请求，那在Python中我们又如何发起网络请求的呢？答案当然是库，具体哪些库？猪哥给大家列一下：

Python2: httplib、httplib2、urllib、urllib2、urllib3、requests
Python3: httplib2、urllib、urllib3、requests

Python网络请求库有点多，而且还看见网上还都有用过的，那他们之间有何关系？又该如何选择？

httplib/2：这是一个Python内置http库，但是它是偏于底层的库，一般不直接用。而httplib2是一个基于httplib的第三方库，比httplib实现更完整，支持缓存、压缩等功能。一般这两个库都用不到，如果需要自己封装网络请求可能会需要用到。
urllib/urllib2/urllib3：urlliib是一个基于httplib的上层库，而urllib2和urllib3都是第三方库，urllib2相对于urllib增加一些高级功能，如：HTTP身份验证或Cookie等，在Python3中将urllib2合并到了urllib中。urllib3提供线程安全连接池和文件post等支持，与urllib及urllib2的关系不大。
requests：requests库是一个基于urllib/3的第三方网络库，它的特点是功能强大，API优雅。由上图我们可以看到，对于http客户端python官方文档也推荐我们使用request

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。