Python网络爬虫基础及Requests库入门

最新推荐文章于 2023-06-23 21:31:31 发布

知行流浪

最新推荐文章于 2023-06-23 21:31:31 发布

阅读量1.3k

点赞数 3

分类专栏： Python Python数据分析文章标签： python 网络爬虫 http协议 requests库 response

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengxiantao1994/article/details/78231036

版权

Robots协议

网络爬虫的问题

在讲python网络爬虫之前，先来看看网络爬虫的一些问题以及robots协议。首先python爬虫功能主要使用的库有Requests库和Scrapy库。他们的区别如下：

正常情况下Web服务器默认接收人类访问，受限于编写水平和目的，网络爬虫将会带来一些问题：

1、性能骚扰：为Web服务器带来巨大的资源开销；

2、法律风险：服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险；

3、隐私泄露：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私。

网络爬虫的限制

1、来源审查：判断User‐Agent进行限制。检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问。

2、发布公告：Robots协议。告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots协议：Robots Exclusion Standard，网络爬虫排除标准。作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。形式：在网站根目录下的robots.txt文件。

例如下面一些真实的robots协议文件：

http://www.baidu.com/robots.txt

http://news.sina.com.cn/robots.txt

http://www.qq.com/robots.txt

http://www.moe.edu.cn/robots.txt (页面不存在，表示带网站没有robots协议，所以它对爬虫默认没有任何限制)。

我们访问http://www.jd.com/robots.txt，可以得到如下的内容:

User‐agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User‐agent: EtaoSpider

Disallow: /

User‐agent: HuihuiSpider

Disallow: /

User‐agent: GwdangSpider

Disallow: /

User‐agent: WochachaSpider

Disallow: /

Robots协议基本语法：

# 注释，*代表所有，/代表根目录

User‐agent: *

Disallow: /

那么在实际的应用中，我们该如何使用robots协议呢？网络爬虫首先应该自动或人工识别robots.txt，再进行内容爬取。需要注意的是：robots协议的约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但可能存在法律风险。下面的使用原则可以参考：

Http协议

我们要进行网络内容的获取，必须首先对HTTP协议有一个简单的了解。HTTP，Hypertext Transfer Protocol，超文本传输协议。HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识，URL格式如下：

http://host[:port][path]。

host: 合法的Internet主机域名或IP地址；

port: 端口号，缺省端口为80；

path: 请求资源的路径。

HTTP URL实例：

http://www.bit.edu.cn

http://220.181.111.188/duty

最低0.47元/天解锁文章

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Python网络爬虫基础及Requests库入门

Robots协议网络爬虫的问题在讲python网络爬虫之前，先来看看网络爬虫的一些问题以及robots协议。首先python爬虫功能主要使用的库有Requests库和Scrapy库。他们的区别如下：正常情况下Web服务器默认接收人类访问，受限于编写水平和目的，网络爬虫将会带来一些问题： 1、性能骚扰：为Web服务器带来巨大的资源开销
复制链接

扫一扫

专栏目录

知行流浪 CSDN认证博客专家 CSDN认证企业博客

码龄10年

194: 原创

2万+: 周排名

41万+: 总排名

349万+: 访问

: 等级

1万+: 积分

2554: 粉丝

3887: 获赞

400: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

贝叶斯估计详解
2301_82245486: 像这种我们写作业的大学生一般都不看直接叫爹，谢谢爸爸
Python绘图Turtle库详解
ksbhjb: 以下是一个使用Python的turtle库来绘制多彩雪花的示例程序。这个程序将会随机生成雪花的位置，并且为每一朵雪花填充不同的颜色。 ```python import turtle import random # 设置雪花参数 num_of_flakes = 5 # 绘制雪花的数量 min_size = 10 # 雪花最小的边长 max_size = 20 # 雪花最大的边长 colors = ["white", "lightblue", "pink", "yellow", "skyblue"] # 雪花的颜色 # 初始化turtle window = turtle.Screen() window.bgcolor("black") t = turtle.Turtle() t.speed(0) # 绘制雪花的函数 def draw_flake(): angle = random.randint(0, 119) t.penup() t.backward(random.randint(min_size, max_size * 1.5)) t.right(angle) t.pendown() size = random.randint(min_size, max_size) t.begin_fill(random.choice(colors)) t.circle(size / 2.0 - 1) # 绘制雪花的主体部分 t.left(120) t.forward(size * 0.7) t.right(120) t.circle(size / 2.0 - 1) t.left(120) t.forward(size * 0.7) t.right(120) t.end_fill() t.penup() t.home() t.pendown() # 绘制多朵雪花 for _ in range(num_of_flakes): t.color(random.choice(colors)) draw_flake() # 结束绘图 turtle.done() ``` 运行此代码后，将打开一个黑色背景的窗口，并在其中绘制出5朵（由`num_of_flakes`变量控制数量）随机位置和大小的雪花，每朵雪花填充有不同的颜色。你可以自由修改变量`num_of_flakes`、`min_size`、`max_size`和`colors`来改变雪花的数量、大小范围和颜色。请注意，这个程序使用了随机数来确定雪花的位置、大小和颜色，所以每次运行结果都会有所不同。
贝叶斯估计详解
signzero: 有帮助，谢谢博主
java.util.logging.Logger
ZHSHIRE: 请问这种日志怎么实现滚动呢?
Linux系统下如何显示隐藏文件
child_key: ll -s ，也可以查看查看当前路径所有文件（包含隐藏文件）

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。