爬虫基础简介

那一抹阳光~

已于 2022-05-10 18:55:05 修改

阅读量283

点赞数 2

分类专栏： python爬虫文章标签：爬虫

于 2022-05-10 18:51:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59459336/article/details/124694159

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是爬虫：网络爬虫是一种按照一定的规则自动地抓取网络信息的程序和脚本，

就是根据一定的算法实现编程开发，主要通过URL实现数据的抓取和发掘。

（通过编写程序，模拟浏览器上网，让后让其去互联网上抓取数据的过程）

URL：在浏览器的地址栏输入的网站地址叫作URL（统一资源定位符）。

爬虫类型：

-- 网络爬虫

-- 聚焦网络爬虫

-- 增量式网络爬虫

-- 深层网络爬虫。

爬虫的合法性：在法律中不被禁止；

爬虫技术本身无罪，问题往往出现在人的无限的欲望上。因此爬虫开发者和企业经营者的道德良知才是避免触碰法律底线的根本所在。

爬虫所带来的的违法风险体现如下：

-- 利用爬虫技术与黑客技术相结合，攻击网站后台，从而窃取后台数据。

-- 利用爬虫恶意攻击网站，造成网站系统的瘫痪。

如何在使用编写的过程中避免进入局子的厄运：

-- 时常的优化自己的程序，避免干扰被访问的网站的正常运行。

-- 在使用，传播爬取到的数据时，审查抓取到的内容，如果发现涉及到用户隐私、商业机密等敏感内容需要及时停止爬取和传播。

http协议：
-- 概念:就是服务器和客户端进行数据交互的一种形式。常用请求头信息
        -User-Agent: 请求载体的身份标识
        - Connection:  请求完毕后，是断开连接还是保持连接
常用响应头信息
        -Content-Type:  服务器响应回客户端的数据类型
https协议:
-- 安全的超文本传输协议I
加密方式
-- 称秘钥加密-非对称秘钥加密-证书秘钥加密。

那一抹阳光~

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础简介

爬虫基础简介
复制链接

扫一扫

专栏目录

那一抹阳光~ CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

132万+: 周排名

167万+: 总排名

2333: 访问

: 等级

39: 积分

6: 粉丝

6: 获赞

1: 评论

23: 收藏

私信

关注

热门文章

分类专栏

python爬虫 1篇

最新评论

类基础内容
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。