爬虫：从入门到入狱（一）——概念篇

最新推荐文章于 2024-09-10 08:00:00 发布

不会写代码！！

最新推荐文章于 2024-09-10 08:00:00 发布

阅读量244

点赞数

分类专栏：爬虫学习教程文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xty123abc/article/details/125676486

版权

爬虫学习教程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

网络爬虫是一种自动抓取互联网数据的程序，常用于大数据分析和商业价值创造。随着大数据时代的发展，爬虫工程师需求增加，薪资待遇颇丰。爬虫分为善意与恶意，后者可能干扰网站运营或触法。通用爬虫抓取全页面，聚焦爬虫关注特定内容，增量式爬虫则跟踪数据更新。网站会设置反爬机制，而反反爬技术随之发展。使用爬虫时需注意合法性和数据合规性，避免侵犯隐私和商业敏感信息。

摘要由CSDN通过智能技术生成

什么是爬虫？

相信大家久闻大名，但是一直不知道具体是什么，那我们下面就下一个定义！

网络爬虫技术：

通过编写程序，模拟浏览器上网，然后让程序自动在互联网上按照设置的规则抓取数据的技术

爬虫的价值：

可以抓取大量互联网的有用数据，为我所用，再利用数据分析，产生商业化或产品化的价值

就业角度：

爬虫工程师随着大数据时代的来临，薪资高且人员缺口大

爬虫的合法性论证

爬虫技术是一种工具，具有中立性，所以在法律中是不被禁止的

具有违法风险的行为是不合法的

所以爬虫分为：善意爬虫和恶意爬虫

恶意爬虫：

1.爬虫干扰了被访问网站的正常运营

2.爬取了受到法律保护的数据的行为

瞎搞容易进“橘子”！！！！

注意随时去优化自己的代码或者是逻辑，避免随着网站更新而干扰了网站的运行

请及时审查自己爬取的数据，如果数据违规（隐私，商业敏感或者其他不能说的东西），一定要删除！！！

爬虫在使用场景中的分类
    - 通用爬虫：
        抓取系统重要组成部分。抓取的是一整张页面数据。
    - 聚焦爬虫：
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
    - 增量式爬虫：
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

有爬虫肯定有爬虫反制机制吧！

门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取

当然，道高一尺魔高一丈，还有反反爬技术，哈哈哈（总是在不断较量）

反反爬策略：
爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

不会写代码！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

不会写代码！！ CSDN认证博客专家 CSDN认证企业博客

码龄3年

63: 原创

1万+: 周排名

5万+: 总排名

11万+: 访问

: 等级

1187: 积分

4222: 粉丝

416: 获赞

114: 评论

767: 收藏

私信

关注

热门文章

分类专栏

最新评论

YOLOv8+swin_transfomerv2
cSdn菜鸟er: 我用yolov8n只加这个模块居然要8亿个参数，而原模型只有30万个参数，有大佬知道这是为什么吗
Matlab2021a安装教程
苏瑾3414: 安装成功，🙏🙏
Neurocomputing、爱思唯尔期刊word模板（私信）
石头six: 您好，请问您找到word模板了吗
YOLOv8+swin_transfomerv2
念晴雨: /opt/conda/envs/yolov8/lib/python3.8/site-packages/torch/functional.py:478: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at /opt/conda/conda-bld/pytorch_1659484810403/work/aten/src/ATen/native/TensorShape.cpp:2894.) return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined] 你好你好，请问一下这是什么原因啊，我按照步骤替换进去后，python train.py就会直接卡住
人工智能导论题库
秋ccc: 这是哪个学校的题库呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。