爬虫笔记----爬虫基础

大数据AI铭仔

已于 2024-04-07 13:53:07 修改

阅读量751

点赞数

分类专栏：爬虫文章标签：爬虫

于 2021-03-27 19:36:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51633501/article/details/115255435

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫笔记1----爬虫基础

1.爬虫的特点介绍

1.知识点碎片化（面对不同的网站，每个网站都有每个网站的特点，根据不同网站采取不同的技术和手段）
2.学习难度在于要与网站的运维人员和维护人员进行搏斗，网站的网爬是不断升级。
3.学习特点：爬虫的阶段课程是以某网站爬虫的案例进行讲解，一个技术点就是一个案例。
4.后续发展：爬虫需要掌握的东西更要多，可能根据工作需要涉及更多从来没有学过的知识。（难度会持续增高）
5.法律层面，爬虫工作属于灰色地带，目前法律对于爬虫的相关评判还没有一个明确的制度。
6.好记性不如烂笔头，多找一些网站进行爬虫练习。

2.爬虫的概述

模拟浏览器，发送请求，获取响应
网络爬虫（网页蜘蛛）就是模拟客户端（主要是浏览器）发送网络请求，接受请求响应，一种按照一定规则，自动地抓取互联网信息的程序。
原则上，只要是客户端（浏览器）能做的事情，爬虫都能做。
爬虫也只能获取客户端（浏览器）所展示出来的内容
案例1
进入一个网页网站---->右击选定“检查”----->打开开发者工具的·natework---->刷新（进行重新抓包）
在这里插入图片描述

3.爬虫的作用

1.数据采集（机器学习舆情监控，数据分析·挖掘）
2.软件测试(虫师)
3.12306抢票
4.网络上的投票
5.网络安全（短息轰炸，web漏洞扫描）

4.爬虫的分类

在这里插入图片描述

5.爬虫的流程

在这里插入图片描述
流程图的原理

在这里插入图片描述

6.http与https的概念和区别

在这里插入图片描述

7.爬虫特别关心的请求头和响应头

请求头的格式
在这里插入图片描述

爬虫常见的请求头与响应头
在这里插入图片描述

8. 常见的响应状态码

所有的状态码都不可信，一切以是否从抓包得到的响应中获取到的数据为准
network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准
在这里插入图片描述

9.浏览器运行过程与爬虫过程的区别

在这里插入图片描述
数据可能在下面三种文件中,在下面三种进行查找：
骨骼文件： html静态文件
肌肉文件： js /ajax请求
皮肤文件： css/font/图片等
抓包过程
根据发送请求的流程分别在骨骼/肌肉/皮肤响应请求中查找数据

大数据AI铭仔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫笔记----爬虫基础

爬虫基础1.爬虫的特点介绍1.知识点碎片化（面对不同的网站，每个网站都有每个网站的特点，根据不同网站采取不同的技术和手段）2.学习难度在于要与网站的运维人员和维护人员进行搏斗，网站的网爬是不断升级。3.学习特点：爬虫的阶段课程是以某网站爬虫的案例进行讲解，一个技术点就是一个案例。4.后续发展：爬虫需要掌握的东西更要多，可能根据工作需要涉及更多从来没有学过的知识。（难度会持续增高）5.法律层面，爬虫工作属于灰色地带，目前法律对于爬虫的相关评判还没有一个明确的制度。6.好记性不如烂笔头，多找一些网
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据AI铭仔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。