今天需要学习爬虫了（前期准备）

最新推荐文章于 2024-04-16 16:26:26 发布

星星学园

最新推荐文章于 2024-04-16 16:26:26 发布

阅读量488

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhihuiyu123/article/details/100926874

版权

爬虫？crawler,按照一定规则来爬取网络上的信息的程序或者脚本。它可不是普通的虫子哟，切记切记切记！

爬虫就是获取信息的，那么你没学习之前，你会如何获取互联网信息呢？或许你会想直接找度娘，一切问题迎刃而解，

是的，你这样确实可以，如果你需要网页上的数据，超链接的数据，手动去弄会很累的，爬虫就能很好的实现自动化获取信息。

废话太多了，那么爬虫开始之前，我们需要做什么准备工作？

你不可能直接看到需求就开始写代码把，肯定先分析一波，理清一下思路呀，那么爬虫你首先要去网页的页面去分析，请求行为分析，这些确定之后，那么你可以写爬虫了。

那么怎么来分析网页页面呢？

一般我们是借用浏览器来分析。

我们打开如上图所示的界面，右击选择检查元素，这里选用的是谷歌浏览器

打开之后，我们可以查看我们的请求行为，在网络里面可以查看的

右边有元素（请求的页面描述），控制台（调试用的），调试程序，网络（可以查看请求头信息和响应头信息）等

请求头描述了客户端向服务器发送请求时使用的http协议类型，所使用的编码，以及发送内容的长度等等

相应的响应头用来描述服务器回给你对所返回的content的一些一些描述，我是什么服务器，我返回的是啥编码，我返回的内容有多长等等。

爬虫基本流程就是爬取-存储-分析，涉及的内容如下，后面会一一介绍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

星星学园 CSDN认证博客专家 CSDN认证企业博客

码龄9年

62: 原创

4万+: 周排名

134万+: 总排名

56万+: 访问

: 等级

4254: 积分

374: 粉丝

339: 获赞

63: 评论

1559: 收藏

私信

关注

热门文章

分类专栏

最新评论

DMRS和SRS的不同
蛋黄骑士酱: 有个疑问 dmrs为什么都说是上行参考信号呢 nr中dmrs也用在pdsch中呢
安装pygraphviz库的波折历经
CSDN-Ada助手: 非常感谢CSDN博主的分享，你的博客《安装pygraphviz库的波折历经》让我们学到了很多。我觉得你可以继续写一篇博客，分享如何在Python中使用graphviz库进行可视化。这样的技术文章对其他用户学习数据可视化非常有帮助。相信会有更多读者关注你的博客。期待你的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
说说最小均方误差（MMSE）
孤独*娱乐: 信道故计
安装pygraphviz库的波折历经
2301_76887833: conda一直retry怎么回事
自相关的物理意义
GalaxyerKw: 确实，一语中的。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。