爬虫

最新推荐文章于 2024-04-01 13:30:49 发布

迷迷糊糊魏同学

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量194

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43808097/article/details/87886559

版权

什么是爬虫？
百度百科：网络爬虫
那为什么要学习爬虫？
学习爬虫为了提取某个网站或者某个应用的内容，提取有用的价值
关于python爬虫，我们需要学习：python基础语法（基础知识）
HTML页面的内容抓取（数据抓取）
HTML页面的数据提取（数据清洗）
scrapy框架以及scrapy-redis分布式策略（第三方框架）
爬虫反爬虫反反爬虫之间的斗争
1根据使用场景不同，网络爬虫可以分为通用爬虫和聚焦爬虫两种。
一：通用爬虫：通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo 等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份
二：通用搜索引擎工作原理：通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。
第一步：抓取网页
搜索引擎网络爬虫的基本工作流程如下：
首先选取一部分的种子URL，将这些URL放入待抓取URL队列；取出待抓取URL，解析DNS的到的主机IP，并将URL对应的网页下载下来，存储进已下载网页库中，并且将这些URL放进已抓取URL队列。分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环

迷迷糊糊魏同学

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫

什么是爬虫？百度百科：网络爬虫那为什么要学习爬虫？学习爬虫为了提取某个网站或者某个应用的内容，提取有用的价值关于python爬虫，我们需要学习：python基础语法（基础知识）HTML页面的内容抓取（数据抓取）HTML页面的数据提取（数据清洗）scrapy框架以及scrapy-redis分布式策略（第三方框架）爬虫反爬虫反反爬虫之间的斗争1根据使用场景不同，网络爬虫可以分为通...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。