爬虫（1）

最新推荐文章于 2024-04-03 20:15:26 发布

weixin_50176212

最新推荐文章于 2024-04-03 20:15:26 发布

阅读量143

点赞数

本文链接：https://blog.csdn.net/weixin_50176212/article/details/108671151

版权

1.爬虫基础知识

1.1 爬虫的分类
通用爬虫：搜索引擎的一部分，将互联网的网页下载到本地形成镜像
聚焦爬虫：面向特定的需求，在网络抓取的时候对内容已经进行了筛选
1.1.1 搜索引擎工作原理

1.1.1.1抓取网页搜索引擎网络爬虫

1、首先选取一部分的种子url，将这些url放入到等待抓取的url队列中
2、取出待抓取的url地址，解析主机的ip，将url对应的网页下载下来，存储进已经下载的网页库中，并且将这些已经完成url地址抓取的url放入到已经抓取的url队列中
3、分析已经抓取的url队列中的url，分析其中的其他的url，将这些没有提取的url继续放入待抓取url队列中，从而进入下一循环

在这里插入图片描述

1.1.1.2 数据存储

搜索引擎通过爬虫爬取的网页，将数据存储进页面数据库，其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下，搜索引擎在进行网页抓取的时候，也会做重复内容检测，如果遇到大量抄袭或者复制的内容，就不再爬取

1.1.1.3 预处理

搜索引擎将爬虫爬取的内容会进行各种预处理
提取文字
中文分词
消除噪音
索引处理
链接关闭计算
特殊文件处理
…
注意：无法处理图片、视频、flash等非文字内容，也不能执行脚本或程序

1.1.1.4 提供检索服务

最低0.47元/天解锁文章

weixin_50176212

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫（1）

1.爬虫基础知识1.1 爬虫的分类通用爬虫：搜索引擎的一部分，将互联网的网页下载到本地形成镜像聚焦爬虫：面向特定的需求，在网络抓取的时候对内容已经进行了筛选1.1.1 搜索引擎工作原理1.1.1.1抓取网页搜索引擎网络爬虫1、首先选取一部分的种子url，将这些url放入到等待抓取的url队列中2、取出待抓取的url地址，解析主机的ip，将url对应的网页下载下来，存储进已经下载的网页库中，并且将这些已经完成url地址抓取的url放入到已经抓取的url队列中3、分析已经抓取的url队列中的.
复制链接

扫一扫