爬虫(1)

1.爬虫基础知识

1.1 爬虫的分类
通用爬虫:搜索引擎的一部分,将互联网的网页下载到本地形成镜像
聚焦爬虫:面向特定的需求,在网络抓取的时候对内容已经进行了筛选
1.1.1 搜索引擎工作原理

1.1.1.1抓取网页 搜索引擎网络爬虫

1、首先选取一部分的种子url,将这些url放入到等待抓取的url队列中
2、取出待抓取的url地址,解析主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取的url放入到已经抓取的url队列中
3、分析已经抓取的url队列中的url,分析其中的其他的url,将这些没有提取的url继续放入待抓取url队列中,从而进入下一循环

在这里插入图片描述

1.1.1.2 数据存储

搜索引擎通过爬虫爬取的网页,将数据存储进页面数据库,其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下,搜索引擎在进行网页抓取的时候,也会做重复内容检测,如果遇到大量抄袭或者复制的内容,就不再爬取

1.1.1.3 预处理

搜索引擎将爬虫爬取的内容会进行各种预处理
提取文字
中文分词
消除噪音
索引处理
链接关闭计算
特殊文件处理

注意:无法处理图片、视频、flash等非文字内容,也不能执行脚本或程序

1.1.1.4 提供检索服务

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值