爬虫的认识

爬虫简介

  1. 什么是爬虫?

    爬虫全称网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

  2. 为什么写爬虫?

    爬虫的目的就是为了方便我们大量的,自动化的获取web页面的信息。比如,我们想要下载百度图库的“爬虫”图片:

    image-20210127212130871

    如果下载几张十几张完全可以直接右键另存为,但当我们想要下载几百甚至几千张时,你的手一定会很痛苦。这个时候就可以写个爬虫,速度快多了,也解放了双手,何乐而不为呢?

  3. python写爬虫有哪些优势?

    很多语言都可以写爬虫,如 java, javascript, 易语言等等。之所以python写爬虫方便,首先,python这个语言本身语法简单,易学。其次,python有优秀的模块,如urllib,requests,更有简单易学的框架Scrapy,PySpider等等。

访问web网页的流程

  1. URL是什么?

    统一资源定位系统(uniform resource locator;URL)是因特网万维网服务程序上用于指定信息位置的表示方法。

    scheme://host.domain:port/path/filename

    • scheme,表示请求的协议
    • host,定义域主机(http的默认主机是www)
    • domain,定义因特网域名,比如baidu.com
    • :port ,定义主机上的端口号,(http的默认端口号是80)
    • path ,定义服务器上的路径(如果省略,则文档必须位于网站的根目录中)
    • filename,定义文档/资源的名称

    如:http://www.baidu.com/item/index.html 该URL包括三部分,http表示请求的协议是https,baidu.com是一个二级域名,该域名对应一个唯一的ip地址,/item/index.html表示请求的文件路径,即请求根目录下的item目录下的index.html文件。

  2. 我们使用浏览器访问的流程

    首先,我们将网页URL输入浏览器,浏览器他会将URL发送给DNS服务器,得到目标服务器的ip,然后将请求构造成一个HTTP或者HTTPS的请求发送给该ip对应的服务器,在该服务器接收到请求并同意该请求的情况下,将目标文件(包括html,css,javascript,图片,视频等等文件)构造成一个HTTP或HTTPS响应发送给你的电脑。在你的浏览器接收到后,会将该文件渲染呈现在浏览器中,这就是一个请求的大概过程。

image-20210127215557578

  1. 爬虫是如何模拟的?

    实际上,我们在找到目标内容的URL后,我们只需要调用请求函数就能发送一个请求了,构造HTTP或HTTPS的请求该函数帮我们实现了的,我们并不需要自己去构造,除非为了应付一些反爬措施,我们需要去添加一些请求头信息。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值