2020年Python最新面试题(四):爬虫基础知识

本文详细介绍了Python爬虫的基础知识,包括HTTP请求的GET和POST区别、HTTP和HTTPS协议的差异、Cookie与Session的对比,以及爬虫的基本流程。同时,文章还涵盖了爬虫中常见的面试题,如Robots协议、数据解析方法和反爬虫机制等,旨在帮助读者深入理解爬虫工作原理和实战技巧。
摘要由CSDN通过智能技术生成

目录

1. 什么是爬虫?

网络爬虫 (又被称为网页蜘蛛,网络机器人或网页追逐者),是一种按照指定规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫等,网络爬虫简称爬虫。

爬虫通俗地讲就是通过程序去获取 Web 页面上自己想要的数据,也就是自动抓取网页数据的程序。一般来说,只要能通过浏览器访问的数据都可以通过爬虫获取到。爬虫的本质:就是模拟浏览器打开网页,然后获取网页中所需要的那部分数据。

浏览器打开网页的过程包括:当在浏览器中输入地址后,经过 DNS 服务器查找到服务器主机,向服务器发送一个请求,服务器经过解析后再返还给用户浏览器结果,包括 html、js、css 等文件内容,在浏览器解析这些数据后,最终呈现给用户,即用户在浏览器上看到的结果。所以用户看到的浏览器的结果就是由 html 代码构成的。爬虫就是为了获取这些内容,通过分析和过滤 html 代码,从中获取想要的文本、图片及视频等资源。

2. 爬虫的基本流程有哪些?

可以分为以下几个流程:

(1) 发起请求,通过 HTTP 库向目标站点发起请求,即发送一个 Request,请求可以包含额外的 Header 等信息࿰

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Amo Xiang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值