初识爬虫(spider)

星_奕

已于 2023-04-08 17:41:31 修改

阅读量1.8k

点赞数 1

文章标签：爬虫 python

于 2023-04-03 18:35:39 首次发布

本文链接：https://blog.csdn.net/xuan_kong/article/details/129936295

版权

文章介绍了爬虫的基本概念，包括通用网络爬虫和聚焦网络爬虫的差异，以及网页获取流程。同时，详细阐述了URL的结构和HTTP协议的工作原理，如HTTP请求和响应的组成。此外，还提到了HTTP状态码的重要性和requests模块在Python中的使用，用于发送HTTP请求。

摘要由CSDN通过智能技术生成

1. 爬虫介绍

爬虫又称网络蜘蛛、网络机器人，主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

爬虫可分为两大类：通用网络爬虫、聚焦网络爬虫。

通用网络爬虫：是搜索引擎的重要组成部分，百度搜索引擎，其实可以更形象地称之为百度蜘蛛（Baiduspider），它每天会在海量的互联网信息中爬取信息，并进行收录。当用户通过百度检索关键词时，百度首先会对用户输入的关键词进行分析，然后从收录的网页中找出相关的网页，并按照排名规则对网页进行排序，最后将排序后的结果呈现给用户。通用网络爬虫需要遵守robots协议，网站通过此协议告诉搜索引擎哪些页面可以抓取，哪些页面不允许抓取。

聚焦网络爬虫：是面向特定需求的一种网络爬虫程序。聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选，尽量保证只抓取与需求相关的网页信息。这也很好地满足一些特定人群对特定领域信息的需求。

2. 网页获取流程

import socket


def handle_request(client):
    request_data = client.recv(1024)
    print("request_data: ", request_data)
    client.send(b"HTTP/1.1 200 OK\r\nContent-Type: text/html; charset=utf-8\r\n\r\n")
    client.send("<h1 style='color:red'>Hello, 星奕！ </h1>".encode("utf-8"))


def main():
    server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    server_socket.bind(('127.0.0.1', 8800))
    server_socket.listen(5)

    while True:
        connection, address = server_socket.accept()
        handle_request(connection)
        connection.close()


if __name__ == '__main__':
    main()

3. URL

URL即统一资源定位符Uniform Resource Locator，每一个URL指向一个资源。可以是一个HTML页面，一个CSS文档，一个js文件、一个图片等等

URL的语法格式为：protocol://hostname[:port]/path[?query][#fragment]

http协议

百度安全验证

绝对URL和相对URL：我们上面看到的是一个绝对的URL，还有一个叫相对URL。如果URL的路径部分以“/”字符开头，则浏览器将从服务器的顶部根目录获取该资源。常出现在网页的超链接中。

HTTP协议

HTTP是Hyper Text Transfer
Protocol（超文本传输协议）的缩写。HTTP协议主要的作用就是要服务器和客户端之间进行数据交互（相互传输数据）。HTTPS
(Secure Hypertext Transfer
Protocol)安全超文本传输协议，HTTPS是HTTP协议的安全版。对传输数据进行加密。

HTTP协议特点：

4.1 HTTP请求

请求行：具体的请求类别和请求内容

GET / HTTP/1.1 请求类别请求内容协议版本

请求头：对请求的进一步解释和描述

空行

请求体: 提交的内容

4.2 HTTP响应

响应行：反馈基本的响应情况

HTTP/1.1 200 OK 版本信息响应码附加信息

常见的响应状态码：

200：请求正常，服务器正常的返回数据。 301：永久重定向。
302：临时重定向。比如在访问一个需要登录的页面的时候，而此时没有登录，那么就会重定向到登录页面。
400：请求的url在服务器上找不到。换句话说就是请求url错误。 403：服务器拒绝访问，权限不够。 500：服务器内部错误。
响应头：对响应内容的描述

空行

响应体：响应的主体内容信息

编写爬虫的流程
控制台抓包
request模块的安装

在CMD命令行中执行如下命令进行在线安装

pip install requests 由于网络的不稳定性有时会导致下载失败，在下载的时候我们可以加上第三方源进行下载

清华：https://pypi.tuna.tsinghua.edu.cn/simple
阿里云：http://mirrors.aliyun.com/pypi/simple/
中国科技大学：https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学：http://pypi.hustunique.com/
山东理工大学：http://pypi.sdutlinux.org/
豆瓣：http://pypi.douban.com/simple/

request模块安装

pip install requests -i http://pypi.douban.com/simple/

requests.get()

该方法用于 GET 请求，表示向网站发起请求，获取页面响应对象。语法如下：

response = requests.get(url,headers=headers,params,timeout)

HttpResponse响应对象

我们使用 Requests 模块向一个URL发起请求后会返回一个 HttpResponse响应对象。

响应对象属性：

text：获取响应内容字符串类型
content：获取到响应内容bytes类型（抓取图片、音频、视频文件）
encoding：查看或者指定响应字符编码
request.headers：查看响应对应的请求头
cookies：获取响应的cookie，经过了set-cookie动作；返回cookieJar类型
json()：将json字符串类型的响应内容转换为python对象