Scrapy 基础知识笔记（一）

最新推荐文章于 2024-05-01 22:46:38 发布

Jxxxex_23

最新推荐文章于 2024-05-01 22:46:38 发布

阅读量459

点赞数

分类专栏： Scrapy脱发之路文章标签：数据挖掘中间件人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44110385/article/details/122551611

版权

本文介绍了Scrapy框架的基础知识，包括其在数据采集、挖掘等方面的应用，以及使用Twisted异步网络框架的优势。此外，还讲解了爬虫的基本概念、HTTP工作原理、请求方法、状态码等爬虫必备的前端知识。

摘要由CSDN通过智能技术生成

(参考书籍Python 网络爬虫框架Scrapy从入门到精通，张颖，北京大学出版社)

一、Scrapy

1. Scrapy用途广泛，可以用于数据采集、数据挖掘、网络异常用户检测、存储数据、检测和自动化测试。

2. Scrapy使用了Twisted异步网络框架来处理网络通信，可以加快下载速度，不用自己去实现异步框架，并且包含了各种中间件窗口，可以灵活完成各种需求。

3. Scrapy可以在网站上并行执行16个请求。

二、爬虫

1. 爬虫的概念：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页，并将数据捉取下来，然后使用一定的规则提取有价值的数据。

2. 爬虫的应用范围：通用搜索引擎、推荐引擎、机器学习的数据样本、数据分析、购物比价、网络舆情分析。

三、爬虫必备的前端知识（一）

1. HTTP

1）HTTP的工作原理：HTTP是基于客户/服务器模式，且面向连接的。HTTP定义了Web客户端如何从Web服务器请求Web页面，以及服务器如何把Web页面传送给客户端。

HTTP采用了请求/响应模型。客户端向服务器发送一个请求，请求中包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应，响应的内容包括协议的版本、成功或错误代码、服务器信息、响应头部和响应数据。

HTTP请求/处理的处理步骤：

①客户端与Web服务器建立连接：一个HTTP客户端，通常是浏览器，与Web服务器的HTTP端口（默认为80）建立一个TCP连接。

②客户端向Web服务器端发送HTTP请求：建立TCP连接，客户端向Web服务器发送一个文本的请求

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。