![](https://img-blog.csdnimg.cn/81058f04c58b49d18a32335ab2887bce.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 73
涵盖爬虫所涉及的知识点常用框架、js逆向、实战案例
糯米不开花ぴ
小白学编程,没有不可能!~
展开
-
专业爬虫框架 _scrapy进阶使用详解
在Scrapy中,中间件是一种插件机制它允许你在发送请求和处理响应的过程中对Scrapy引擎的行为进行干预和定制。Scrapy中间件的用途:修改请求、处理响应、处理异常、设置代理、添加自定义的HTTP头部等等。Scrapy中间件主要分为以下几种类型:下载中间件(Download Middleware):下载中间件是用于处理Scrapy发送请求和接收响应的过程。它可以用于修改请求的头部、处理代理、处理重定向、处理异常、修改请求URL等。你可以通过编写下载中间件来实现自定义的下载逻辑。原创 2023-12-04 20:24:53 · 2222 阅读 · 0 评论 -
web自动化 -- pyppeteer
由于Selenium具有这些严重的缺点。pyperteer成为了爬虫界的又一新星。相比于selenium具有以下特点:异步加载速度快具备有界面/无界面模式伪装性更强不易被识别为机器人同时可以伪装手机平板等终端虽然支持的浏览器比较单一,但在安装配置的便利性和运行效率方面都要远胜selenium。pyppeteer无疑为防爬墙撕开了一道大口子,针对selenium的淘宝、美团、文书网等网站,目前可通过该库使用selenium的思路继续突破,毫不费劲。原创 2023-11-30 23:10:36 · 1507 阅读 · 0 评论 -
数据库之 mongo 基础
Redis(Remote Dictionary Server ,远程字典服务) 是一个使用ANSI C编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库,是NoSQL数据库(非关系型)。redis的出现主要是为了替代早期的Memcache缓存系统的。map内存型(数据存放在内存中)的非关系型(nosql)key-value(键值存储)数据库。支持数据的持久化(基于RDB和AOF,注: 数据持久化时将数据存放到文件中,每次启动redis之后会先将文件中数据加载到内存。原创 2023-11-20 21:11:51 · 36 阅读 · 0 评论 -
python -- pymysql模块
第一次链接MySQL需要点击Download下载安装 Driver Files,如下截图会显示安装进度,等待安装完成(如已下载过Driver Files,则跳过进行第三步)专业版的最左边,左上角依次点击:Database -> +号 -> Database Source中找到MySQL。输入链接名+账号+密码+库名 -> 点击链接测试,提示成功后,点击ok就可以了。在python中,提供专门的第三方库来连接mysql:pymysql模块。链接成功后,需要针对哪个库进行操作,就选中哪个库。原创 2023-11-18 21:12:43 · 67 阅读 · 0 评论 -
爬虫并发及应用
HLSHLS(HTTP Live Streaming)是一种流媒体传输协议,最初由苹果公司开发并推出。它是一种基于HTTP的流媒体传输协议,旨在提供高质量的实时流媒体传输和适应不同网络条件的能力。HLS技术主要用于在互联网上实时传输音频和视频内容,通常用于直播活动、视频点播等场景。媒体分片(Media Segmentation):源视频或音频内容首先被分割成短小的媒体分片,通常每个分片持续几秒到十几秒不等。自适应码率(Adaptive Bitrate)原创 2023-11-26 18:31:02 · 1118 阅读 · 0 评论 -
专业爬虫框架 -- scrapy初识及基本应用
Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。原创 2023-12-02 13:05:44 · 1208 阅读 · 0 评论 -
web自动化 -- selenium及应用
随着互联网的发展,前端技术不断变化,数据加载方式也不再是通过服务端渲染。现在许多网站使用接口或JSON数据通过JavaScript进行渲染。因此,使用requests来爬取内容已经不再适用,因为它只能获取服务器端网页的源码,而不是浏览器渲染后的页面内容。大多数情况下,数据是通过Ajax接口获取的。为了解决这个问题,我们可以使用Puppeteer、Pyppeteer、Selenium和Splash等自动化框架来获取HTML源码。原创 2023-11-28 17:43:21 · 1011 阅读 · 0 评论 -
初识爬虫并发
学习并发,需要弄清楚以下5个问题:1. 并发与并行2. IO密集型任务和计算密集型任务3. 同步与异步4. IO模型(IO多路复用)5. 内核态多线程,用户态多线程所谓并发编程是指在一台处理器上“同时”处理多个任务。并发是在同一实体上的多个事件。。原创 2023-11-11 07:29:41 · 45 阅读 · 0 评论 -
爬虫必备 -- 代理IP
当我们编写爬虫程序去访问网站时,对方网站会设置一些反反爬虫措施。例如:检查IP访问频率、检查Header参数、检查代理IP等。使用代理IP是反反爬虫的一种常用方式,但是即使使用代理IP,对方服务器任然会有很多的方式来检测我们是否是一个爬虫。因此,在使用代理IP时,最好使用随机的方式进行选择,不要每次都使用同一个代理IP,以避免被对方网站识别出来并屏蔽。原创 2023-11-05 07:34:29 · 98 阅读 · 0 评论 -
requests实战 -- 爬取17k免费小说
网站特色:动态cookie需要先注册:13585687903,135903yc网站分为免费小说和vip小说,vip小说只能开头vip才能爬取需要先将免费小说加入书架,然后进行爬取:步骤: 模拟登陆爬取数据 -> 爬取章节 -> 爬取每本小说的完整内容。原创 2023-11-05 19:16:08 · 611 阅读 · 3 评论 -
爬虫核心模块 -- reqeusts
requests 作为一个专门为人类编写的 HTTP 请求库,其易用性很强,因此在推出之后就迅速成为 Pthon 中首选的 HTTP请求库。requests 库的最大特点是提供了简单易用的 API,让编程人员可以轻松地提高效率。由于 requests 不是 Python 的标准库,因此在使用之前需要进行安装:s(注意要加s,不然也会下载,但是啥也不是)通过 requests 可以完成各种类型的 HTT 请求,包括 HTTP、HTTPS、HTTP1.0、HTTP1.1 及各种请求方法。原创 2023-11-04 16:49:12 · 1411 阅读 · 1 评论 -
网页解析 -- xpath
xpath在Python的爬虫学习中,起着的地位。对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但xpath明显比re具有优势,在网页分析上使re退居二线。xpath 全称为**XML Path Language** 一种小型的**查询语言**原创 2023-11-01 07:13:09 · 215 阅读 · 1 评论 -
网页数据解析 -- BS4
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。即针对的是html树形结构文件,可以发挥最大作用。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。原创 2023-10-30 21:51:21 · 114 阅读 · 1 评论 -
网页数据提取 -- 正则表达式
Regular Expression,译作正则表达式或正规表示法,表示有规则的表达式,意思是说,描述一段文本排列规则的表达式。正则表达式并不是Python的一部分。而是一套独立于编程语言,用于处理复杂文本信息的强大的高级文本操作工具。正则表达式拥有自己独特的规则语法以及一个独立的正则处理引擎,我们根据正则语法编写好规则(模式)以后,引擎不仅能够根据规则进行模糊文本查找,还可以进行模糊分割,替换等复杂的文本操作,能让开发者随心所欲地处理文本信息。原创 2023-10-29 14:22:11 · 435 阅读 · 0 评论 -
爬虫概念介绍
一段代码,能够自动从互联网上收集需要的东西(图片、视频、音频等)源于互联网的两个特性:♣ 信息可获取(能够通过打开一个浏览器可以看到的信息;法律允许的范围内)♣ 信息具有关联性(从一个网页调到另一个网页)原创 2023-10-21 10:11:26 · 644 阅读 · 1 评论