自动化
文章平均质量分 80
自动化
对许
这个作者很懒,什么都没留下…
展开
-
Python提取视频文案
函数可能不会在所有音频文件上工作,因为它依赖于云服务或本地语音识别引擎的准确性和性能。对于特定的应用,可能需要对音频进行预处理,例如降噪或调整录音条件以提高识别准确率。其中主要涉及到两个过程:视频转音频和音频转文字,分别对应到两个第三方库。然而,有时我们需要从视频中提取语音并转换为文本,以用于文本分析和机器学习训练。是谷歌提供的音频转文字API(Google Cloud Speech-to-Text API)综上所述,视频文案的提取分为两步:视频转音频、音频转文字。方法将音频转换为文字。原创 2024-07-08 22:17:38 · 497 阅读 · 0 评论 -
Python办公自动化之PDF(二)
PyMuPDF(也称Fitz)开源,提供了一整套用于处理PDF文件的综合工具。使用PyMuPDF,用户可以高效地执行打开PDF、提取文本、图像和表格、操作旋转和裁剪等页面属性、创建新PDF文档以及将PDF页面转换为图像等任务从命名形式中可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的PDF、XPS和电子书查看器MuPDF中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度文档阅读。原创 2024-03-08 17:49:38 · 664 阅读 · 0 评论 -
Python命令行参数解析模块Argparse
argparse是用于解析命令行参数和选项的Python标准模块,取代了已弃用的optparse模块。很多时候,我们需要使用解析命令行参数的程序。通过argparse模块,可以轻松编写用户友好的命令行界面。argparse模块还会自动生成帮助和使用消息,并在用户为程序提供无效参数时发出错误。方法对应一个要关注的参数或选项,参数可以是可选的、必需的或定位的。如果未指定包含default的选项,则使用指定默认值。方法添加将要关注的命令行参数和选项到对象中,每个。方法进行解析,解析成功后,即可使用。原创 2023-11-28 16:01:15 · 486 阅读 · 0 评论 -
反爬虫机制与反爬虫技术(一)
User-Agent能够通过服务器识别出用户的操作系统及版本、CPU类型、浏览器类型及版本等。一些网站会设置User-Agent白名单,只有在白名单范围内的请求才可以正常访问。因此,在我们爬虫时,需要设置User-Agent伪装成一个浏览器HTTP请求,通过修改User-Agent,可以模拟不同的浏览器或设备发送请求,从而绕过一些简单的反爬虫机制原创 2023-10-06 17:59:48 · 2738 阅读 · 0 评论 -
反爬虫机制与反爬虫技术(二)
反爬虫机制与反爬虫技术(一)上篇中,我们详细介绍和使用了User-Agent伪装、代理IP、请求频率控制等反爬虫技术,本篇将重点针对动态页面处理和验证码识别进行介绍和案件详解近年来,网站安全性越来越高,许多网站为了避免机器人恶意攻击,采用了滑动验证码。与传统的验证码相比,滑动验证码安全性更高,更难被攻击者破解。但是,这也给爬虫程序带来了困难。Python Selenium是一款非常出色的自动化测试工具,可以用来模拟浏览器行为,可以用于爬虫。原创 2023-11-23 18:05:06 · 2891 阅读 · 0 评论 -
OpenCV滑块验证码图像缺口位置识别
在使用Selenium完成自动化爬虫时,许多网站为了防止机器人爬取数据会使用验证码(例如滑块验证码)。完成这一流程的关键步骤有两步:识别出目标图像缺口的位置,操作滑块滑动到对应缺口位置。因此,滑块验证码HTTP图像完全没必要保存到本地操作。注意,这可不是手画上去的!来看一个例子,下面src1是src2(HTTP图像)保存到本地的图片。对于爬虫网页滑块验证码HTTP图像,需要保存到本地再操作吗?通过结果我们看到,OpenCV图像缺口识别还是比较准确的。而识别目标图像缺口的位置可以通过OpenCV模块实现。原创 2023-11-23 16:20:53 · 2580 阅读 · 0 评论 -
Python解析Yaml配置文件
Yaml通常被用作配置文件,后缀是.yaml或.yml;主要用于数据存储与传输。Python的PyYAML模块是Python的YAML解析器和生成器。YAML不是一种标记语言,而是一种易读的序列化语言。基本使用:load()、dump()复杂YAML文档解析。原创 2023-09-09 17:14:29 · 2849 阅读 · 0 评论 -
Python图像处理之OpenCV模块
OpenCV(Open Source Computer Vision Library)是一个基于BSD许可(开源)发行的跨平台计算机视觉库,主要用于图像和视频处理,可以运行在Linux、Windows、Android和MacOS操作系统上OpenCV轻量级且高效:由一系列C函数和少量C++类构成,同时提供了Java、Python、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法OpenCV使用C++语言编写,它的主要接口也是C++语言,但是依然保留了大量的C语言接口。原创 2023-11-06 16:18:21 · 1357 阅读 · 0 评论 -
Selenium:Web自动化框架
Selenium(Web Browser Automation)的初衷是Web应用自动化测试。Selenium广泛应用于爬虫,爬虫需要让浏览器自动运行网址来获取我们需要的内容Selenium不是单个软件,它是由一系列的工具组成。原创 2023-10-16 22:38:24 · 492 阅读 · 0 评论 -
Scrapy爬虫框架
Scrapy是一个基于Python的开源网络爬虫框架,用于从网页中提取数据。它提供了一套高效、灵活和可扩展的工具,可以帮助开发者快速构建和部署爬虫程序Scrapy是一个由Python语言开发的适用爬取网站数据、提取结构性数据的Web应用程序框架。主要用于数据挖掘、信息处理、数据存储和自动化测试等。通过Scrapy框架实现一个爬虫,只需要少量的代码,就能够快速的网络抓取Scrapy基于Twisted,Twisted是一个异步网络框架,主要用于提高爬虫的下载速度。原创 2023-10-09 11:23:32 · 2095 阅读 · 0 评论 -
Python单元测试
若有多个参数,则使用元祖列表,一个参数对应一个元祖,例如@pytest.mark.parametrize(“num1, num2”, [(2, 3, 5), (1, 2, 3)])Unittest是Python自带的单元测试框架,Pytest是一个第三方单元测试框架,具有丰富的插件生态,兼容Unittest测试集,社区繁荣。若只有一个参数,则使用值列表,例如@pytest.mark.parametrize(“num1”, [1, 2, 3])使用装饰器@pytest.mark.skip。原创 2023-09-21 22:54:11 · 144 阅读 · 0 评论 -
Python解析XML配置文件
ElementTree是Python处理XML文件的内置类,用于解析、查找和修改XML,ElementTree可以将整个XML文件解析成树形结构。修改完成后使用ElementTree.write()方法写入保存。原创 2023-09-20 23:04:04 · 122 阅读 · 0 评论 -
Python解析Config配置文件
configparser是Python的标准库之一,主要用来解析.config和.ini配置文件config配置文件由两部分组成:sections和itemssections用来区分不同的配置块,[]中为section;items是sections下面的键值,可以使用或分隔例如[ lang ] name = 中文简体 [ mysql ] host = localhost port = 3306 user:root。原创 2023-09-20 22:53:50 · 1057 阅读 · 0 评论 -
Python数据分析之Excel
openpyxl是一个用于处理xlsx格式Excel表格文件的第三方python库,几乎支持Excel表格的所有操作Workbook:相当于一个Excel文档,每个Workbook对象都是一个独立的Excel文件Sheet:Excel文档中的表单,每个Excel文档中至少有一个SheetCell:Excel单元格,是不可分割的基本数据存储单元。原创 2023-09-19 23:00:57 · 726 阅读 · 0 评论 -
Python图像处理之Pillow库
PIL(Python Image Library)是Python提供的图像处理标准库,来满足开发者处理图像的各种功能PIL支持的图像文件格式包括JPEG、PNG、GIF等,它提供了图像创建、图像显示、图像处理等功能;但是Python2.7后不再支持Pillow是基于PIL模块Fork的一个派生分支,如今已经发展成为比PIL本身更具活力的图像处理库,Pillow模块支持python3。原创 2023-09-19 22:37:08 · 920 阅读 · 0 评论 -
Python办公自动化之PDF(一)
Python操作PDF主要有两个库:PyPDF2和pdfplumberPyPDF2是一个用于处理PDF文件的Python第三方库pdfplumber是一个用于解析PDF文档的第三方库,可以解析、提取、转换PDF文档数据常用操作主要包括:拆分、合并、文字与表格提取、图片提取、添加水印、加密与解密等。原创 2023-09-18 22:25:07 · 771 阅读 · 0 评论 -
Python定时任务与周期任务(任务调度)
Event是APScheduler在执行任务时触发的事件,用户可以自定义一些函数来监听这些事件,当触发某些Event时(任务抛出异常后),做一些具体操作。APScheduler包含四大组件:调度器(scheduler),作业存储(job store),触发器(trigger),执行器(executor)sched是Python的标准库之一,sched是事件调度器,它通过Scheduler类来调度事件,可用于定时任务或周期任务。默认情况下调度器会等待所有正在运行的作业完成后,关闭所有的调度器和作业存储;原创 2023-08-27 17:37:01 · 1062 阅读 · 0 评论 -
Python办公自动化之Word
python-docx模块是用于创建和处理Microsoft Word文档的一个Python第三方库,提供了全套的Word操作,是最常用的Word工具Document:Word文档对象,多个文档对象互相独立Paragraph:段落对象,一个Word文档由多个段落组成Run:节段对象,每个段落由多个节段组成from docx import Document # 用于创建文档from docx.shared import Inches, Cm, Pt # 单位。原创 2023-09-17 16:56:59 · 468 阅读 · 0 评论 -
Python自动化之发送邮件
【代码】Python自动化之发送邮件。原创 2023-08-27 18:11:57 · 371 阅读 · 0 评论 -
Linux-crontab
实际工作中,90%的程序都没有必要花这么多时间和精力去解决上面的两个问题,只需要写好自己的业务逻辑,通过crontab工业级程序去调度就行了,crontab的可靠性、健壮性与稳定性是毫无疑问的。注意:crontab -e命令会检查语法,而vim编辑/etc/crontab则不会,crontab -e不需要写执行者用户名,而/etc/crontab需要指定。如果不使用crontab,那么任务就是常驻程序,这对你的程序要求比较高,一是要求你的程序是24x7小时不宕机,二是要求你的调度程序比较可靠。原创 2023-09-07 22:52:50 · 83 阅读 · 0 评论 -
Python自动化之企业微信机器人
其中,mentioned_list、mentioned_mobile_list表示需要艾特哪些成员,user_id列表、手机号列表类型,艾特所有人:@all。企业微信支持推送文件,首先将文件上传至企业微信指定的地址,然后返回media_id;文件应小于20M,且media_id有效时间为三天。一个图文消息支持1到8条图文。原创 2023-08-27 19:00:34 · 1813 阅读 · 0 评论