自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_47046791的博客

原创代码都是运行ok的

  • 博客(46)
  • 资源 (1)
  • 收藏
  • 关注

原创 简述离线安装docker

​离线安装docker以及GPU需要的rpm包

2024-09-11 19:54:34 233

原创 阿里新开源GPU版本的FunASR安装避坑

阿里新开源GPU版本的FunASR安装避坑

2024-08-16 20:25:24 951

原创 语音识别HResults统计工具以及字根据关键词进行合并

代码实现:(根据DFA算法改的)#主要想说一下关键词合并。

2024-07-14 00:48:05 476

原创 使用difflib实现文件差异比较用html显示

2.方式1直接调用difflib.HtmlDiff()存在一个问题,在复杂场景下不能针对文本很好的比对(小伙伴们有好的方案可以推荐,当前输入字符串按列展示没有问题,但看着不舒服),因此使用diff_match_patch或者difflib.SequenceMatcher,进行修改,当前以diff_match_patch演示。

2024-06-07 20:52:36 714

原创 离线部署funasr

例如,将 my_image:tag 保存为 my_image.tar。2.当前funasr-runtime-sdk-cpu-0.4.5在centos上运行不起来,在ubuntu系统上按照原始文档说明安装成功。5.在无网络环境中的目标机器上,使用 docker load 命令加载之前保存的 tar 归档文件并导入镜像。3.将ubuntu系统上docker镜像打包以及模型copy迁移到离线的centos机器上。4.将 tar 归档文件传输到无网络环境中的目标机器。1.在已有的可以运行的docker打包。

2024-05-23 10:36:23 1583

原创 python实现数字规整(转中文)

1.思路根据正则匹配数字类型比如手机号、年月日等进行相对的数字规整。话不多说直接上代码,有新的类型可以按照当前方案进行新增。

2024-02-29 23:41:06 213

原创 centos环境处理音频格式

音频格式转化命令:ffmpeg -i 1024.m4a 1024.wav。比如手机录音.m4a格式需要使用ffmpeg转换。# SoX 安装和ffmpeg安装。ps:语音识别引擎安装可参考。ffmpeg安装参考。

2023-11-24 22:25:19 975

原创 windows下利用python计算文件md5值

【代码】windows下利用python计算文件md5值。

2023-09-04 23:36:38 951

原创 FunASR离线文件转写服务开发指南

通过下述命令拉取并启动FunASR runtime-SDK的docker镜像:(等待安装完成)使用python(版本3.7以上,注意安装缺少的环境)运行。下载客户端测试工具目录samples。

2023-08-22 23:11:40 1495 3

原创 python实现两个字符串比对差异点

按照行比对文本差异点,统计文本中关键词的差异点

2023-08-21 00:38:21 1374

原创 Hadoop常用命令

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是,put 原路径可以是文件夹等。hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益。

2023-06-14 00:02:13 3199

原创 numpy中列表、数组、矩阵的关系转换

【代码】numpy中列表、数组、矩阵的关系转换。

2023-03-17 23:18:46 169 1

原创 python使用functools排序

OCR识别的文本行四点坐标排序,思路先对图片以及识别结果进行矫正,之后根据四点坐标的中心点坐标进行排序。

2023-01-03 14:53:58 304

原创 python排序大全

print(names) #[('李四', 18), ('王五', 20), ('张三', 23), ('刘六', 25)]print(files) #{'李四': 18, '王五': 20, '张三': 23, '刘六': 25}names=[('刘六', 25), ('张三', 23), ('王五', 20), ('李四', 18)]names = {'张三':23,'李四':18,'王五':20,'刘六':25}# sort() 函数对列表元素进行排序,(此方法只能适用于列表),针对列表排序。

2023-01-03 13:52:49 435

原创 mac关闭自动更新提示

3.打开终端输入命令,return回车即可。1.关闭mac系统更新提示。2.关闭所有更新提示。

2022-11-27 22:21:40 4324

原创 OCR效果统计公式

①要素抽取准确率:pression=corrH/extractN。②要素抽取召回率:recall=corrH/labN。②字的精确率acc:acc=(H-I)/N。corrH:表示完全识别正确的要素数量;extractN:表示引擎抽取要素总数;labN:表示标注的要素总数;

2022-10-10 19:30:44 970

原创 python之泊松融合

一:将一张图片嵌入到另一张图片中

2022-07-05 21:37:06 2736

原创 python将pdf转换图片

一:python将pdf转换图片(进程)二:图片转pdf三:pdf转docx

2022-06-24 23:01:08 13582 8

原创 python将xls文件转换xlsx

一:python将xls文件转换xlsx

2022-06-24 22:43:10 1933

原创 python将doc文件转换docx

一:python将doc文件批量转换docx:二:python将docx文件转换pdf:

2022-06-24 22:39:41 3306 2

原创 python根据字相似度进行替换

一:常用场景,OCR识别金额大写错误时,金额大写内容可以固定,根据ocr识别的结果进行相似度比对进行替换比如:核酸检测经过ocr识别成核酪椅测,此时计算每个字的相似度。# coding:utf-8# cython: language_level=3import numpy as npdef edit_distance(string_a, string_b, name='Levenshtein'): size_x = len(string_a) + 1 size_y = le

2022-05-24 00:03:55 556 1

原创 python基础一

1.python语句2.数据类型数字型整型 (int)浮点型(float)布尔型(bool)真 True假 False复数型 (complex)主要用于科学计算,例如:平面场问题、波动问题、电感电容等问题非数字型字符串列表元组字典无序集合3.函数4.文件操作1. 读取关闭文件1.读取关闭文件 # 新建一个文件,文件名为:123.txt f = open('123.txt', 'w') # 关闭这个文件 f.close()2.自动关闭文件w

2022-05-23 23:23:06 364

原创 正则表达式

python中re正则表达的用法1.match 主要用于校验数据的格式2.search 查询、获取数据(只要匹配到就停止)3.findall 也是查询、获取数据返回的是列表,跟前两个不一样,不用加group()4.sub 替换数据............

2022-05-22 23:01:24 490

原创 centos常用命令

一:查看内存使用情况:free -mh查看磁盘以及分区情况df -h 显示存储空间大小df -ah 人性化显示各存储空间大小df -aT 显示所有存储系统空间使用情况,同时显示存储系统的文件系统类型df -ahlT 查看本地文件,不显示网络磁盘du -sh 显示当前文件夹的空间使用情况du -h --max-depth=1 /home 查看home文件夹的空间使用情况du -ch 看当前文件及文件中包含的子文件夹大小du -h test1.txt 查看某个文件容量大小du -h test

2022-05-21 23:28:54 3331 2

原创 python解析xml

一:通用的方法# -*- coding: UTF-8 -*-# 从文件中读取数据import osimport xml.etree.ElementTree as ETimport xml.dom.minidom as minidomdom = minidom.getDOMImplementation().createDocument(None,'root',None)root1 = dom.documentElementroot1.setAttribute('zoom', "1.0")

2022-05-21 22:05:22 312

原创 easyocr识别健康码内容

一:easyocr识别不旋转的图片的文字效果还可以import jsonimport osimport easyocrimport numpy as npimport cv2#初始化加载模型, 创建reader对象reader = easyocr.Reader(['ch_sim', 'en'])## 图片旋转def rotate_bound(image, angle): # 获取宽高 (h, w) = image.shape[:2] (cX, cY) = (

2022-05-15 16:41:30 1038

原创 python保留2位小数

一:使用占位符方法:# 1:%g 科学计数法输出小数,用于舍弃无效的小数print("%g"%(1.2000004))print("%.2g"%(1.2000004))# 2:直接使用%f 输出小数,会出现无效的0;使用%.2f 表示保留两位小数print("%f"%(1.4))print("%.2f"%(1.4))print("%f"%(1.2000004))print("%.2f"%(1.2000004))# 3.%d保留整数print("%d"%(1.2000004))pri

2022-05-12 00:38:44 40691

原创 文本相似度计算

一:相似度计算的两种方式import difflibdef string_similar(s1, s2): return difflib.SequenceMatcher(None, s1, s2).quick_ratio()# for i in range(len(data4_message)):# s1 = data4_message[i]# s2 = data4_answer[i]# print(string_similar(s1, s2))de.

2022-05-11 23:59:54 191

原创 Mac创建虚拟环境python3

1、安装virtualenvsudo pip3 install virtualenv2、安装 virtualenvwrapper, Virtaulenvwrapper是virtualenv的扩展包,可以更方便地新增,删除,复制,切换虚拟环境。sudo pip3 install virtualenvwrapper3、创建所以.virtualenvs的隐藏文件夹存放所有虚拟环境(可以直接放在根目录创建)mkdir ~/.virtualenvs4、切换到.virtualenvs目录查看python3.

2022-04-22 22:16:15 871 2

原创 mac安装Homebrew

1.目前官网给出地址在国外下载不下来,此时使用国内镜像下载/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.下载过程操作home:$ /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 开始执行Brew自动安装程序

2022-04-22 22:12:37 471 1

原创 windows中U盘出问题,传文件显示:错误0x80071AC3:

windows中U盘出问题,传文件显示:错误0x80071AC3:无法完成操作,因为卷有问题请运行chkdsk并重试,解决方案:打开 cmd 输入:chkdsk G:/f 就好了G表示你的U盘

2022-04-22 21:50:14 3982

原创 pip 导出安装库,批量安装库以及镜像源安装

1.导出安装库以及版本pip freeze > requirements.txt2.批量安装pip install -r ./requirements.txt3.windows上安装pip镜像源在用户目录下C:\Users\Administrator 创建pip文件夹,在pip文件夹下创建pip.ini文件pip.ini文件内容写入如下:[global]index-url = http://mirrors.aliyun.com/pypi/simple/[inst

2022-04-19 17:53:42 1641

原创 python合并两个字典

一:方案一:name = {'name': 'Gage'}age = {'age': 25}name.update(age)print(name)其中更新之后的name就是合并的新字典二:方案二name = {'name': 'Gage'}age = {'age': 25}#将字典转化成列表相加,在转成字典merge=dict(list(name.items())+list(age.items()))merge就是合并的新字典...

2022-04-18 17:32:49 8634

原创 DFA算法进行敏感词过滤

1.新建敏感词文本new_adress.txt,进行添加敏感词2.代码# -*- coding:utf-8 -*-import timetime1 = time.time()"""DFA算法:它的基本思想是基于状态转移来检索敏感词,只需要扫描一次待检测文本,就能对所有敏感词进行检测"""# DFA算法class DFAFilter(object): def __init__(self): self.keyword_chains = {} # 关..

2022-04-17 23:31:33 456

原创 opencv读取、保存图片的两种方式

opencv读取带中文名称的图片或者中文路径下的图片不能使用CV2.imread(path)import cv2import numpy as npimg_path="1.jpg"# 读取图片img = cv2.imread(img_path)# 读取中文路径图片img1 = cv2.imdecode(np.fromfile(img_path, dtype=np.uint8), -1)# 保存生成的图片#cv2.imwrite("文件名称", img)cv2.imwrite("2

2022-04-17 23:23:59 4901

原创 python-opencv minAreaRect 生成最小外接矩形

建议安装opencv-python==3.4.2.17版本,方法使用python opencv返回点集cnt的最小外接矩形,所用函数为 cv2.minAreaRect(cnt) ,cnt是点集数组或向量(里面存放的是点的坐标),并且这个点集中的元素不定个数。同时还可以计算偏转角度一、cv2.minAreaRect函数原型cv2.minAreaRect(Points)其中points是点集,数据类型为ndarray,array((x1,y1),(x2,y2),....,(xn,yn)).

2022-04-17 23:12:22 2467

原创 opencv无损旋转图片

#旋转不改变图片原大小(周围补充黑色)def rotate_bound(image, angle): # grab the dimensions of the image and then determine the # center 获取图像的尺寸,然后确定中心 (h, w) = image.shape[:2] (cX, cY) = (w // 2, h // 2) # grab the rotation matrix (applying the negat.

2022-04-17 23:02:15 3407

原创 Linux下根据进程号查找程序路径

根据端口号查看进程号netstat -nlp | grep 80根据进程号查看路径ll /proc/进程号/cwdll /proc/16980/cwd

2022-04-16 17:26:42 5779

原创 tmux的基本使用

1.Tmux安装# Ubuntu 或 Debian$ sudo apt-get install tmux# CentOS 或 Fedora$ sudo yum install tmux# Mac$ brew install tmux2.启动与退出启动:tmux退出:exit3.窗格快捷键Ctrl+b %:划分左右两个窗格。 Ctrl+b ":划分上下两个窗格。 Ctrl+b s:查看会话 Ctrl+b <arrow key>:光标切换到其他窗格。&l

2022-04-14 10:09:17 66

原创 python将tif文件与图片转化

1.tif文件转图片# Author : yyzhangfrom PIL import Imageimport ospath = r"C:\Users\tif"tif_list = os.listdir(path)save_path = r"C:\Users\\tif_pic"for tif in tif_list: tif_name = os.path.splitext(tif)[0] tif_path = os.path.join(path, tif) c

2022-04-13 21:10:52 1018

简述离线安装docker

简述离线安装docker

2024-09-11

HMM实现分词,文本分词训练预料

文本分词训练预料

2024-07-14

文本相似度根据笔画计算词集

文本相似度根据笔画计算词集

2022-05-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除