NLP
我是小飞熊
这个作者很懒,什么都没留下…
展开
-
\PIL\ImageFont.py“, line 212, in __init__ self.font = core.getfont( OSError: cannot open resourc
chineseocr_lite-onnx1、运行报错:如下所示:UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordi\PIL\ImageFont.py", line 212, in __init__ self.font = core.getfont(OSError: cannot open resource2、解决办法更换chineseocr_lite-onnx\backend\we原创 2021-12-09 14:37:19 · 1651 阅读 · 0 评论 -
Studio\\2019\\BuildTools\\VC\\Tools\\MSVC\\14.29.30133\\bin\\HostX86\\x64\\cl.exe‘ failed with exit
pycharm 安装kenlmpip install kenlm,报错如下:error: command ‘C:\Program Files (x86)\Microsoft Visual Studio\2019\BuildTools\VC\Tools\MSVC\14.29.30133\bin\HostX86\x64\cl.exe’ failed with exit code 2----------------------------------------ERROR: Command erro原创 2021-12-08 20:23:58 · 5851 阅读 · 1 评论 -
Tesseract-ocr识别中文并训练字库操作指南
Tesseract-ocr识别中文并训练字库操作指南一、Tesseract-ocr下载安装下载地址二、Tesseract中文语言包下载Tesseract中文语言包 chi_sim.traineddata下载下面的4个文件,复制到安装目录tessdata文件夹里。chi_sim.traineddata chi_sim_vert.traineddata chi_tra.traineddata chi_tra_vert.traineddata三、训练字库1、下载jTessBoxEditorF原创 2021-12-08 18:26:42 · 6049 阅读 · 0 评论 -
WPS(Word)怎么快速批量查找文档中的数字?
(英文输入法状态下)“[0-9]{1,}”说明:[0-9]——任意数字(单个),[0-9]{1,}——1 个以上前一字符或表达式,即[0-9]{1,}指任意数字。如下图所示:原创 2021-06-17 06:16:09 · 3602 阅读 · 0 评论 -
文本相似度算法介绍
文本相似度算法LevenshteinDistanceSpacySimilarityJaccardSimilarityLevenshtein Distance算法中文名:莱文斯坦距离 参考资料:https://en.wikipedia.org/wiki/Levenshtein_distanceLevenshtein distance是表征或度量两段字符串的差异度的概念,以单词kitten和sitting为例,定义:替换(substitution)、插入(insert)和删除(delete)三种标准原创 2021-01-28 08:08:46 · 477 阅读 · 0 评论