一 上期【叮当快药-注册/登录安全分析报告】
我们对叮当快药 运算符进行识别时,由于 ddddocr 识别率的原因, 对加减运算符存在识别成其它符号的问题,
临时解决方案是增加纠正表,现在准备对加减符合进行训练,看看效果如何 ?
public static final Set<String> logicSet = new HashSet<String>() {
private static final long serialVersionUID = -4054136023490781886L;
{
add("b");
add("d");
add("g");
add("m");
add("M");
add("u");
add("风");
add("挪");
add("如");
add("帆");
add("挑");
add("加");
add("业");
add("邮");
add("此");
add("爪");
add("却");
add("加m");
add("规");
add("耻");
add("州");
add("期");
add("机");
add("址");
add("抓");
add("抑");
add("邯");
add("虾");
add("川");
add("划");
add("娜");
}
};
二、环境准备 ddddocr环境配置
1.打开ddddocr项目 https://github.com/sml2h3/dddd_trainer 进行下载压缩包并解压
2 将压缩包解压后, 切换到目录 :
提示: requirements.txt 配置中存在将写成=的错误,需要将
pillow=9.5.0
pillow9.5.0
pip install -r requirements.txt
三、字符集验证码训练
1.创建训练项目:
python app.py create charprj
如图这时候在dddd_trainer/projects下会自动生成一个charprj的文件夹,并且包含三个空文件夹cache、checkpoints、models 和一个config.yaml配置文件
2.准备数据集:
如图我在 \images_char 目录下面放了一些数据集,这些数据集的命名,名称_随机hash值
3.缓存数据配置
python app.py cache charprj images_char
dddd_trainer/cache文件夹下会生成两个文件cache.train.tmp和cache.val.tmp,里面记录的就是images文件夹下面的图片信息
4.训练或者恢复训练:
python app.py train charprj
四、ocr_api_server服务搭建
参考之前写的文章,
【Python调用ddddocr打包成exe文件指定模型库及注意事项】
https://newxtc.blog.csdn.net/article/details/142455744