先简单记录下,以后再详细
1、使用jTessBoxEditor将验证码jpg文件merge tif合并成一个tif
2、生成box
tesseract eng.ver.exp0.tif eng.ver.exp0. -psm 7 -l eng batch.nochop makebox
3、使用jTessBoxEditor对box文件对比tif一个个字符校正
4、生成.tr训练文件
tesseract.exe eng.ver.exp0.tif eng.ver.exp0 -psm 7 nobatch box.train
3、新建文件font_properties,内容为ver 0 0 0 0 0 ,其中ver为上面的文件名第二个字段即字体名,需保存为无BOM的UTF8文件。
unicharset_extractor eng.ver.exp0.box
4、定义字体特征文件
mftraining.exe -F font_properties -U unicharset
5、完成训练
cntraining.exe eng.ver.exp0.tr
会产生5个文件:
inttemp
normproto
pffmtable
shapetable
unicharset
6、将以上文件改名,加上前缀selfverify.,注意有一点.,然后合并成为selfverify.traineddata文件
combine_tessdata.exe selfverify.
7、拷贝生成的selfverify.traineddata到tessdata目录
8、测试训练成果
tesseract test.jpg test -psm 7 -l selfverify
但本人测试却无法解析,不知道为何- -!待解决中。。。
1、使用jTessBoxEditor将验证码jpg文件merge tif合并成一个tif
2、生成box
tesseract eng.ver.exp0.tif eng.ver.exp0. -psm 7 -l eng batch.nochop makebox
3、使用jTessBoxEditor对box文件对比tif一个个字符校正
4、生成.tr训练文件
tesseract.exe eng.ver.exp0.tif eng.ver.exp0 -psm 7 nobatch box.train
3、新建文件font_properties,内容为ver 0 0 0 0 0 ,其中ver为上面的文件名第二个字段即字体名,需保存为无BOM的UTF8文件。
unicharset_extractor eng.ver.exp0.box
4、定义字体特征文件
mftraining.exe -F font_properties -U unicharset
5、完成训练
cntraining.exe eng.ver.exp0.tr
会产生5个文件:
inttemp
normproto
pffmtable
shapetable
unicharset
6、将以上文件改名,加上前缀selfverify.,注意有一点.,然后合并成为selfverify.traineddata文件
combine_tessdata.exe selfverify.
7、拷贝生成的selfverify.traineddata到tessdata目录
8、测试训练成果
tesseract test.jpg test -psm 7 -l selfverify
但本人测试却无法解析,不知道为何- -!待解决中。。。