HTML字符串的解析-dom4j

1. 问题出现

   最近做身份证识别,ocr识别返回一堆html格式的字符串:

<div class='ocr_page' id='page_1' title='image ""; bbox 0 0 648 648; ppageno 0'>
<div class='ocr_carea' id='block_1_2' title="bbox 29 213 648 332">
<p class='ocr_par' id='par_1_2' lang='eng' title="bbox 29 213 648 332">
<span class='ocr_line' id='line_1_5' title="bbox 29 213 648 332; baseline -0.011 -55; x_size 34.444443; x_descenders 8.6111107; x_ascenders 8.6111107"><span class='ocrx_word' id='word_1_13' title='bbox 29 245 327 280; x_wconf 18'><strong><em>ASCXVTHQHUUFWWXHS</em></strong></span> <span class='ocrx_word' id='word_1_14' title='bbox 362 213 648 332; x_wconf 58'><strong><em>u</em></strong></span> 
</span>
</p>
</div>
<div class='ocr_carea' id='block_1_3' title="bbox 87 394 611 429">
<p class='ocr_par' id='par_1_3' lang='eng' ti
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值