几款常用光学字符识别(OCR)软件比较

  • ABBYY FineReader

  • LEADTOOLS

  • Dynamsoft OCR SDK

  • Tesseract

  • ExperVisionTypeReader


    只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。


    名称支持平台编程语言字体语言输出格式备注TesseractWindows/MacOSX/LinuxC++,

     C40+文本,hOCR,其他开源,支持中文ExperVisionTypeReader

    Windows/MacOSX/Linux

    C/C++21hOCR多次获奖;不支持中文ABBYY FineReaderWindows/MacOSX/LinuxC/C++198DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2世界排名第一;识别精度达99%;LEADTOOLSWindows/MacOSX/LinuxC/C++, .NET, Objective-C, Java, JavaScript56PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别;CuneiForm/OpenOCRWindows/MacOSX/LinuxC/C++28 ? 企业级系统,可以保存文本格式,并识别结构的复杂表格Image to OCR ConverterWindowsC/C++, VB , .NET40PDF, Word, HTML, Text读取的图像格式和PDF文件,并可以从照相机扫描图像Dynamsoft OCR SDKWindowsC/C++40+PDF, TXT-Puma.NETWindowsC#28 ? -



    只要有扫描仪和光学字符识别(OCR)软件,将扫描文档转换成Word文档是相当容易的。扫描仪将纸质文档转换成扫描图像,而光学字符识别(OCR)软件则将所扫描的图像转换成PDF和Word等可编辑和可搜索的文档格式。在文档的转换过程中,OCR软件技术主要用来分析和比较带有数据库中所存字体的文档。虽然,OCR软件的识别准确率不可能达到100%,但是一些OCR软件包含拼写检查功能,可查出无法辨认的字。本文对多款常用OCR软件的性能进行了多角度的对比,希望为用户在选择和使用OCR软件时候提供一些实用性参考。

    光学字符识别(OCR)软件比较

    名称 支持平台 编程语言 字体语言 输出格式 备注
    Tesseract Windows/MacOSX
    /Linux
    C++, C 40+ 文本,hOCR,其他 开源,支持中文
    ExperVisionTypeReader

    Windows/MacOSX
    /Linux

    C/C++ 21 hOCR 多次获奖;不支持中文
    ABBYY FineReader Windows/MacOSX
    /Linux
    C/C++ 198 DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 世界排名第一;识别精度达99%;
    LEADTOOLS Windows/MacOSX
    /Linux
    C/C++, .NET, Objective-C, Java, JavaScript 56 PDF, PDF/A, DOC, DOCX, XLS, XPS, RTF, HTML, ANSI Text, Unicode Text, CSV 支持拉丁语, 亚洲语言,阿拉伯语,MICR字符集;支持整页或者部分区域的OCR识别;
    CuneiForm/OpenOCR Windows/MacOSX
    /Linux
    C/C++ 28 ? 企业级系统,可以保存文本格式,并识别结构的复杂表格
    Image to OCR Converter Windows C/C++, VB , .NET 40 PDF, Word, HTML, Text 读取的图像格式和PDF文件,并可以从照相机扫描图像
    Dynamsoft OCR SDK Windows C/C++ 40+ PDF, TXT -
    Puma.NET Windows C# 28 ? -




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值