葡萄城控件旗下网站葡萄城控件旗下网站
LEADTOOLS中文官方网站 > 所有产品 > 文档 > OCR文字识别工具包

LEADTOOLS OCR SDK

OCR

LEADTOOLS为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的先进文字识别技术SDK。利用LEADTOOLS OCR文字识别工具包,可以快速的开发健壮的、可扩展的、高性能识别的文档处理应用程序,这些应用程序可提取出扫描文件中的文本,将图像转化为文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。

LEADTOOLS广泛支持40余种字符集,编程者通过提供多语言的解决方案扩展用户群,包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语及更多。

OCR screenshot

LEADTOOLS OCR SDK技术的概述

  • 在任何应用和环境下,均可快速、准确和可靠地完成光学字符识别
    • 大量文件的批处理
    • 单一和多页文档
    • Web和云应用
  • 全面的最大性能多线程支持
  • 功能齐全的SDK
    • 用于图像到最终文档的一次性识别的高级类
    • 全面定制的低层次功能
  • 支持多文字识别引擎
    • 用于机器打印文本的OCR文字识别
    • 用于手写文本的ICR
    • 用于检查处理的MICR
    • 用于护照号码的MRZ&MRP
  • 识别40余种语言和字符集的文本,包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等
  • 拼写检查和字典支持
  • 自动检测、分割和识别同一个文档中的多种语言
  • 整页分析和区域识别
  • 针对扫描文件和图片,有独一无二的彩色和黑白图像识别
  • 自动的文件清除
    • 全方位的噪点去除
    • Undither文本
    • 点阵校正
    • 从表中删除行的选项
  • 自动的文档预处理
    • 扫描文件的抗扭斜处理
    • 以完整文档或逐页的模式检测和更正文件的方向(翻转的或颠倒的)
  • 完全配置的识别引擎
    • 用字符和数字过滤器缩小可能的结果
    • 多次表决技术提高准确率
    • 跟踪和发展回调
    • 启用/禁用快速文本识别的字体特征
  • 文本结果的全面报告
    • 字符的位置、大小和基线
    • 字符属性(词末、行末、段末等)
    • 字体属性(等宽字体、比例、衬线、无衬线、粗体、斜体、下划线、删除线)
    • 置信度
    • 可将识别出的文本存到一块区域或一个页面上,不需要存入到外部文件中
  • 输出可搜索的文件格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等,并保持原来的外观和感觉
    • 可检测文本字体的特色(字体类型名称、样式、大小、粗体、斜体、下划线、删除线等)
    • 位置
    • 表重建
    • 布局
    • 图形
  • LEADTOOLS Forms Recognition and Processing无缝结合
  • 使用LEADTOOLS Distributed Computing SDK实现大规模的分布式OCR应用程序

Automatic Zone Recognition
Automatically segments an image into various zones which can improve recognition accuracy and efficiency

Manual Zone Recognition
Allow the user to draw and recognize text from specific regions of interest

Zone Types

  • Paragraph
  • Text
  • Numeric
  • Table
  • MICR
  • Graphic

LEADTOOLS OCR Engines

LEADTOOLS OCR SDK包括以下识别技术:

Advantage OCR引擎

运用本地库完成Windows x86/x64, .NET, WinRT, iOS, OS X 和 Android的内部开发。

内部开发的优点

  • 不断增加提高速度和准确率的新特性和新改进
  • 根据用户的反馈和功能要求,通过实际应用的解决方案增强和扩展引擎

Professional OCR引擎

许可Nuance Omnipage 18 识别引擎,且包括了Windows x86/x64和.NET的本地库。

可互换的高级接口

LEADTOOLS以高水准的接口为特色,运用仅仅一行代码提取和简化多个识别引擎的使用。例如,当你其余的代码保持不变时,以下的代码决定了哪个识别引擎会被使用。

// Use Advantage
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);
// Use Professional
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Professional, false);

三行代码将TIFF转为可搜索的 PDF

LEADTOOLS OCR SDK提供了高层的编程接口,允许开发者在记录时间内创建复杂的识别应用。例如,运用AutoRecognizeManager,开发者仅用三行代码可将150多种图形格式转化为文本可搜索的格式,如PDF或者DOC。

TIFF to PDF in 3 Lines of Code

OCR文字识别语言

LEADTOOLS支持以下40余种语言的文字识别:

  • English (en)
  • Afrikaans (af)
  • Albanian (sq)
  • Arabic (ar)
  • Basque (eu)
  • Belarusian (be)
  • Bulgarian (bg)
  • Catalan (ca)
  • Chinese Simplified (zh-Hans)
  • Chinese Traditional (zh-Hant)
  • Croatian (hr)
  • Czech (cs)
  • Danish (da)
  • Dutch (nl)
  • Estonian (et)
  • Faroese (fo)
  • Finnish (fi)
  • French (fr)
  • Galician (gl)
  • German (de)
  • Greek (el)
  • Hungarian (hu)
  • Icelandic (is)
  • Japanese (ja)
  • Korean (ko)
  • Indonesian (id)
  • Italian (it)
  • Latvian (lv)
  • Lithuanian (lt)
  • Macedonian (mk)
  • Norwegian (no)
  • Polish (pl)
  • Portuguese (pt)
  • Portuguese Brazil (pt-BR),
  • Romanian (ro)
  • Russian (ru)
  • Serbian (sr)
  • Serbian Cyrillic (sr-Cyrl-CS)
  • Slovak (sk)
  • Slovenian (sl)
  • Spanish (es)
  • Swedish (sv)
  • Turkish (tr)
  • Ukrainian (uk)
  • Vietnamese (vi)

平台和编程接口

葡萄城成立于1980年,是全球最大的控件提供商,世界领先的企业应用定制工具、企业报表和商业智能解决方案提供商,为超过75%的全球财富500强企业提供服务。葡萄城于1988年在中国设立研发中心,在全球化产品的研发过程中,不断适应中国市场的本地需求,并为软件企业和各行业的信息化提供优秀的软件工具和咨询服务。

邮箱: leadtools.xa@grapecity.com | 电话: 029-88338532 | 微博: 葡萄城控件官方微博葡萄城控件

©2016 西安葡萄城