• 首页
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案
目录

OCR (光学字符识别)如何工作

OCR 通过以下步骤工作:1、图像采集,是指扫描仪读取文档并将这些文档转换为二进制数据;2、预处理,是指OCR 软件首先清理图像并删除错误,以为读取做好准备;3、文本识别,主要是指OCR 软件进行模式匹配和特征提取;4、后处理,是指分析后的系列处理。

一、OCR 如何工作?

OCR 引擎或 OCR 软件通过以下步骤工作:

1、图像采集

扫描仪读取文档并将这些文档转换为二进制数据。OCR 软件分析扫描的图像,将淡色区域分类为背景,将深色区域分类为文本。

2、预处理

OCR 软件首先清理图像并删除错误,以为读取做好准备。以下为其使用的一些清理技术:

  • 扫描期间,对扫描文档进行轻微的偏移校正或倾斜,以修复对齐问题。
  • 去除杂点、移除数字图像斑点或平滑文本图像边缘。
  • 清理图像中的边框和线条。
  • 多语言 OCR 技术的脚本识别

3、文本识别

OCR 软件用于文本识别的 OCR 算法或软件流程的两个主要类型为模式匹配和特征提取。

模式匹配

模式匹配分离字符图像(称为标志符号),并将其与存储的类似标志符号进行对比。模式匹配仅在存储的标志符号与输入的标志符号具有类似字体和大小时才能发挥作用。对于以已知字体输入的文档的扫描图像,此方法效果很好。

特征提取

特征提取将标志符号分割或分解为线条、闭环、线条方向和线条焦点等特征。然后,其使用这些特征在存储的多种标志符号中查找最佳匹配或最相近的匹配。

4、后处理

分析后,系统将提取的文本数据转换为计算机化的文件。某些 OCR 系统可以创建带注释的 PDF 文件,内含扫描文档的扫描前后版本。

相关文章