OCR转换技巧:如何避免图片转Word时出现多余的换行?

8d7f89f3eaccf2918bc2274817a99cc2.jpeg

在将图片中的文字识别转换为Word文档时,我们很多时候时会遇到识别内容的一个自然段还没结束就换行的问题,这些就是我们常说的多余换行的问题。为什么会产生这个问题呢?主要是由于OCR返回的识别结果是按图片上的文字换行而换行,而不是以自然段为换行依据。

054e4cd92f4cfa4a849ed4a029b9f965.jpeg

这会产生什么样的危害呢?一是word中会出现很多多余的回车符,看起来很是障眼,特别是对有“洁癖”的人来说,心里更不是滋味,怎么办呢?

笔者推荐的方法是使用金鸣表格文字识别大师来解决。具体操作方法如下:

4c0289d9800762bfc9ed4d4a15952efd.jpeg

一、使用高精还原的“智能优化”输出。选择这种输出方式,程序会调用AI智能分段

06650469a836c3cc3b0b1c9242698be1.jpeg

功能,将自动识别自然段,只有满足一个自然段的条件下才会换行。这种输出方式最适合文字较多的图片,如文章、图书、公文等。

ffd0674beccac73a395cd614970656d3.jpeg

二、使用高精还原的“还原结构”。还原结构即还原排版,使用这种方式输出,程序在OCR识别后会根据图片上的文字坐标,还原原有的文字排版,从而避免出现多余的换行。采用这种方式的好处是能还原排版,缺点是图片需要保持整洁和端正,如果图片上的文字排列歪了的话,出来的word排版也会歪,因此,这种输出方式最适合截图识别,以及用传统扫描仪成像的图片识别。

df808775984312e3131ab0cd857d43fb.jpeg

在金鸣表格文字识别移动端,“分段优先”对应“智能优化”,而“排版优先”则对应“还原结构”,它们转出来的效果跟电脑软件是一样的。

974769aa20a088cdaf2b148b4ff4406e.jpeg

另外一种处理方法就是OCR识别后手工处理。在OCR识别后,可以使用文本编辑软件(如Notepad++、Sublime Text等)对识别结果进行处理。例如,可以使用“查找和替换”功能来删除多余的换行符;或者使用“段落格式化”功能来重新排版文本。这种方法比较麻烦,会增加较多的工作量。

总之,为了避免在将图片转换为Word文档时出现多余的换行问题,我们可以选择专业的OCR软件(如金鸣表格文字识别大师),以及进行识别后处理手工处理等方法。这些方法能够有效地提高OCR识别的准确性,并避免出现不必要的换行问题。#word技巧#

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/171759.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知识竞赛中常用的物料有哪些

办一场知识竞赛,需要准备的物料要根据具体竞赛规则和流程来定。但是要仔细分析起来,还是可以做一个常用物料清单的,下面我将知识竞赛活动中常用的物料做了一个分类和列表,大家以后在竞赛活动举办过程中,可以参考。 一、…

【STM32】定时器+基本定时器

一、定时器的基本概述 1.软件定时器原理 原来我们使用51单片机的时候,是通过一个__nop()__来进行延时 我们通过软件的方式来进行延时功能是不准确的,受到很多不确定因素。 2.定时器原理:计数之间的比值 因为使用软件延时受到影响&#xff0c…

IntelliJ IDEA 安装 GitHub Copilot插件 (最新)

注意: GitHub Copilot 插件对IDEA最低版本要求是2021.2,建议直接用2023.3,一次到位反正后续要升级的。 各个版本的依赖关系,请参照: ##在线安装: 打开 IntelliJ IDEA扩展商店,输入 "Git…

HTML 之常用标签的介绍

文章目录 h标签p标签a标签img 标签table、tr、td标签ul、ol、li 标签div 标签 h标签 <h> 标签用于定义 HTML 文档中的标题&#xff0c;其中 h 后面跟着一个数字&#xff0c;表示标题的级别。HTML 提供了 <h1> 到 <h6> 六个不同级别的标题&#xff0c;其中 &…

[C++]Leetcode17电话号码的字母组合

题目描述 解题思路&#xff1a; 这是一个深度优先遍历的题目&#xff0c;涉及到多路递归&#xff0c;下面通过画图和解析来分析这道题。 首先说到的是映射关系&#xff0c;那么我们就可以通过一个字符串数组来表示映射关系&#xff08;字符串下标访问对应着数字映射到对应的…

打破语言壁垒,实现全球商贸:多语言多商户跨境商城源码引领电商新潮流

随着全球化的不断深入&#xff0c;电子商务的蓬勃发展&#xff0c;传统的单语言电商模式已经无法满足日益多元化的市场需求。多语言多商户跨境商城源码&#xff0c;一种创新的电商解决方案&#xff0c;应运而生。它打破了语言和地域的限制&#xff0c;让全球的商家和消费者都能…

这 11 个 for 循环优化你得会

日常开发中&#xff0c;经常会遇到一些循环耗时计算的操作&#xff0c;一般也都会采用 for 循环来处理&#xff0c;for 作为编程入门基础&#xff0c;主要是处理重复的计算操作&#xff0c;虽然简单好用&#xff0c;但在写法上也有很多的考究&#xff0c;如果处理不好&#xff…

时间序列预测实战(十五)PyTorch实现GRU模型长期预测并可视化结果

往期回顾&#xff1a;时间序列预测专栏——包含上百种时间序列模型带你从入门到精通时间序列预测 一、本文介绍 本文讲解的实战内容是GRU(门控循环单元)&#xff0c;本文的实战内容通过时间序列领域最经典的数据集——电力负荷数据集为例&#xff0c;深入的了解GRU的基本原理和…

百度智能云千帆大模型平台再升级,SDK版本开源发布!

&#x1f4eb;作者简介&#xff1a;小明java问道之路&#xff0c;2022年度博客之星全国TOP3&#xff0c;专注于后端、中间件、计算机底层、架构设计演进与稳定性建设优化&#xff0c;文章内容兼具广度、深度、大厂技术方案&#xff0c;对待技术喜欢推理加验证&#xff0c;就职于…

设置虚拟机静态IP

1、修改配置文件 /etc/sysconfig/network-scripts/ifcfg-ens160 将BOOTPROTOdhcp改为static&#xff0c;天机IPADDR192.168.10.13 2、重启网络服务 systemctl restart network

批量重命名软件推荐 A Better Finder Rename 12最新 for mac

A Better Finder Rename的大量重命名选项被组织成15个直观的类别&#xff0c;涵盖了一个伟大的文件重命名器所期望的所有文本&#xff0c;字符&#xff0c;位置&#xff0c;转换和截断功能。 除此之外&#xff0c;A Better Finder Rename提供了更多高级功能&#xff0c;可以满…

C51--PC通过串口(中断)点亮LED

B4中的&#xff1a;REN允许 / 禁止串行接收控制位 REN 1为允许串行接收状态。 接收数据必须开启。所以SCON&#xff1a;0101 0000 &#xff1b;即0x50 如何知道数据已经接收 RI位&#xff1a;当收到数据后 RI 1&#xff08;由硬件置一&#xff09; 硬件置一后必须用软件…