Ocr之TesseractOcr的安装及使用

目录

一、安装环境

二、安装内容

三、安装过程及识别测试

1. 安装过程
2. 程序编写

总结

1. 安装复杂度较低
2. 国外开源Ocr
3. 可设置识别参数
4. 工具类

一、 系统环境windows 10

linux环境也可安装, 可借鉴此篇文章>> |

二、安装内容

Tesseract exe 程序安装
exe程序下载地址, 可选择版本安装>> |

# 我们这里安装的版本是
tesseract-ocr-w64-setup-5.3.1.20230401.exe

三、安装过程及识别测试

1. 安装过程
  • 安装后的目录结构
    默认安装在C盘。可选择路径。傻瓜式安装就可以
    在这里插入图片描述
  • 添加环境变量 TESSDATA_PREFIX=<安装的tessoract-ocr.exe后文件夹根路径>/tessdata
    在这里插入图片描述
2. 程序编写
  • 使用Tesseract进行识别程序的编写
    目前使用TesseractOcr已经更换为 PaddleOcr 了。源于TesseractOcr对背景模糊的图片识别率不高,使用PaddleOcr后识别率有明显提高。
    不过使用PaddleOcr识别过程会将图片进行预处理(图片放大和模糊处理再使用paddleocr识别效果更佳:后期会做记录并将链接加到此处)

  • 使用java程序进行识别需要引用 mvn 第三方依赖

    <!--ocr图像识别--><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>5.3.0</version></dependency>
    
  • 单元测试用例+执行结果
    在这里插入图片描述
    下方代码中对上方图片进行识别(图片名称:new33.jpg)

    @Test
    public void readImageByOcr() throws TesseractException {String imgSrc = "C:\\...\\changepic\\new33.jpg";File imgFile = new File(imgSrc);//创建tesseract对象Tesseract tes = new Tesseract();//语言包位置  根据实际环境修改替换tes.setDatapath("E:\\...\\Tesseract-OCR\\tessdata");//配置使用的语言  中文tes.setLanguage("eng");String imgText = tes.doOCR(imgFile);System.out.println("解析结果:" + imgText);
    }
    

    执行后
    在这里插入图片描述

  • 业务代码示例
    结合业务代码使用TesseractOcr。TesseractOcr使用时可传入不通参数。如language, variable等。
    tessedit_char_whitelist:设置白名单。下方demo限制内容为只能识别数字和字母

    /*** ocr识别* @param img* @param dataPath* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
    

总结

  1. 安装复杂度较低。
    相比于paddleocr的安装要简单的多(需要安装python环境及下载paddleocr相关内容)。paddleocr安装借鉴 gitee paddleocr开源代码>> |
  2. 属于国外开源Ocr。
  3. 可设置识别参数。可设置变量与识别语言。
  4. 使用Ocr时用到的工具类。可自行测试
package util;import cn.hutool.core.util.StrUtil;
import common.aspect.core.StringUtils;
import common.exception.CustomException;
import PO.RecognizeTemplate;
import service.PrintDcmOcrRecognizeService;
import lombok.extern.slf4j.Slf4j;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.beans.factory.annotation.Value;import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.awt.image.RasterFormatException;
import java.io.File;
import java.io.IOException;
import java.lang.reflect.Method;
import java.util.HashMap;
import java.util.Map;@Slf4j
public class ReadTextFromFileRegion {/*** @Description: ocr按区域识别文件**/public static String doRecognize(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcr(createImg(file, rectangle, formateName), dataPath, dpi);}/*** file: 图片文件* rectangle: 图片中需要识别的区域。如new Rectangle(x, y, w, h), 坐标及宽高* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* formateName: file文件的格式。如 JPG, PNG, DICOM等, * dpi: tesseractOcr识别时传入的参数。如:tesseract.setVariable("user_defined_dpi", dpi);*/public static String doRecognizeOrcOriginResult(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)throws Exception {if (!file.exists()) {throw new CustomException(0, "待识别文件不存在");}// OCR 文字识别return doOcrImpl(createImg(file, rectangle, formateName), dataPath, false, dpi, true);}/*** 截取的图像缓冲区*/private static BufferedImage createImg(File file, Rectangle rectangle, String formateName) throws Exception {BufferedImage img = readFile(file, rectangle, formateName);if(img == null) {log.warn("读取图像异常: img == null");throw new Exception("文件读取异常, 创建img为空.");}return img;}/*** @Description: 把文件转为BufferedImage对象,并截取指定区域**/private static BufferedImage readFile(File file, Rectangle region, String formateName) throws IOException {ImageInputStream iis = null;ImageReader reader = null;try {// 创建 ImageInputStream 对象iis = ImageIO.createImageInputStream(file);// 获取 指定 文件的 ImageReader 实例reader = ImageIO.getImageReadersByFormatName(formateName).next();// 设置解码器reader.setInput(iis);// 如果需要截取图像,获取完整的BufferedImage,然后截取指定区域BufferedImage image = reader.read(0);BufferedImage subImage = null;try{subImage = image.getSubimage(region.x, region.y, region.width, region.height);}catch (RasterFormatException e) {log.warn("截取图像异常: 识别区域超出边界. err.msg: {}", e.toString());return subImage;}// 释放完整的BufferedImageimage.flush();return subImage;} finally {// 关闭资源if (reader != null) {reader.dispose();}if (iis != null) {iis.close();}}}/*** @Description: ocr按区域识别pdf文件**/public static String doPdfRecognize(File pdfFile, String dataPath) throws Exception {BufferedImage img = readPdfToImage(pdfFile);// 按自定义区域截取图像BufferedImage subImage = img.getSubimage(460, 170, 320, 100);// OCR 文字识别return doOcr(subImage, dataPath, "120");}/*** @Description: 把pdf转为图像,renderImageWithDPI方法的第二个参数dpi影响图像分辨率,经测试dpi为300,生成2k分辨率的图像**/private static BufferedImage readPdfToImage(File pdfFile) throws IOException {try (PDDocument document = PDDocument.load(pdfFile)) {PDFRenderer renderer = new PDFRenderer(document);return renderer.renderImageWithDPI(0, 300);}}/*** @Description: 使用Tesseract进行ocr识别**/private static String doOcr(BufferedImage img, String dataPath, String dpi) throws TesseractException {return doOcrImpl(img, dataPath, true, dpi, false);}/*** ocr识别* @param img* dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)* @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)* @param dpi 分辨率, 默认 96* @param charNoLimit 识别空格: true, 不识别空格: false* @return* @throws TesseractException*/private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {// 初始化 OCR 引擎Tesseract tesseract = new Tesseract();File tessDataFolder = LoadLibs.extractTessResources("tessdata");tesseract.setDatapath(tessDataFolder.getAbsolutePath());//语言包位置  根据实际环境修改替换tesseract.setDatapath(dataPath);//配置使用的语言  中文tesseract.setLanguage("eng");if(!charNoLimit) {//限制只识别数字字母tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");}//设置分辨率tesseract.setVariable("user_defined_dpi", dpi);String result = tesseract.doOCR(img);if(replacedEmp) {// 文字识别-过滤空白、换行符result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);}return result;}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/466344.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

锐捷(二十一)全局地址绑定

vlan划分和vlanif接口配置略&#xff0c;注意vlanif接口里要no shutdown配置如下&#xff1a; Address-bind 192.168.1.1 AAAA.BBBB.CCCCAddress-bind uplink g0/0Address-bind binding-filter loggingAddress-bind install 此时&#xff0c;IP为192.168.1.1 mac地址为AAAA.B…

2022年9月电子学会青少年软件编程 中小学生Python编程等级考试二级真题解析(选择题)

2022年9月Python编程等级考试二级真题解析 选择题&#xff08;共25题&#xff0c;每题2分&#xff0c;共50分&#xff09; 1、运行以下代码&#xff0c;结果输出的是 means[Thank,You] print(len(means)) A、1 B、2 C、6 D、8 答案&#xff1a;B 考点分析&#xff1a;考…

前端JavaScript篇之对象继承的方式有哪些?

目录 对象继承的方式有哪些&#xff1f;1. 原型链继承2. 借用构造函数3. 组合继承4. 原型式继承5. 寄生式组合继承 对象继承的方式有哪些&#xff1f; 1. 原型链继承 当使用原型链继承时&#xff0c;子类型的原型对象被设置为父类型的一个实例。这意味着子类型通过其原型可以…

【知识整理】技术新人的培养计划

一、培养计划落地实操 1. 概要 新人入职&#xff0c;要给予适当的指导&#xff0c;目标&#xff1a; 1、熟悉当前环境&#xff1a; 生活环境&#xff1a;吃饭、交通、住宿、娱乐 工作环境&#xff1a;使用的工具&#xff0c;Mac、maven、git、idea 等 2、熟悉并掌握工作技…

苹果Mac键盘如何将 F1 到 F12 取消按Fn

苹果电脑安装了Win10操作系统之后&#xff0c;F1到F12用不了怎么办的解决方法。本文将介绍一些解决方法&#xff0c;帮助您解决无法使用F1到F12功能键的问题。 使用 Mac系统的人都知道&#xff0c;Mac系统默认是没有开启 F1-F12 的使用的&#xff0c;平时我们使用的系统都可以使…

C++三剑客之std::optional(一) : 使用详解

相关文章系列 C三剑客之std::optional(一) : 使用详解 C三剑客之std::any(一) : 使用 C之std::tuple(一) : 使用精讲(全) C三剑客之std::variant(一) : 使用 C三剑客之std::variant(二)&#xff1a;深入剖析 目录 1.概述 2.构建方式 2.1.默认构造 2.2.移动构造 2.3.拷贝构…

中科大计网学习记录笔记(八):FTP | EMail

前言&#xff1a; 学习视频&#xff1a;中科大郑烇、杨坚全套《计算机网络&#xff08;自顶向下方法 第7版&#xff0c;James F.Kurose&#xff0c;Keith W.Ross&#xff09;》课程 该视频是B站非常著名的计网学习视频&#xff0c;但相信很多朋友和我一样在听完前面的部分发现信…

js改善轮播图(transform)时内部文本上下闪动问题

前些天绘制轮播图时&#xff0c;发现轮播图中不同span标签内&#xff08;样式不同&#xff09;文字上下跳动。 为了防止眩晕在岗位上&#xff0c;需要对其进行改善&#xff0c;试了很多种方法&#xff0c;最后来总结一下&#xff1a; 我的轮播图template代码片段&#xff1a; …

分享88个鼠标特效,总有一款适合您

分享88个鼠标特效&#xff0c;总有一款适合您 88个鼠标特效下载链接&#xff1a;https://pan.baidu.com/s/1ljcxwgXGpw7baiufUGJjZA?pwd8888 提取码&#xff1a;8888 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;收集整理更不…

STM32 TIM输入捕获

单片机学习&#xff01; 目录 文章目录 前言 一、输入捕获 1.1 输入捕获简介 1.2 输出比较和输入捕获执行逻辑的对比&#xff1a; 1.2.1 输出比较 1.2.2 输入捕获 1.2.3 输出比较和输入捕获对比总结 1.3 输入捕获作用 1.4 三种定时器的输入捕获通道分布 1.5输入捕获的PWMI模式和…

Vue3快速上手(二)VSCode官方推荐插件安装及配置

一、VSCode官方插件安装&#xff0c;如下图2款插件 在用vite创建的程序里&#xff0c;提示提安装推荐的插件了&#xff0c;如下图&#xff1a; 二、配置 在设置-扩展里找到Volar插件&#xff0c;将Dot Value勾选上。这样在ref()修改变量时&#xff0c;会自动填充.value,无需…

【蓝桥杯冲冲冲】Prime Gift

【蓝桥杯冲冲冲】Prime Gift 蓝桥杯备赛 | 洛谷做题打卡day31 文章目录 蓝桥杯备赛 | 洛谷做题打卡day31Prime Gift题面翻译题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 样例 #2样例输入 #2样例输出 #2 提示题解代码我的一些话 Prime Gift 题面翻译 给你 n n n 个…