Java 和 Tesseract OCR 实现验证码识别-编程知识

Java 和 Tesseract OCR 实现验证码识别

news/2025/2/5 23:27:15/文章来源:https://www.cnblogs.com/ocr12/p/18700319

验证码识别是自动化测试和爬虫开发中常见的任务之一。本文将介绍如何通过 Java 和 Tesseract OCR 实现验证码的自动识别，展示如何加载验证码图片、处理图像并进行文字识别。

环境准备
安装 Tesseract OCR
在开始之前，确保 Tesseract OCR 已安装：

Windows：从 Tesseract OCR 官网下载安装。
Linux：使用以下命令安装：
bash

sudo apt install tesseract-ocr
macOS：通过 Homebrew 安装：
bash

brew install tesseract
安装完成后，在终端中运行以下命令确认安装成功：

bash

tesseract --version
配置 Java 项目
为了使用 Tesseract OCR，我们需要引入 Tess4J，它是 Tesseract 的 Java 封装库。可以通过 Maven 引入 Tess4J：

Maven 依赖：

xml

net.sourceforge.tess4jtess4j5.4.0 2. 编写验证码识别代码以下是一个简单的 Java 程序，用于加载图像并通过 Tesseract OCR 进行识别：

java

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;

public class CaptchaRecognition {

public static void main(String[] args) {// 指定验证码图片路径String imagePath = "captcha.png";// 初始化 Tesseract OCR 引擎ITesseract tesseract = new Tesseract();// 设置 Tesseract 数据路径（需要包含 tessdata 文件夹）tesseract.setDatapath("tessdata");// 设置语言为英文tesseract.setLanguage("eng");try {// 加载图像BufferedImage image = ImageIO.read(new File(imagePath));// 识别图像中的文字String result = tesseract.doOCR(image);// 输出识别结果System.out.println("识别的验证码是: " + result);} catch (TesseractException | IOException e) {System.err.println("识别失败: " + e.getMessage());}
}

}
3. 图像预处理
为了提高 OCR 的识别准确率，可以在识别之前对图像进行预处理。以下是一些常见的处理方法：

灰度化：将图像从彩色转换为灰度。
二值化：将图像转换为黑白，提高对比度。
去噪：移除背景噪点和干扰线条。
示例：在 Java 中处理图像
可以使用 java.awt 和 javax.imageio 提供的工具来对图像进行预处理：

java

import java.awt.Color;
import java.awt.image.BufferedImage;

public class ImagePreprocessor {

public static BufferedImage preprocessImage(BufferedImage image) {// 创建灰度图像BufferedImage grayImage = new BufferedImage(image.getWidth(), image.getHeight(), BufferedImage.TYPE_BYTE_GRAY);for (int x = 0; x < image.getWidth(); x++) {for (int y = 0; y < image.getHeight(); y++) {// 获取像素颜色Color color = new Color(image.getRGB(x, y));// 计算灰度值int gray = (color.getRed() + color.getGreen() + color.getBlue()) / 3;// 设置灰度值grayImage.setRGB(x, y, new Color(gray, gray, gray).getRGB());}}return grayImage;
}

}
将预处理方法集成到主程序中：

java

BufferedImage originalImage = ImageIO.read(new File(imagePath));
BufferedImage processedImage = ImagePreprocessor.preprocessImage(originalImage);

// 使用 Tesseract OCR 识别预处理后的图像
String result = tesseract.doOCR(processedImage);
4. 提高识别准确率
使用白名单过滤字符

如果验证码只包含数字或字母，可以通过设置字符白名单限制识别范围：
java

tesseract.setTessVariable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ");
调整页面分割模式

Tesseract 提供多种页面分割模式（PSM），可以根据验证码特点选择最合适的模式。例如：
java

tesseract.setPageSegMode(7); // 单行文本模式
拆分字符

对于包含多个字符的验证码，可以先将字符切割为独立的小图，再分别识别。
训练自定义模型

如果验证码的字体或风格较为特殊，可以通过训练 Tesseract 的自定义模型来提升识别效果。
5. 运行程序
将代码保存为 Java 文件（如 CaptchaRecognition.java），确保 tessdata 文件夹和验证码图片位于项目路径中。编译并运行程序：

bash

javac -cp .:tess4j.jar CaptchaRecognition.java
java -cp .:tess4j.jar CaptchaRecognition
程序运行成功后，将输出识别结果，例如：