使用 Perl 结合 Tesseract OCR 进行验证码识别

news/2025/3/14 21:27:04/文章来源:https://www.cnblogs.com/ocr12/p/18772910
  1. 环境准备
    1.1 安装 Perl
    Perl 通常默认安装在 Linux 和 macOS 系统中,可使用以下命令检查:
    更多内容访问ttocr.com或联系1436423940

perl -v
如果未安装,可以在 Windows 上通过 Strawberry Perl 安装,或者在 macOS/Linux 上使用:

sudo apt install perl # Ubuntu/Debian
brew install perl # macOS
1.2 安装 Tesseract OCR
Windows
从 Tesseract GitHub 下载并安装
确保 tesseract.exe 在系统 PATH 中
Linux(Ubuntu)
bash

sudo apt install tesseract-ocr
macOS(Homebrew)
bash

brew install tesseract
安装完成后,检查是否成功安装:

bash

tesseract --version
2. 代码实现
创建一个 captcha_reader.pl 文件,写入以下 Perl 代码:

perl

!/usr/bin/perl

use strict;
use warnings;

指定验证码图片路径

my $image_path = "captcha.png"; # 请替换为你的验证码图片路径
my $output_file = "captcha_result";

运行 Tesseract OCR 识别验证码

my $command = "tesseract $image_path $output_file -l eng";
system($command) == 0 or die "无法执行 Tesseract 命令: $!";

读取识别结果

open my $fh, '<', "$output_file.txt" or die "无法打开输出文件: $!";
my $text = do { local $/; <$fh> };
close $fh;

输出识别结果

print "识别出的验证码: $text\n";

清理临时文件

unlink "$output_file.txt";
3. 代码解析
3.1 使用 system() 调用 Tesseract
perl

my $command = "tesseract $image_path $output_file -l eng";
system($command) == 0 or die "无法执行 Tesseract 命令: $!";
system() 调用外部 Tesseract 命令
-l eng 指定使用英文 OCR 识别
captcha.png 是输入图片,captcha_result.txt 是输出 OCR 结果
3.2 读取 OCR 结果
perl

open my $fh, '<', "$output_file.txt" or die "无法打开输出文件: $!";
my $text = do { local $/; <$fh> };
close $fh;
读取 captcha_result.txt 文件,获取 OCR 识别的验证码文本
3.3 删除临时文件
perl
unlink "$output_file.txt";
清理 OCR 结果文件,避免生成多余文件
4. 运行代码
确保 captcha.png 存在于同一目录下,然后运行:

bash

perl captcha_reader.pl
示例输出:

makefile

识别出的验证码: A7G9X
5. 提高 OCR 识别率
5.1 使用 Tesseract PSM 模式
perl

my $command = "tesseract $image_path $output_file -l eng --psm 6";
--psm 6 适用于单行验证码,提高识别率
5.2 设置字符白名单
perl

my $command = "tesseract $image_path $output_file -l eng -c tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
限制 Tesseract 只识别验证码中的数字和大写字母
5.3 预处理图像
去噪点
二值化处理
字符分割

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/898879.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线程异步处理任务

实际开发中,service层可能会执行多个步骤,那有些步骤可能和主任务没有太大关联,那我们可以采用线程去处理,这样就提高响应速度,当然也可以采用MQ,此处介绍的是用线程处理 1、controller层@GetMapping("/thread")public void thread(){demo1Service.process();}…

08. 通用定时器

一、什么是通用定时器ESP32 S3 芯片配备了两个通用定时器组,每组均包含两个通用定时器和一个主系统看门狗定时器。每个通用定时器都具备多个通道。通过明确指定定时器号和通道号,用户可以精准地选定所需的定时器和通道。每个定时器均支持独立编程,并且具备微秒级的精确时间中…

全链路赋能游戏鸿蒙化适配,鸿蒙游戏开发者服务焕新升级

3月14日,华为游戏中心在成都开展了鸿蒙游戏开发者服务日线下活动。本次活动吸引了百余位游戏厂商代表以及开发者参与。华为一线技术专家团队与众多游戏开发者进行了面对面的深入交流,聚焦游戏鸿蒙化全流程技术实践,通过专家授课、案例解析与现场互动,为开发者提供从技术适配…

多线程程序设计(三)——Guarded Suspension

本文摘要了《Java多线程设计模式》一书中提及的 Guarded Suspension 模式的适用场景,并针对书中例子(若干名称有微调)给出一份 C++ 参考实现及其 UML 逻辑图,也列出与之相关的模式。 ◆ 适用场景 当线程访问的共享数据没有准备好时,让该线程进入等待状态,直到数据被准备好…

西部数据企业级硬盘HC310开盘数据恢复,300G左右数据量耗时半年

这块西数4T企业级硬盘HC310是杭州某研究所送过来的,突发损坏不识别,通电后咯吱咯吱敲盘异响,磁头坏了。这款企业级硬盘目前开盘成功率一般,因为磁头适配很困难,需要反复更换磁头,备件成本很高。这种硬盘的开盘难度跟服务器SCSI或SAS硬盘有的一拼,没有经验甚至拆一个废一…

5分钟,构建国产数据库智能体

近期,圈里很多朋友,都尝试利用 DeepSeek 构建自己的智能体。我也利用腾讯元器,将个人公众号内容做了个智能体,可以实现简单的问答。那么延展来看,智能体除了可利用公众号内容,也可使用离线文件等方式来构建。这不禁让我考虑,是否可用这样方式构造一个数据库智能体。说干…

Ubuntu 22.04 LTS 基于 Docker 部署 WordPress

Ubuntu 22.04 LTS 基于 Docker 部署 WordPress 1. 引言 WordPress 是全球最受欢迎的内容管理系统 (CMS),使用 Docker 可以简化其部署过程。本教程将介绍如何在 Ubuntu 22.04 LTS 上使用 Docker 部署 WordPress。2. WordPress 简介 2.1 WordPress 是什么? WordPress 是全球最流…

7.接雨水

给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例1:输入:height = [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝色部分表示…

K近邻算法等

1. KNN算法和KD - tree总结 1.1 KNN算法 模型 K近邻(K - Nearest Neighbors,KNN)算法是一种基本的分类与回归方法。它的模型实际上是对特征空间的划分,给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的 \(K\) 个实例,然后根据这 \(K\) 个实例的…

正则表达式--java进阶day06

1.正则表达式2.正则表达式的规则、使用3.字符类讲解如图,单独一个a满足正则表达式的规则,所以返回true当删去[]后,正则表达式中的规则就会变为必须是abc,否则不满足条件,即使有一个a该规则是指a-d或者m-p,可以写成[a-dm-p]4.预定义字符类注意事项 正则表达式中存在数量问…

探秘Transformer系列之(13)--- FFN

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。探秘Transformer系列之(13)--- FFN 目录探秘Transformer系列之(13)--- FFN0x00 概述0x01…

EXCEL-时间函数

💖简介 在Excel中,时间函数用于处理和操作日期和时间数据; 以下是Excel中常用的时间函数及其常见应用场景的总结.📖函数 ⭐时间函数基础 🌟TIME语法:TIME(hour, minute, second) 功能:将小时、分钟、秒转换为时间序列号(0到0.99999999之间的数值)。 示例:TIME(9,30…