使用 PHP 结合 Tesseract OCR 进行验证码识别

news/2025/3/14 18:11:53/文章来源:https://www.cnblogs.com/ocr12/p/18772587
  1. 环境准备
    1.1 安装 PHP
    如果尚未安装 PHP,可以使用以下命令安装:

Windows 用户:可从 PHP 官方网站 下载并安装。

Linux 用户(Ubuntu 示例):

bash

sudo apt update
sudo apt install php
macOS 用户(使用 Homebrew):

bash

brew install php
安装完成后,检查 PHP 是否可用:

php -v
1.2 安装 Tesseract OCR
Windows 用户:

下载 Tesseract 安装包:Tesseract GitHub
安装后将 tesseract.exe 路径添加到系统环境变量中。
Linux 用户(Ubuntu 示例):

bash

sudo apt install tesseract-ocr
macOS 用户(Homebrew):

bash

brew install tesseract
安装完成后,检查是否成功安装:

bash

tesseract --version
2. 代码实现
2.1 读取 & 处理验证码
创建 captcha_reader.php 并编写以下代码:

php

  1. 代码解析
    3.1 使用 exec() 调用 Tesseract
    php

exec("tesseract captcha.png output -l eng");
tesseract captcha.png output -l eng:调用 Tesseract 处理 captcha.png 并将结果存入 output.txt。
3.2 读取识别结果
php

$text = file_get_contents("output.txt");
读取 output.txt 并返回识别文本。
3.3 处理异常
file_exists($imagePath) 确保图像文件存在。
unlink($outputFile) 删除临时文件,防止占用存储空间。
4. 运行程序
确保 captcha.png 存在于当前目录下,然后执行:

bash

php captcha_reader.php
示例输出:

makefile

识别出的验证码: X9G7A
5. 提高 OCR 识别准确率
5.1 设定 Tesseract PSM 模式
php

$command = "tesseract " . escapeshellarg($imagePath) . " " . escapeshellarg($outputFile) . " -l eng --psm 6";
--psm 6 适用于单行文本验证码,提高识别率。
5.2 设置字符白名单
php
更多内容访问ttocr.com或联系1436423940
$command = "tesseract " . escapeshellarg($imagePath) . " " . escapeshellarg($outputFile) . " -l eng -c tessedit_char_whitelist=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
限制 Tesseract 只识别验证码中的数字和大写字母。
5.3 进一步图像优化
去噪点
二值化处理
字符分割

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/898788.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用C#创建一个MCP客户端

前言 网上使用Python创建一个MCP客户端的教程已经有很多了,而使用C#创建一个MCP客户端的教程还很少。 为什么要创建一个MCP客户端呢? 创建了一个MCP客户端之后,你就可以使用别人写好的一些MCP服务了。 效果展示 为了方便大家复现,我没有使用WPF/Avalonia之类的做界面。只是…

Maven JavaFX使用SCSS样式表

原理 JavaFX本身的CSS解析器不支持SCSS,因此我们需要在编译阶段将SCSS文件编译为CSS文件,然后在JavaFX中引入CSS文件。 本文使用的编译插件是sass-cli-maven-plugin。 使用 POM文件设置 代码如下: <build><plugins><plugin><groupId>us.hebi.sass&l…

linux中如何判断一个rpm是手动安装还是通过yum安装的

现状 对于一个不熟悉的服务器或者是虽然是自己的服务器,但历史比较久远,对于上面安装了的一些软件包,我们记忆都慢慢模糊了。 我今天遇到一个情况,在安装一个工具x2openEuler时,安装失败,提示依赖冲突: [root@VM-0-6-centos x2openeuler]# yum install x2openEuler-core…

如何让你的应用在市场中脱颖而出?

开发者在完成应用开发并成功上架应用市场后,将面临一项重要挑战:如何在竞争激烈的环境中脱颖而出,吸引用户的关注?为此,提升应用的曝光度和下载量至关重要。 HarmonyOS SDK应用市场服务(Store Kit)提供应用市场业务的对外开放能力,针对想要获得曝光的应用,Store Kit提…

阿里通义实验室语音团队负责人鄢志杰离职;苹果计划在 AirPods 上配备实时对话翻译功能丨日报

开发者朋友们大家好:这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑…

OP90-1工作原理

step1.压紧弹簧及产品 上下气缸压紧弹簧,产品压紧气缸压紧产品step2.弹簧钩下降 拉簧钩紧气缸伸出,带动弹簧钩下降step3.弹簧钩带动弹簧转动,下弹簧脚进槽step4.弹簧钩提起step5.弹簧钩旋转,带动弹簧越过高处,到达卡槽正上方step6.弹簧钩下降step.弹簧钩回退撤出 弹簧钩回…

Java的volatile和sychronized底层实现

1. 概览 从Java代码级别到硬件级别各层都是如何实现的2. Synchronized 2.1 字节码层面 使用javap -verbose <class文件>可以查看到字节码信息,其中synchronized方法会有flags:ACC_SYNCHRONIZED,此时字节码中不会包含monitorenter和moniotrexit,JVM会自动加 public syn…

信息资源管理文字题之“服务支持类的五大运营流程图”

一、为了充分利用ERP信息系统资源,LX集团采用了各种先进的信息系统管理理念和方法,包括IT服务管理,下图为LX集团IT服务管理中服务支持类的五大运营流程图 要求:将图中标有序号的空白处的正确能容,按序号填写 二、答案变更请求 最终软件库 配置管理数据库 影响分析 授权 变…

洛谷 P3979 遥远的国度 做题记录

ds。前置芝士:树链剖分 思路 我们先随手画出一张图:我们首先以 \(1\) 为根构造这颗树。 这张图比较特殊,因为这张图的编号同时也是他的 dfn 序。 我们将其分类讨论。设当前根节点为 \(rt\),查询的节点为 \(x\),那么:当 \(rt=x\) 时(图中蓝圈部分),我们可以访问所有的节…

actuator-系统监控功能

系统监控功能actuator-系统监控功能 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-actuator</artifactId> </dependency>application.yml server:port: 8080servlet:context-path: …

首页页面布局(1)

import { TaskItem } from ../view/TaskItemimport { TaskStatisties } from ../view/TaskStatisties@Entry@Componentstruct TaskList { @State message: string = Hello World build() { Stack({alignContent:Alignment.BottomEnd}){ Column() { // 第1个模…

算法备案承诺书指南,5分钟速览

算法备案承诺书是算法备案初审的重要文件,和《落实算法安全责任基本情况》是初审阶段难度最大的两份材料。今天我就结合过往经验总结下这份文件的要点,帮助大家快速理解。TIPS:不要照搬这份模板,仅供学习了解。也不要买模板!不同行业和不同服务形态、不同服务对象都有区别…