Tesserocr 的安装步骤

Tesserocr 的安装

OCR,即 Optical Character Recognition,光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。那么对于图形验证码来说,它都是一些不规则的字符,但是这些字符确实是由字符稍加扭曲变换得到的内容。

Tesserocr 是 Python 的一个 OCR 识别库,但其实是对 Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract

安装步骤

一、安装tesseract

win10电脑中,安装tesseract可以进入该网址进行下载 Index of /tesseract

文件名中带有dev的为开发版本,不带dev的为稳定版本。

下载完成之后双击安装即可,在安装过程中可以勾选上 Additional language data 选项,安装 OCR 识别支持的语言包,这样 OCR 便可以识别多国语言。不勾选可自行下载语言包添加至essdata目录下。

二、配置环境

  • 打开安装目录并拷贝 :

  • 点击此电脑右键属性->高级系统设置->高级->环境变量:

  • 在这两个path中均添加tesseract-ocr的安装路径:

  • 在系统变量中新建一个变量TESSDATA_PREFIX。值为刚刚的路径加上\tessdata

三、安装tesserocr包

在Pycharm终端执行:

 pip install tesserocr pillow

若安装失败,则通过.whl文件安装。

下载地址: Releases · simonflueckiger/tesserocr-windows_build (github.com) ,找对应版本,本例为tesserocr-2.6.2-cp37-cp37m-win_amd64

本例下载至D盘,下载完成后,在终端执行:

 pip3 install D:/tesserocr-2.6.2-cp37-cp37m-win_amd64.whl

可以发现安装完成。

四、测试

测试代码如下:

 import tesserocrfrom PIL import Imageimage = Image.open('test.png')      # 验证码图片可自行下载result = tesserocr.image_to_text(image)print(result)

五、添加语言

可以在终端执行:(此命令列出所有语言包)

 (.spider81) PS D:\Python Web\python_spider8ed> tesseract --list-langsList of available languages in "D:\Program Files (x86)\Tesseract-OCR\tessdata/" (4):engosdequ

结果显示其只支持几种语言,如果我们想要安装多国语言还需要安装语言包,官方叫做 tessdata

下载链接: https://github.com/tesseract-ocr/tessdata 比如 chi_sim 就代表简体中文

将其移动至安装路径下的D:\Program Files\Tesseract-OCR\tessdata目录下。

接下来再安装 Tesserocr 即可,直接使用 Pip 安装

 pip install tesserocr pillow

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/618861.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA 使用备忘录(不断更新)

IDEA 项目结构(注意层级结构,新建相应结构时,按照以下顺序新建): project(项目) module(模块) package(包) class(类) 项…

推荐一款基于vim的超可扩展文本编辑器neovim

一、简介 Vim是一个基于流行的Vi编辑器的文本编辑器,最初是在20世纪70年代发布的。Vim代表“改进的Vi”,它拥有广泛的用户基础和广泛的可用插件和扩展。 Neovim是Vim的一个分支,创建于2014年,旨在解决Vim的一些缺点,…

oracle 19c 主备 补丁升级19.22

补丁升级流程 备库升级 备库备份$ORALCE_HOME du -sh $ORACLE_HOME ​​​​​​​ 备份目录将dbhome_1压缩 cd $ORACLE_HOME cd .. Ls tar -cvzf db_home.tar.gz db_home_1 /opt/oracle/product/19c ​​​​​​​​​​​​​​ 关闭监听关闭数据库查看sq…

2024年大唐杯备考

努力更新中…… 第一章 网络架构和组网部署 1.1 5G的网络整体架构 5G网络中的中传、回传、前传(这里属于承载网的概念) CU和DU之间是中传 BBU和5GC之间是回传 BBU和AAU之间是前传(这个好记) 这里竟然还藏了MEC(…

如何搭建SearXNG搜索引擎

小白如何搭建SearXNG搜索引擎 前言 国内用户在使用百度、360、搜狗等主流搜索引擎时,面临搜索结果精确度不高、广告泛滥及隐私顾虑等问题。虽然Google以其出色性能备受推崇,但由于无法在国内访问,部分用户转而选择Bing作为折衷方案&#xff…

unity记一下如何播放动画

我使用的版本是2022.3.14fc 展开你的模型树,是会出现这个三角形的东西的 然后在资源面板创建一个animation controller 进去之后,把三角形拖进去,就会出现一个动画,然后点击他 在左侧给他创建这么个状态名字,类型…

探索数据结构:顺序串与链式串的深入理解

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 串的定义 串是一种特殊的顺序表,即每一个元素都是单独一…

STL--list双向链表

功能 将数据进行链式存储 链表(list)是一种物理存储单元上非连续的存储结构,数据元素的逻辑顺序是通过链表中的指针链接实现的 链表的组成:链表由一系列结点组成 结点的组成:一个是存储数据元素的数据域&#xff0…

Finetuning vs. Prompting:大语言模型两种使用方式

目录 前言1. 对于大型语言模型的两种不同期待2. Finetune(专才)3. Prompt(通才)3.1 In-context Learning3.2 Instruction-tuning3.3 Chain of Thought(COT) Prompting3.4 用机器来找Prompt 总结参考 前言 这里和大家分享下关于大语言模型的两种使用方式,一种是 Fine…

4.Godot图片素材的获取和编辑

游戏开发中经常遇到图片素材的需求 1. 图片素材的准备 术语:Sprite 精灵,游戏开发中指一张图片来源不明的图片,切勿在商业用途使用,以免引起版权风险。 1. 在学习阶段,可以百度或者从一些资源网站获取,这…

黑马苍穹外卖--再来一单(stream流转换、赋值与收集映射)

1.首先明确一下业务规则: 业务规则: 再来一单就是将原订单中的商品重新加入到购物车中 2.产品页面原型和开发接口文档 3.业务层逻辑代码开发 3.1 查询方向 我们要明确的是: 再来一单就是将原订单中的商品重新加入到购物车中------直接把商品加入到购物车&#…

关于机器学习/深度学习的一些事-答知乎问(二)

进化算法与深度强化学习算法结合如何进行改进? (1)进化算法普遍存在着样本效率低下的问题,虽然其探索度较高,但其本质为全局随机性搜索,需要在整个回合结束后才能更新其种群,而深度强化学习在每…