tesseract引擎RVV代码学习笔记

news/2025/4/2 12:32:29/文章来源:https://www.cnblogs.com/ChebyshevTST/p/18803248

  Tesseract 是一个开源的 OCR(Optical Character Recognition,光学字符识别)引擎,可将图像中的文本转换为机器可读的文本格式。由于组内曾经有同事为这个项目贡献了RVV(RISC-V Vector)的代码,我打算单独拎出来学习一下。

  PR链接在此:Add RISC-V V support by hleft · Pull Request #4346 · tesseract-ocr/tesseract。由于有一定的篇幅,我只挑了汇编部分来进行阅读。

static int DotProduct(const int8_t *u, const int8_t *v, int num) {int total = 0;asm __volatile__ ("  .option       arch, +v                   \n\t""  vsetvli t0,zero,e32,m8,ta,ma             \n\t""  vmv.v.i v0,0                             \n\t""1:                                         \n\t""  vsetvli t0,%[num],e8,m2,ta,ma            \n\t""  vle8.v v16,0(%[u])                       \n\t""  vle8.v v24,0(%[v])                       \n\t""  sub %[num],%[num],t0                     \n\t""  vwmul.vv v8,v24,v16                      \n\t""  add %[u],%[u],t0                         \n\t""  add %[v],%[v],t0                         \n\t""  vsetvli zero,zero,e16,m4,tu,ma           \n\t""  vwadd.wv v0,v0,v8                        \n\t""  bnez %[num],1b                           \n\t""  vsetvli t0,zero,e32,m8,ta,ma             \n\t""  vmv.s.x v8,zero                          \n\t""  vredsum.vs v0,v0,v8                      \n\t""  vmv.x.s %[total],v0                      \n\t":  [u] "+r" (u),[v] "+r" (v),[num] "+r" (num),[total] "+r" (total)::  "cc", "memory");return total;
}

  这个函数主要用来实现一维向量乘积,采用了内嵌汇编的方式进行优化,除了用RVV汇编,还可以用封装好的riscv_vector.h接口,不过这里使用了最原始的汇编,我们分段阅读。

"  vsetvli t0,zero,e32,m8,ta,ma             \n\t"
"  vmv.v.i v0,0                             \n\t"

  vsetvli是跟向量寄存器组有关的指令,这里设置向量长度为最大(zero表示根据配置自动计算),然后再对向量寄存器初始化为0。

"1:                                         \n\t"
"  vsetvli t0,%[num],e8,m2,ta,ma            \n\t"
"  vle8.v v16,0(%[u])                       \n\t"
"  vle8.v v24,0(%[v])                       \n\t"
"  sub %[num],%[num],t0                     \n\t"

  1这里表示进入了循环,用RVV的好处就是循环过程中步长会自动调整,比如说长度为18,如果每次步长为8,传统的SIMD需要8+8+3,8是可以用向量指令集去实现,但是3这里就需要采用普通for循环手写,但是RVV会自动忽略掉这个过程,不用担心越界,只需关注循环内部本身即可,因为硬件会根据情况自动调整为向量步长为3。另外,这里vsetvli加载了num操作数到t0寄存器,寄存器存的是向量步长,e8代表元素大小,相当于int8类型,因为函数参数传入的也是int8 *的指针。

"  vwmul.vv v8,v24,v16                      \n\t"
"  add %[u],%[u],t0                         \n\t"
"  add %[v],%[v],t0                         \n\t"

  vwmul.vv指令首先对v24和v16这两个向量寄存器组里面的元素求和,然后扩展位宽到16位,存到v8向量寄存器里面。之所以要扩展位宽,是因为8位的数乘8位的数可能会变成16位的数。add这里就是分别对传入的两个函数参数进行指针的移动。

"  vsetvli zero,zero,e16,m4,tu,ma           \n\t"
"  vwadd.wv v0,v0,v8                        \n\t"
"  bnez %[num],1b                           \n\t"

  到了这一步,vsetvli重新将操作数类型变为16位的,因为刚刚上面乘法的时候已经扩展为16位了。接着vwadd.wv将v8的结果累加到v0向量寄存器组,由于最后返回值是32位的,这里同样用了扩展位宽的加法。

"  vsetvli t0,zero,e32,m8,ta,ma             \n\t"
"  vmv.s.x v8,zero                          \n\t"
"  vredsum.vs v0,v0,v8                      \n\t"
"  vmv.x.s %[total],v0                      \n\t"

  最后是这里,vsetvli重新调整向量寄存器中的元素为32位,接下来对v8清零,将v0寄存器组的所有元素归约求和到v0寄存器中,最后再将结果移到变量total当中,这个函数到此就实现完成了。

  这么看来,RVV在自动调整步长方面还是很有优势的(比起SIMD),不过由于汇编比较晦涩难懂,所以下次打算寻找RVV C-Intrinsics的代码进行解剖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/908881.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第5章 编写异步代码

第5章 编写异步代码 5.1 异步函数简介 C# 5 引入了异步函数的概念。异步函数可以指某个由 async 修饰符修饰的方法或者匿名函数,它可以对 await 表达式使用 await 运算符。 5.2 对异步模式的思考 5.2.1 关于异步执行本质的思考 await 在 C#中的任务本质上是请求编译器为我们创…

Spring Cloud Gateway 与 Knife4j 集成实践

注意:写于 2025/1/10,未来时间可能失效,请根据具体情况实践。在微服务架构中,Gateway 通常承担着路由转发、负载均衡、鉴权等职责,而 Knife4j 是一个集 Swagger2 和 OpenAPI3 为一体的增强解决方案,可以帮助开发者快速聚合使用OpenAPI 规范。 本文参考 Knife4j 文档,进行…

用户说:10分钟用通义灵码搞定“今天穿什么”!打开爽文世界……

当我仅用10分钟调教出一个会关心我穿不穿秋裤的管家时,突然想到,现在限制我们开发的已经不是编程能力,而在于你有没有把你的想象力塞进代码框!作者:ZLJ,浙江大学教育技术学研究生 当我仅用10分钟调教出一个会关心我穿不穿秋裤的管家时,突然想到,现在限制我们开发的已经…

Cyber Apocalypse 2025 forensics WP

Cyber Apocalypse 2025 forensics WPCyber Apocalypse 2025 WP 做了国际赛之后虽然(目前只做了两道,可是没环境了啊,前几天比赛有点多~www),只从取证这边说,感觉他们的题很有趣,情境也给的很真实连贯,出题灵活,就是能见到很多新兴的知识,拓展知识面,以后会多看一看…

python第六周作业(第四章课后程序练习题)

4.1 import random def guess_number(): target = random.randint(1, 100) count = 0 while True:guess = int(input("请输入你猜的数字(1-100): "))count += 1if guess < target:print("猜小了")elif guess > target:print("猜大了")else…

win安装oracle19c没有listener

然后就可以看到启动了本文来自博客园,作者:余生请多指教ANT,转载请注明原文链接:https://www.cnblogs.com/wangbiaohistory/p/18803159

《HarmonyOS Next开发进阶:打造功能完备的Todo应用华章》

章节 6:日期选择器与日期处理目标学习如何使用DatePicker组件。 理解日期格式化和日期计算。内容日期选择器基础使用DatePicker组件。 处理日期选择事件。日期格式化格式化日期为友好的文本。日期计算判断日期是否过期或即将到期。代码示例 @Entry @Component struct DatePick…

MarkDwon语法

MarkDown语法 1、标题用法 一级标题:#+空格+内容+回车 二级标题:##+空格+内容+回车 三级标题:###+空格+内容+回车 四级标题:####+空格+内容+回车 2、字体用法 粗体使用:快捷键ctrl+b或者内容两边加两个星号,示例 斜体使用:内容两边加一个星号,示例 斜体加粗:内容两边加…

图论(连通分量)

AT_abc284_c [ABC284C] Count Connected Components 题目描述 頂点に $ 1 $ から $ N $ の番号が、辺に $ 1 $ から $ M $ の番号がついた $ N $ 頂点 $ M $ 辺の単純無向グラフが与えられます。辺 $ i $ は頂点 $ u_i $ と頂点 $ v_i $ を結んでいます。 グラフに含まれる連結…

业务系统基础框架-Winform版-角色

角色列表,可刷新,可展开,可折叠编辑角色为角色权限为角色分配菜单查看拥有此角色的账号

3.31 学习记录

实现了使用springboot从文件中读取数据显示在前端

记一次GC导致线上服务超时问题

1、现象2024-12-28 23点左右,线上其他服务请求 content-cache 出现批量超时。content-cache-03 机器内存使用率如下:机器配置:4核8G这里因为JVM参数设置为:-Xms4g -Xmx4g -XX:MaxNewSize=1g所以达到42%时,内存的使用率已经达到了3.3G。 2、数据查看GC日志如下: (1)CMS老…