tesseract引擎RVV代码学习笔记-编程知识

tesseract引擎RVV代码学习笔记

news/2025/4/2 12:32:29/文章来源:https://www.cnblogs.com/ChebyshevTST/p/18803248

Tesseract 是一个开源的 OCR（Optical Character Recognition，光学字符识别）引擎，可将图像中的文本转换为机器可读的文本格式。由于组内曾经有同事为这个项目贡献了RVV（RISC-V Vector）的代码，我打算单独拎出来学习一下。

PR链接在此：Add RISC-V V support by hleft · Pull Request #4346 · tesseract-ocr/tesseract。由于有一定的篇幅，我只挑了汇编部分来进行阅读。

static int DotProduct(const int8_t *u, const int8_t *v, int num) {int total = 0;asm __volatile__ ("  .option       arch, +v                   \n\t""  vsetvli t0,zero,e32,m8,ta,ma             \n\t""  vmv.v.i v0,0                             \n\t""1:                                         \n\t""  vsetvli t0,%[num],e8,m2,ta,ma            \n\t""  vle8.v v16,0(%[u])                       \n\t""  vle8.v v24,0(%[v])                       \n\t""  sub %[num],%[num],t0                     \n\t""  vwmul.vv v8,v24,v16                      \n\t""  add %[u],%[u],t0                         \n\t""  add %[v],%[v],t0                         \n\t""  vsetvli zero,zero,e16,m4,tu,ma           \n\t""  vwadd.wv v0,v0,v8                        \n\t""  bnez %[num],1b                           \n\t""  vsetvli t0,zero,e32,m8,ta,ma             \n\t""  vmv.s.x v8,zero                          \n\t""  vredsum.vs v0,v0,v8                      \n\t""  vmv.x.s %[total],v0                      \n\t":  [u] "+r" (u),[v] "+r" (v),[num] "+r" (num),[total] "+r" (total)::  "cc", "memory");return total;
}

这个函数主要用来实现一维向量乘积，采用了内嵌汇编的方式进行优化，除了用RVV汇编，还可以用封装好的riscv_vector.h接口，不过这里使用了最原始的汇编，我们分段阅读。

"  vsetvli t0,zero,e32,m8,ta,ma             \n\t"
"  vmv.v.i v0,0                             \n\t"

vsetvli是跟向量寄存器组有关的指令，这里设置向量长度为最大（zero表示根据配置自动计算），然后再对向量寄存器初始化为0。

"1:                                         \n\t"
"  vsetvli t0,%[num],e8,m2,ta,ma            \n\t"
"  vle8.v v16,0(%[u])                       \n\t"
"  vle8.v v24,0(%[v])                       \n\t"
"  sub %[num],%[num],t0                     \n\t"

1这里表示进入了循环，用RVV的好处就是循环过程中步长会自动调整，比如说长度为18，如果每次步长为8，传统的SIMD需要8+8+3，8是可以用向量指令集去实现，但是3这里就需要采用普通for循环手写，但是RVV会自动忽略掉这个过程，不用担心越界，只需关注循环内部本身即可，因为硬件会根据情况自动调整为向量步长为3。另外，这里vsetvli加载了num操作数到t0寄存器，寄存器存的是向量步长，e8代表元素大小，相当于int8类型，因为函数参数传入的也是int8 *的指针。

"  vwmul.vv v8,v24,v16                      \n\t"
"  add %[u],%[u],t0                         \n\t"
"  add %[v],%[v],t0                         \n\t"

vwmul.vv指令首先对v24和v16这两个向量寄存器组里面的元素求和，然后扩展位宽到16位，存到v8向量寄存器里面。之所以要扩展位宽，是因为8位的数乘8位的数可能会变成16位的数。add这里就是分别对传入的两个函数参数进行指针的移动。

"  vsetvli zero,zero,e16,m4,tu,ma           \n\t"
"  vwadd.wv v0,v0,v8                        \n\t"
"  bnez %[num],1b                           \n\t"

到了这一步，vsetvli重新将操作数类型变为16位的，因为刚刚上面乘法的时候已经扩展为16位了。接着vwadd.wv将v8的结果累加到v0向量寄存器组，由于最后返回值是32位的，这里同样用了扩展位宽的加法。

"  vsetvli t0,zero,e32,m8,ta,ma             \n\t"
"  vmv.s.x v8,zero                          \n\t"
"  vredsum.vs v0,v0,v8                      \n\t"
"  vmv.x.s %[total],v0                      \n\t"

最后是这里，vsetvli重新调整向量寄存器中的元素为32位，接下来对v8清零，将v0寄存器组的所有元素归约求和到v0寄存器中，最后再将结果移到变量total当中，这个函数到此就实现完成了。

这么看来，RVV在自动调整步长方面还是很有优势的（比起SIMD），不过由于汇编比较晦涩难懂，所以下次打算寻找RVV C-Intrinsics的代码进行解剖。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/908881.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！