【字符串匹配】KMP

news/2024/9/21 7:24:50/文章来源:https://www.cnblogs.com/chenzhekeai/p/18385690
2024-8-28 ·最后更新时间 2024-8-28

\(\Large\mathcal{1,Recommendation}\)
Knuth-Morris-Pratt 字符串查找算法,简称为KMP算法,常用于在一个文本串 S 内查找另一个文本 P 的出现位置,因为时间复杂度优异而被广泛使用。

这个算法由 Donald Knuth、Vaughan Pratt、James H. Morris 三人于 1977 年联合发表,故取这 3 人的姓氏命名此算法。

\(\Large\mathcal{2,Prefix\ function}\)
在正式学习 KMP 算法之前我们要对前缀函数有一定的了解。
比如给你一个字符串:\(S=ABADABA\)
那么前缀后缀相同时的最长长度是多少?很显然一定 \(3\) \(\color{red}{ABA}\)\(D\)\(\color{red}{ABA}\)
那么在数学中我们就会给这种形式的数值常用 \(\pi\) 来表示。
那么我们如果把所有 \(S\) 的前缀给列出来,并且对与每个前缀都求出对应的 \(\pi\) 那么就形成了前缀函数,如:

\(i\) 1 2 3 4 5 6 7
\(S\) \(A\) \(AB\) \(ABA\) \(ABAD\) \(ABADA\) \(ABADAB\) \(ABADABA\)
\(\pi\) \(0\) \(0\) \(1\) \(0\) \(1\) \(2\) \(3\)

这就是我们的前缀函数,但是...它和 KMP 有什么关系呢?

\(\Large\mathcal{3,KMP}\)
接下来我就要根据前缀函数来推演出 KMP 算法。
假设文本串 \(S=EACEEABC\),模式串 \(P=EAB\)
考虑什么时候 \(P\) 可以匹配上 \(S\) 的字串。
我们可以这样,先用一个奇妙字符给他们衔接起来就变成了 \(EAB\#EACEEABC\)
然后我们就可以轻而易举地根据前缀函数得知,当且仅当 \(\pi_i = len(P)\) 的时候才可以匹配上。
我们可以浅浅证明一下,因为前缀函数的定义就是到了 \(i\)\(\pi_i\) 为前缀后缀相同时的最长长度,因为有特殊符号所以 \(max\{\pi_i\} = len(P)\) 所以 \(P\) 匹配上时,\(\pi_i=len(P)\)

\[接下来文中出现的 S 均为一般的字符串 \]

那么接下来的问题就是如何求 \(\pi_i\) 了。
我们可以把字符串想象成一些点,那么就变成了:

那么如果我们现在知道 \(\pi_{i-1}\) 的数值的话:

那么轻而易举地我们可以知道当 \(S_{\pi_{i-1}+1}\)\(S_i\) 相等时 \(\pi_i = \pi_{i-1}+1\),于是我们可以写出一个不完整的代码:

for(int i=1;i<=s.size();++i){int len=pi[i-1];if(s[i]==s[len]){pi[i]=len+1;}
}

BUT 不相等怎么办?那我们是不是尽量考虑次小的 \(\pi_i\)?那我们是不是又可以写出一个代码:

for(int i=1;i<=s.size();++i){int len=pi[i-1];while(s[i]!=s[len]){len=next_pi(i-1);}if(s[i]==s[len]){pi[i]=len+1;}
}

接下来我们就要解决 next_pi(x) 这个函数怎么求,我们可以再画一个图:

别问为什么图变了,如果我们仔细观察 \(\pi^{'}_{i-1}\)\(\pi_{i-1}\) 的关系我们可以发现,\([0,\pi^{'}_{i-1}]\) 这段字符串本质上是 \([0,\pi_{i-1}]\) 的一段后缀,又根据前缀函数可知,\([i-\pi^{'}_{i-1},i-1]\) 一定是与 \([0,\pi^{'}_{i-1}]\) 相等的,所以 \([0,\pi^{'}_{i-1}]\) 是等于 \([0,\pi_{i-1}]\) 的后缀的!也就是 \(\pi^{'}_{i-1}\) 是等同于 \(\pi_{pi_{i-1}}\) 的所以我们终于可以把代码补全了qwq:

for(int i=1;i<=s.size();++i){int len=pi[i-1];while(len&&s[i]!=s[len]){len=pi[len-1];}if(s[i]==s[len]){pi[i]=len+1;}
}

那么,如果你完完整整的看完了这篇博客,你可能会觉得这和你印象中的 KMP 不太一样,但是如果你把到 \(\#\) 之前的和之后的单独拆开你会发现这就变成了你熟悉的 KMP,但这也表示着重要的一点,你需要点赞,收藏,关注我qwq。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/788791.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

两个月Crypto从入门到进阶专题第1天

绪论: 今天主要讲RSA的原理以及python的实现,RSA的历史这些就不讲了,RSA的历史你自己去搜视频看才有趣,三个大佬创造的RSA。1.RSA加密过程1.1选择p,q两个质数 (为什么选质数,后面就知道了,这里说一下学习方法:有一些步骤不知道为什么的,先看下去,可能后面会给你解答…

Android Qcom USB Driver学习(十一)

基于TI的Firmware Update固件升级的流程分析usb appliction layers的数据 USB Protocol Package①/② map to check password correct Package Format: Byte[0] = Report Id Byte[1] = Valid Length (0x21 = 33) Byte[2] = BSL Core Commands(0x11 RX Password) Byte[3] = Vali…

最简最速!C++版OpenCV安装配置教程Win/Mac!!!

Clion+OpenCV(C++版)开发环境配置教程Win/Mac平时在学习和比赛的时候都是使用的Python版本的OpenCV,最近遇到了一个项目使用的上位机性能有限于是决定视觉方面使用C++的OpenCV来节约上位机资源提高运行的速度,在查阅了网上的各种资料后发现这些资料参差不齐有些博客的方法绕来…

不可不知的WPF画笔(Brush)

在WPF中,屏幕上的所有内容,都是通过画笔(Brush)画上去的。如按钮的背景色,边框,文本框的前景和形状填充。借助画笔,可以绘制页面上的所有UI对象。不同画笔具有不同类型的输出( 如:某些画笔使用纯色绘制区域,其他画笔使用渐变、图案、图像或绘图)。在WPF中,屏幕上的…

缓存介绍

从业务层面上的堆数据库下性能瓶颈的解决方案: 分库分表、读写分离 程序员修神之路--略懂数据库集群读写分离而已缓存 缓存 (Cache):本质是数据交换的一段缓冲区,也可以称为一种存储数据的组件,主要用于减小数据交换双方速度不匹配的问题。 缓存在计算机世界里是一个常见并…

开源的工作流系统突出优点总结

随时欢迎大家一起了解开源的工作流系统的突出优势和特点。当前,想要实现高效率的办公,可以一起来了解低代码技术平台、开源的工作流系统的相关特点和功能优势。作为较受职场喜爱的平台产品,低代码技术平台拥有可视化才做界面、灵活、好维护操作等多个优势特点,在推动企业流…

2024年最新版Typora免费使用教程心得

在数字化时代,写作已成为我们日常沟通、知识分享的重要手段。然而,繁琐的排版格式常常让人望而却步。幸运的是,Markdown编辑器以其简洁的语法和高效的排版功能,为我们带来了福音。Typora是一款功能强大的文本编辑器,它采用所见即所得的编辑方式,能够让用户快速地编辑各种…

P10786 [NOI2024] 百万富翁

讲解 P10786 [NOI2024] 百万富翁。先爆搜出 t>=9 的部分分,然后考虑使用动态规划算法进行常数优化跑出答案。思路: 先考虑 Sub1 的部分分,暴力算法:暴力询问所有 \(i<j\) 的数对 \((i,j)\)。 则一个 \(i\) 为最大值当且仅当 \((i,j)\) 的返回值都是 \(i\) 且在 \(i\)…

用我十多年的“奇葩”经验,给在“挂吊瓶”的博客园几点建议

初识博客园 我是08年开始接触开发的,一开始涉及的就是.net和java,记得那会好像是jar6来着,net嘛还是2.0 那时候包括现在,找资料很多时候会找到博客园来 一开始我以为博客园是很多博主成立的一个联盟,就是各自弄一个博客系统,然后公用一个域名 为啥会这么想呢? 因为我看高…

基于深度学习网络的USB摄像头实时视频采集与水果识别matlab仿真

1.算法运行效果图预览 (完整程序运行后无水印)将usb摄像头对准一个播放不同水果图片的显示器,然后进行识别,识别结果如下: 本课题中,使用的USB摄像头为:2.算法运行软件版本 matlab2022a3.部分核心程序 (完整版代码包含详细中文注释和操作步骤视频)程序中包括MATLAB读取摄…

Android 常用的性能分析工具详解:GPU呈现模式

此篇将重点介绍几种常用的Android性能分析工具: 一、Logcat 日志 选取Tag=ActivityManager,可以粗略地知道界面Displaying的时间消耗。当我们打开一个Activity的时候,log会打印一串log如下: I/ActivityManager﹕ Displayed xxx.xxx.xxx/TestActivity: +1s272ms (total +3s…

AI - 一文了解AIOps的含义、特点与功用

AIOps定义 AIOps是智能运维(Artificial Intelligence forITOperations)的英文缩写。 当今,专业厂商根据自身理解和商业目的,分别给出了各具特色的AIOps定义。 主要关键字:IT运维、人工智能 (AI)、机器学习(ML)、自然语言处理(NLP)、大数据、数据分析、运营效率等 以下…