【算法篇】KMP算法，一种高效的字符串匹配算法-编程知识

【算法篇】KMP算法，一种高效的字符串匹配算法

news/2025/2/22 17:01:57/文章来源:https://www.cnblogs.com/bigbigli/p/18290597

我们今天了解一个字符串匹配算法-KMP算法，内容难度相对来说较高，建议先收藏再细品！！！

KMP算法的基本概念

KMP算法是一种高效的字符串匹配算法，由D.E.Knuth，J.H.Morris和V.R.Pratt提出的，因此人们称它为克努特—莫里斯—普拉特操作（简称KMP算法）。

该算法的主要使用场景就是在字符串（也叫主串）中的模式串（也叫字串）定位问题，常见的有“求子串出现的起始位置”、“求子串的出现次数”等。

解决什么问题

假设有两个字符串,分别为文本串和模式串，如下：

求在文本串中是否出现过上面的模式串。

暴力解法

当出现不匹配的字符时，暴力算法会进行如下两个操作：

向后移动模式串
目标串和模式串的指针都回溯

KMP优化解法

使用暴力算法的时间复杂度较高，如何去优化呢？

优化方向：防止或减少主串指针回溯

当出现不匹配的字符时，目标串指针不动，只移动模式串。

移动前，指针左边的字符已经匹配了，所以要让移动后的目标串的指针不会苏，需要保证：模式串移动之后，在指针左边的字符也是匹配的。

找相同字符必须是从模式串第一个位置开始
模式串移动方式由能找到的最长的相同字符决定，如果不是最长的，可能会漏掉能匹配的内容。
找到的最长的相同字符串长度必须小于已经匹配的内容长度，前后部分可以有交叉内容

KMP算法小结

发生不匹配时，指针所指的下标等于已经匹配的长度
发生不匹配时，需要移动的长度 = 已经匹配的长度 - 前后相同的最大长度
前后相同的最大长度为空的地方用-1补齐

KMP算法中的next数组

当目前的C和A不匹配时，由于A的前面也全都是A，所以前面也一定不匹配，对于这个模式串，可以直接将指针移动到-1的位置。

所以需要再对next数组进行改进，改进后的数组我们命名为nextval。

优化next数组

总结：若str[j] == str[next[j]]，那么nextval[j] = nextval[next]，否则nextval[j] = next[j]

判断是否匹配

先给定两个字符串，分别表示文本串和模式串，通过kmp(稍后写这个函数)进行比较，找到第一次出现模式串的位置，如果没有匹配上则给出提示。

char *text = "aaaaaabaaa",*pattern = "aaaab";
int index = kmp(text,pattern);
if(index == -1)
{cout << "没有匹配上内容";
} 
else{cout << "匹配上了，起始位置为:" << index;
}

输出next数组

next指针用来动态获取模式串的长度

int kmp(char *text,char *pattern){int index = -1;int txt_len = strlen(text),ptn_len = strlen(pattern);int *next = (int *)malloc(sizeof(int) * ptn_len);get_next(pattern,next,ptn_len);free(next);return index;
}

计算next数组

若str[j] == str[k]时，next[j+1] = k+1
若str[j] != str[k]时，k = next[k]

void get_next(char *str,int *next,int len){int j = 0,k = -1;next[0] = -1;while(j < len-1){if(k == -1 || str[j] == str[k]){k++;j++;next[j] = k;}else k = next[k];} 
}

遍历输出next数组

从下标为0的位置到ptn_len依次输出next数组内的元素

int kmp(char *text,char *pattern)
{int index = -1;int txt_len = strlen(text),ptn_len = strlen(pattern);int *next = (int *)malloc(sizeof(int) * ptn_len);get_next(pattern,next,ptn_len);for(int i=0;i<ptn_len;i++){printf("%d ",next[i]);}free(next);return index;
}

输出nextval数组

将next数组变为nextval数组（此处的next数组实际上是nextval数组）

if(k == -1 || str[j] == str[k]){k++;j++;if(str[j] == str[k]){next[j] = next[k];}else{next[j] = k;}
}
else{k = next[k];
}

输出匹配位置

int index = -1,txt_idx = 0,ptn_idx = 0;
... ...
get_next(pattern,next,ptn_len);while((txt_idx < txt_len) && (ptn_idx < ptn_len))
{if(text[txt_idx] == pattern[ptn_idx] || ptn_idx == -1){txt_idx++;ptn_idx++;}else{ptn_idx = next[ptn_idx];}
}if(ptn_idx >= ptn_len){index = txt_idx - ptn_len;
}

利用KMP算法解决字符串匹配问题，能极大节约时间复杂度。关于KMP算法还有什么问题的话，欢迎各位留言交流~

本文由mdnice多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/740741.html
如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

飞书集成平台，流程触发器触发，没有运行日志

原因：飞书平台自动关联自建应用时，回调地址生成存在问题。解决办法：将飞书的触发器回调地址的内容，复制到关联的自建应用的事件回调地址中

阅读更多...

NOIP2024模拟1

NOIP2024模拟1\(T1\) GHzoj 3752. 分糖果 \(100pts\)设最终答案中有 \(a\) 个小组中的小朋友的糖数 \(\mod 3\) 均等于 \(1\) ， \(b\) 个小组中的小朋友的糖数 \(\mod 3\) 互不相等， \(c\) 个小组中的小朋友的糖数 \(\mod 3\) 均等于 \(0\) ， \(d\) 个小组中的小朋友的糖数 …

阅读更多...

工具安装

虚拟机——VMware安装 Vmware官方地址kali镜像 kali镜像win10镜像（教育版）工具站卸载工具——geek安装文件检索工具——everything everything下载地址截图工具——snipaste snipaste下载地址解压缩工具——7.zip 7.zip下载地址文本编辑器——notepad++ notepad++下载地址 …

阅读更多...

分拆、杨图和杨表

分拆、杨图和杨表\(1.\) 定义和性质\(\textbf{定义 1 } \text{(分拆)}\) 定义整数 \(n\) 的一个拆分为 \(\lambda = (\lambda_1, \lambda_2, \dots, \lambda_m)\)，满足 \(\forall i, \lambda_i \ge \lambda_{i + 1}\)，且 \(\lambda_i\) 的加和为 \(n\)。记其为 \(\lambda \vd…

阅读更多...

常见的概率分布

1.离散型分布 1.1 两点分布（伯努利分布/贝努利分布/0-1分布）称随机变量 \(X\) 服从参数为 \(p\) 的伯努利分布，如果它分别以概率 \(p\) 和 \(1-p\) 取 1 和 0 为值。 \[P(X=k)=p^k(1-p)^{1-k}, \quad k=0,1\\ X\sim B(1,p)\\ E(X)=p\\ D(X)=p(1-p) \]1.2 二项分布 n次独立…

阅读更多...

python使用flask框架生成excle返回前端（包含图片、表格、表头灰色、表格加边框）

python使用flask框架生成excle文档，文档中包含图片和表格，其中表格要包含图片、表格、表头灰色、表格加边框，照片和表格不重叠。逻辑：获得图片的高度，根据高度计算表格从第几行开始插入。效果图：代码：import openpyxl from openpyxl.styles import PatternFill from o…

阅读更多...

生成扩散模型漫谈（二）：DDPM = 自回归式VAE

在文章《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中，我们为生成扩散模型DDPM构建了“拆楼-建楼”的通俗类比，并且借助该类比完整地推导了生成扩散模型DDPM的理论形式。在该文章中，我们还指出DDPM本质上已经不是传统的扩散模型了，它更多的是一个变分自编码器VAE，实际…

阅读更多...

生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪

到目前为止，笔者给出了生成扩散模型DDPM的两种推导，分别是《生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼》中的通俗类比方案和《生成扩散模型漫谈（二）：DDPM = 自回归式VAE》中的变分自编码器方案。两种方案可谓各有特点，前者更为直白易懂，但无法做更多的理论延伸和定量…

阅读更多...

ComfyUI进阶篇：ComfyUI核心节点(四）

ComfyUI核心节点（四）前言：学习ComfyUI是一场持久战。当你掌握了ComfyUI的安装和运行之后，会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类，可能会让人感到不知所措。在这篇文章中，我们将用通俗易懂的语言对ComfyUI的核心节点进行系统梳理，并详细解释…

阅读更多...

全网最全EdgeMesh QA手册

https://zhuanlan.zhihu.com/p/585749690全网最全EdgeMesh Q&A手册Poorunga今天摸大鱼 24 人赞同了该文章目录收起转载请注明出处前言定位模型问题一：Failed to watch xxx: failed to list xxx: no kind xxx ; Reflector ListAndWatch xxx (total time 10003ms)问题二：…

阅读更多...

.NetCore中EFCore for MySql整理MySql.EntityFrameworkCore

一、MySql.EntityFrameworkCore 这个是官方给的一个EF操作MySql数据库的框架。使用方法跟EF for SqlServer 一样。二、安装命令NuGet\Install-Package MySql.EntityFrameworkCore -Version 8.0.5 项目依赖安装后的结果：三、 EF Code First 模式连接数据库更多： C#程序调…

阅读更多...

Caterpillar on a Tree

首先一个很显然的地方就是使用传送门肯定是在叶子节点使用，我们来考虑一下整个过程是怎么样的为了方便，我们不妨假设可以传送回根节点\(k+1\)次，然后要求最后回到根节点我们先从根节点走到某一个叶子结点，然后再从这个叶子节点走到另一个叶子节点，然后继续走到另一个叶子…

阅读更多...

推荐文章

CASAIM三维扫描仪在运动防护的应用高端运动器材设计定制器材头盔

服务启动后能ping通但无法访问

生物科学大模型调研

给若依添加单元测试（二）

校园网WiFi IPv6免流上网

最新文章

2025寒假总结2

初二寒假：在 MZ 的最后一天

Java中编译期异常和运行期异常的区别

dp4

为 Power Automate 注册 Adobe PDF Services

记一次golang项目context引发的进程OOM故障