2025dsfz集训Day7: KMP与Trie树

news/2025/1/19 11:13:20/文章来源:https://www.cnblogs.com/FrankWKD/p/18679412

Day7: KMP与Trie树

KMP算法

  • \(KMP (Knuth–Morris–Pratt)\) 是一个字符串匹配算法,于1977年由上述三人共同发表。
    在线性的时空复杂度内解决字符串匹配。

字符串匹配

  • 给定两个字符串 \(s,t\)(通常来讲我们管较短的串叫做“模式串”,长的叫“匹配串”。我们的任务是在长串内找到短串)。

  • 我们定义记号 \(s[l,r]\) 表示的是 \(s\) 串,从下标 \(l\) 到下标 \(r\) 的子串。(比如说 \(s=“abcabca”\),那么 \(s[2,4]=“bca”,1-index\)

  • 字符串匹配:我们希望对于 s(长串)的每一个前缀 s[1,i],找到最大的 j 使得 s[i-j+1,i]=t[1,j]

  • 例:\(s=“ababc”,t=“aba”:\)
    \(i=1: s[1,1]=t[1,1]=“a” ; i=2:\) \(s[1,2]=t[1,2]=“ab”\)
    \(i=3: s[1,3]=t[1,3]=“abc”\)(成功匹配); \(i=4: s[3,4]=t[1,2]=“ab”\)
    \(i=5: s[6,5]=t[1,0]=\phi\)  (未成功匹配,空串)

解法

  • 我们希望能够复用尽量多的信息。
  • 假设我们此时知道 \(s[1,i]\) 对应的匹配长度 \(k_i\),怎么求出 \(s[1,i+1]\) 的匹配长度?
  • 大致思路:先看看 \(s[i+1]\)\(t[k_i+1]\) 一不一样。
    • 一样:长度++
    • 不一样:模式串前移 \(1\)

Border串

  • 我们注意到,实际上我们是在找 \(t[1,j]\) 的一个既是其前缀又是其后缀的最长的子串。(当然需要不是 \(t[1,j]\) 本身)

  • \(s=“abab”\) 那么 \(s[1,2]=“ab”\) 就是这样的串。
    即是前缀又是后缀串的名字是:\(border\) 串。

  • 我们可以发现 \(border\) 集合:\(S_i=S_k+{k}\) ( \(k\)\(t[1,i]\) 的最长border)。

    • 例:\(BS(“ababa”)={“a”,“aba”}=BS(“aba”)+{“aba”}\)
      其中 \(BS\)\(border\ set\) 的意思(即所有的 \(border\) 串构成的集合)
  • 这实际上也就是说:\(border\) 集合实际上是一条链

  • 我们不断地去找串 \(S\) 的最长 \(border T\),然后把他加入集合,把 \(S\) 变成 \(T\) 直到 \(S\) 为空。

  • 现在问题变为:如何求出最长 \(border\)?

  • 假设我们知道了 \(s[1,i]\)\(border\),怎么求出 \(s[1,i+1]\)\(border\) 长度?
    我们不断地“跳” \(t[1,i]\)\(border\) 来找到 \(t[1,i+1]\) 的 最长 \(border\)

复杂度

  • 看起来是 \(O(n^2)\) 的,但实则不然。

  • 考虑每次最多让 \(border\) 链 变长 \(1\) ,以 \(border\) 链 长度作为“势能”,便可以分析出 \(O(n)\) 的摊还复杂度。

  • 另一边的字符串匹配亦是同理。(算法,复杂度分析)

  • 假设 \(s[i-j+1,i]\) 匹配到了 \(t[1,j]\)

    • 我们不断地去 “跳” \(t[1,j]\)\(border\),找到一个 \(t[1,k]\) 使得 \(t[k+1]=s[i+1]\)
    • 这样就完成了一次字符串匹配。
  • 我们不难分析出,字符串匹配的复杂度为:\(O(n+m)=O(|S|+|T|)\)

  • 不难发现,实际上 border 集合的结构,可以用一颗树来描述。

  • 以 S=“abababa” 举例。

    • \(S[1,1]\) 对应最长 \(border=\phi;\)
    • \(S[1,2]\) 对应最长 \(border=\phi 。\)
    • \(S[1,3]\) 对应最长 \(border=“a”;\)
    • \(S[1,4]\) 对应最长 \(border=“ab”。\)
    • \(S[1,5]\) 对应最长 $border=“aba”; $
    • \(S[1,6]\) 对应最长 \(border=“abab”。\)
    • \(S[1,7]\) 对应最长 \(border=“ababa”。\)
  • 如图,这棵树具有很优良的性质。

  • 可以发现,我们求解border的算法实际上不过是在 这棵树上进行 dfs。
    (图片已崩,请前往博客园查看)

Trie树

  • 我们有这样一个“数据结构”能够去“维护”给定的“串集合” \(S\)。并且能支持“查询”一个串在不在这个“串集合” \(S\) 中。(¥S$ 即为字典)
  • 很好理解,如图所示:假设字典 \(S={“she”,“he”,“shy”,“sheep”,“sheet”}\)
    • 那么字典树将如图所示:(图片已崩,请前往博客园查看)
    • 每一条边对应一个字母,每一个结点对应一个单词的前缀。
    • \(0\) 结点的含义是空串。
  • 查询就是从 \(0\) 开始查找有没有对应字母的出边。

01Trie树

  • \(0-1\)字典树可以很方便的维护形如“最大异或值”这类位运算查询。
  • 我们将一个 \(32/64\) 位整数看成一个长为 \(32/64\) 的字符串。
  • 例: \(4=(0…0100), 6=(0…0110), 11=(0…01011)\),将他们插入 \(trie\) 中:
    • 特点:所有叶子等深。
  • 假如我们想查询 \(x\) 与集合里的数最大异或值。
  • 比如说 $x=8=(1000) $,我们从高往低按位考虑。
    • \(root\) 处的出边是 \(1\),我们看 \(root\) 有无 \(0\) 的出边,
    • 然后走向“结点 \(0\)”。(这样才能让异或值最大)
    • 接下来同理,我们在“结点 \(0\)” 看有没有 \(1\) 的出边……
      (图片已崩,请前往博客园查看)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/871644.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决方案 | office365/office 修复方法

打开控制面板,选择卸载程序,右键office 一般情况下,选择快速修复可以实现修复。如不行,那么选择联机修复‘。还是不行那就重装office

【pywinauto 库】启动PC端应用程序 - 上篇

一、简介 经过上一篇的学习、介绍和了解,想必小伙伴或者童鞋们,已经见识到pywinauto的强大了,今天继续介绍pywinauto,上一篇已经可以打开计算器了,这里宏哥再提供其他方法进行打开计算器和非电脑自带程序。pywinauto 可以启动电脑自带的应用程序,也可以启动电脑安装的应用…

【反EDR 】概要

一、什么是 EDR EDR 是“端点检测和响应”的缩写。它是部署在每台机器上的代理,用于观察操作系统生成的事件以识别攻击。如果检测到某些东西,它将生成警报并将其发送到 SIEM 或 SOAR,由人工分析师进行查看。“响应”是指在识别威胁后执行的操作,例如隔离主机,这不是本文的…

USB接口颜色都代表什么含义

手机充电器人人都有!充电器线颜色都不同!你知道不同颜色的USB接口的各个颜色都代表什么含义吗?大部分人都是不知道的,这篇文章让您 一目了然!建议收藏备用!以备不时之需!

Windows资源管理器Icon图标注入

免责声明 本文发布的工具和脚本,仅用作测试和学习研究,禁止用于商业用途,不能保证其合法性,准确性,完整性和有效性,请根据情况自行判断。简介 使用图标将 DLL 注入资源管理器的非正统和隐蔽方式 IconJector 这是一个Windows资源管理器DLL注入技术,使用Windows上的更改图…

ElasticSearch Query DSL(查询领域特定语言)

目录常用 DSL 关键字查询上下文相关度评分:_score源数据:_source数据源过滤器query 和 filter 上下文相关性评分 (relevance scores)query 的上下文filter 的上下文关于 query 和 filter 上下文的例子全文查询 (full text query)intervals 查询请求示例intervals的顶级参数ma…

ESP32 学习笔记(九)舵机实验

概念 舵机是一种位置(角度)伺服的驱动器,适用于那些需要角度不断变化并可以保持的控制系统。舵机只是一种通俗的叫法,其本质是一个伺服电机。 舵机有很多规格,但所有的舵机都有外接三根线,分别用棕、红、橙三种颜色进行区分,由于舵机品牌不同,颜色也会有所差异,棕色为…

(原创)[开源][.Net Standard 2.0] SimpleMMF (进程间通信框架)更新 v1.1,极低CPU占用

一、前言 在上一篇 (原创)[.Net] 进程间通信框架(基于共享内存)——SimpleMMF 中,发布了v1.0版,最大的问题是:CPU占用较高,至少40-50%。 这既与我的开发水平有关,也与SimpleMMF诞生环境有关,这个主要是用在数字孪生各软件之间同步数据,而部署软件的工作站性能都强悍…

Elasticsearch 笔记

目录ES 相关概念概述核心概念1)索引 index2)类型 type3) 字段 Filed4)映射 mapping5)文档 document6)集群 cluster7)节点 node8)分片和复制 shards & replicasDocker 中安装 ElasticSearch下载 ElasticSearch 和 Kibana配置启动 ElasticSearch单节点多节点启动开启 …

VMware Avi Load Balancer 31.1.1 发布 - 多云负载均衡平台

VMware Avi Load Balancer 31.1.1 发布 - 多云负载均衡平台VMware Avi Load Balancer 31.1.1 发布 - 多云负载均衡平台 应用交付:多云负载均衡、Web 应用防火墙和容器 Ingress 服务 请访问原文链接:https://sysin.org/blog/vmware-avi-load-balancer-31/ 查看最新版。原创作品…

Angular 中依赖注入问题造成 Observable 订阅不更新

这是园子博客后台从 angular 15 升级到 angular 19 后遇到的一个问题。博客后台「随笔 」的侧边栏会显示随笔的分类列表 ,通过这个列表的上下文菜单可以修改分类名称,升级后测试时发现一个问题,修改分类名称后分类列表没有随之更新这是园子博客后台从 angular 15 升级到 ang…

极紫外光刻掩模上三维图案的严格模拟(下)

1D线掩模:全3D计算域 首先,使用包含吸收体结构和多层反射镜的3D计算域重新审视EUV线掩模。图5显示了对几何体进行离散化的网格(使用网格生成器JCMgeo自动生成)。对于三维设置,网格由棱柱形元素组成(而不是二维设置中的三角形元素)。使用不同的空间网格对相同的物理设置进…