10.正则表达式匹配
给你一个字符串 s
和一个字符规律 p
,请你来实现一个支持 '.'
和 '*'
的正则表达式匹配。
'.'
匹配任意单个字符'*'
匹配零个或多个前面的那一个元素
所谓匹配,是要涵盖 整个 字符串 s
的,而不是部分字符串。
示例 1:
输入:s = "aa", p = "a"
输出:false
解释:"a" 无法匹配 "aa" 整个字符串。
示例 2:
输入:s = "aa", p = "a*"
输出:true
解释:因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此,字符串 "aa" 可被视为 'a' 重复了一次。
示例 3:
输入:s = "ab", p = ".*"
输出:true
解释:".*" 表示可匹配零个或多个('*')任意字符('.')。
提示:
1 <= s.length <= 20
1 <= p.length <= 20
s
只包含从a-z
的小写字母。p
只包含从a-z
的小写字母,以及字符.
和*
。- 保证每次出现字符
*
时,前面都匹配到有效的字符
解法:
本题是实现一个简易的正则表达式匹配,对于本题而言,有两种方案。
- 动态规划
- 有限状态机
正则表达式的引擎则是由有限状态机实现的,由于博主还没搞懂怎么使用有限状态机来解,所以这篇文章主讲如何使用 动态规划来解。
首先确定转移方程。
我们把dp[i][j]
定义为字符串s
的前i
位能否和字符规律p
的前j
位字符匹配上。在动态规划中,我们已知的可以使用来求解dp[i][j]
的变量有dp[i][j]
之前的所有dp值,s[i]
, p[j]
等。
下面可以思考一下会存在哪些情况。在本题中主要存在三种字符串: 普通的字符串, *****, .
先考虑简单的。
-
普通字符串:
- 当
p[j] == s[i]
的时候,说明最新遍历到的字符串s和字符规律p之间的最新一位是可以匹配上的,那么就只要看之前能不能匹配上就可以了,也就是dp[i][j] = d[i - 1][j - 1]
。 - 当
p[j] != s[i]
的时候,说明最新的一位就匹配不上,那么先前能不能匹配上就已经不重要了,最后一定匹配不上直接dp[i][j] = false
- 当
-
遇到了**.**:
- 当遇到点的时候,说明,最新的s和p的最新一位是可以匹配上的,这种情况就和遇上普通字符串时候的
p[j] == s[i]
情况一致,只要看之前有没有匹配上就可以了。
- 当遇到点的时候,说明,最新的s和p的最新一位是可以匹配上的,这种情况就和遇上普通字符串时候的
-
遇到了*****: 这也是这题最难的一点*可以匹配任意多个
*
前面的字符,会分为两种情况- 当
*
前面的字符能和s[i]
不能匹配的时候,此时dp[i][j]
就是由dp[i][j - 2]
的值决定,因为*
也可以表示匹配0个*
前面的字符,前面的字符匹配不上,直接扔了,然后再看看能不能匹配上。 - 当
*
前面的字符能和s[i]
能匹配的时候,dp[i][j]
就是由dp[i][j - 2]
和dp[i - 1][j]
的值来决定,因为当*
能和s[i]
匹配上的时候也分为两种情况,第一种如下:s = "bb", p = "bbb*"
当i = 2, j = 4的时候,直接忽略掉p中的b*
。p可以和s匹配上。第二种情况如下:s = "bbbb", p = "bbb*"
,使用*
匹配多个b
,p也可以和s匹配上。
- 当
先举个案例,s = "aab", p = "c*a*b"
。下一步直接打表。
黄色和红色部分均为初始化,橙色部分为后续需要填写的。
初始化部分:当p和s都为空的时候一定是可以匹配上的;当p为空,且s不为空的时候,他们一定是无法匹配的;当s为空,且p不为空的时候,只有*
能匹配。
初始化实现代码如下:
// dp[i][j]: 表示s的前i位字符串能否匹配p的前j位字符串
boolean[][] dp = new boolean[s.length() + 1][p.length() + 1];
// 初始化0时候的数据
dp[0][0] = true;
// 初始化没有s,只有p的时候的数据
for (int i = 1; i <= p.length(); i++) {if (p.charAt(i - 1) == '*') {if (i - 2 < 0) {dp[0][i] = false;}else {dp[0][i] = dp[0][i - 2];}}else {dp[0][i] = false;}
}
dp赋值的橙色部分,则按照上述的三种字符串的逻辑来填充。
代码如下:
package com.offer;import java.util.HashMap;
import java.util.Map;public class _10正则表达式匹配 {public static void main(String[] args) {String s = "aab";String p = "c*a*b";System.out.println(isMatch(s, p));}public static boolean isMatch(String s, String p) {// dp[i][j]: 表示s的前i位字符串能否匹配p的前j位字符串boolean[][] dp = new boolean[s.length() + 1][p.length() + 1];// 初始化0时候的数据dp[0][0] = true;// 初始化没有s,只有p的时候的数据for (int i = 1; i <= p.length(); i++) {if (p.charAt(i - 1) == '*') {if (i - 2 < 0) {dp[0][i] = false;}else {dp[0][i] = dp[0][i - 2];}}else {dp[0][i] = false;}}// 如果s长度为0,且p长度不为0,不能确定能否匹配成功// 如果p长度为0,但是s长度不为0,那么一定匹配失败,所以这第一列可以直接全部初始化成falsefor (int i = 1; i <= s.length(); i++) {for (int j = 1; j <= p.length(); j++) {if (p.charAt(j - 1) == '*') {if (p.charAt(j - 2) == s.charAt(i - 1) || p.charAt(j - 2) == '.') {dp[i][j] = dp[i][Math.max(j - 2, 0)] || dp[i - 1][j];}else {// 去掉匹配字符a*再试试dp[i][j] = dp[i][Math.max(j - 2, 0)];}}else {if (s.charAt(i - 1) == p.charAt(j - 1) || p.charAt(j - 1) == '.') {dp[i][j] = dp[i - 1][j - 1];}else {dp[i][j] = false;}}}}printfDp(dp);return dp[s.length()][p.length()];}private static void printfDp(boolean[][] dp) {for (int i = 0; i < dp.length; i++) {for (int j = 0; j < dp[i].length; j++) {System.out.print(dp[i][j] + "\t");}System.out.println();}}}