正则表达式的使用

1、正则表达式-教程

  正则表达式:文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为元字符)。

  正则表达式使用单个字符串来描述,匹配一系列匹配某个句法规则的字符串。

2、正则表达式-语法

  正则表达式描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符(例如字符a-z)以及特殊字符(称为“元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

2.1普通字符

  普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字符、所有数字、所有标点符号和一些其他符号。

 

2.2 非打印字符

  非打印字符也可以是正则表达式的组成部分。下列列出了表示非打印字符的转义序列:

字符

描述

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。

x的值必须为A-Z或a-z之一。

\f

匹配一个换页符。=\x0c或=\cL

\n

匹配一个换行符。=\x0a或\cJ

\r

匹配一个回车符。=\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

2.3 特殊字符

  特殊字符,就是有一些特殊含义字符。

特别字符

描述

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

()

标记一个子表达式的开始和结束位置。

*

匹配前面的子表达式0或多次。如果要匹配本身,需要进行转义,使用\*

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

[

标记一个中括号表达式的开始。要匹配[,使用\[

?

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

{

标记限定符表达式的开始。要匹配{,使用\{

|

指明两项之间的一个选择。要匹配|,请使用\|


2.4 限定符

  限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。正则表达式中的几种重复模式。

正则表达式的限定符有:

字符(语法)

描述(说明)

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。

匹配前面的子表达式0或1次。

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

{n,m}

m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。

*、+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有它们的后面加上一个?就可以实现非贪婪或最小匹配。

贪婪:下面的表达式匹配从开始小于符号(<)到关闭大于符号(>)之间的所有内容。

比如:<h1>RUNOOB-菜鸟教程</h1>

/<.*>/ 

非贪婪:如果您只需要匹配开始和结束h1标签,下面的非贪婪表达式只匹配<h1>。

/<.*?>/ 

2.5定位符

定位符能使正则表达式固定到行首或行尾。定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。

字符

描述

^

匹配输入字符串开始的位置。

$

匹配输入字符串结尾的位置。

\b

匹配一个单词边界,即字与空格间的位置。

\B

非单词边界匹配。比如chapter和aptitude,apt出现在单词chapter中的非单词边界处,但出现在单词aptitude中的单词边界处。

注意:不能将限定符与定位符一起使用。由于在紧靠换行或单词边界的前面或后面不能有一个以上位置,因为不允许诸如^*之类的表达式。

选择:用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。

其中?:是非捕获元之一,还有两个非捕获元是?=和?!。

?=:正向预查,在任何开始匹配圆括号内的正则表达式的位置来匹配搜索字符串。

?!:负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

反向引用:对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式中从左到右出现的顺序存储。缓冲区编号从1开始,最多可存储99个捕获的子表达式。

可以使用非捕获元字符?:,?=;?!来重写捕获,忽略对相关匹配的保存。

比如例子1:Is is the cost of of gasoline going up up?

该正则表达式:/\b([a-z]+) \1\b/ig   #[a-z]+ 表示1个或多个字母。\1指定第一个子匹配项。g表示全局变量,i忽略大小写。

例子2:要匹配taobao taobao ,home home这样的情况如何处理?

正则表达式:\b(\w+)\b\s+\1\b

正则表达式给匹配项命名:\b(?<Word>\w+)\b\s+\k<Word>\b

                

 

3、正则表达式-元字符

字符

描述

\

将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符。例如n 匹配字符n,\n匹配换行符。匹配\,使用\\;匹配(,使用\(

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

当该字符紧跟在任何一个其他限制符(*、+、?、{n}、{n,}、{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如对于字符串"oooo",'0+?'将匹配单个"o","o+"将匹配所有'o'.

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

(pattern)

匹配pattern并获取这一匹配。

(?:pattern)

匹配pattern但不获取这一匹配,即这是一个非获取匹配,不进行存储供以后使用。比如'industr(?:y|ies)就是一个比'industry|industries'更简单的表达式。

(?=pattern)

正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。非获取匹配,该匹配不需要获取供以后使用。比如“windows(?=95|98|NT|2000)”能匹配windows2000中的windows,但不能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)

正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。非获取匹配,也就是说,该匹配不需要获取供以后使用。比如“windows(?!95|98|NT|2000)”不能匹配windows2000中的windows,但能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?<=pattern)

反向(look behind)肯定预查,与正向肯定预查方向相反。比如“(?<=95|98|NT|2000)windows”能匹配2000windows中的windows,但不能匹配3.1windows中的windows.

(?<!parttern)

反向(look behind)否定预查,与正向否定预查方向相反。比如“(?<!95|98|NT|2000)windows”不能匹配2000windows中的windows,但能匹配3.1windows中的windows.

x|y

匹配x或y。比如,'z|food'能匹配'z'或'food'。‘(z|f)ood’则匹配"zood"或"food".

[xyz]

字符集合。匹配所包含的任意一个字符。比如'[abc]'可以匹配'plain'中的'a'.

[^xyz]

负值字符集合。匹配未包含的任意字符,例如'[^abc]'可以匹配’plain'中的‘p’、'l'、'i'、'n'.

[a-z]

字符范围。匹配指定范围内的任意字符。例如'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。

[^a-z}

负值字符范围。匹配任何不在指定范围内的任意字符。例如'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意小写字符。

\b

匹配一个单词边界,即字与空格间的位置。例如,'er\b'可以匹配"never"中的"er",但不能匹配"verb"中的"er"

\B

匹配非单词边界。例如,'er\B'不可以匹配"never"中的"er",但能匹配"verb"中的"er"

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。

\d

匹配一个数字字符。等价于[0-9]

\D

匹配一个非数字字符。等价于[^0-9]

\f

匹配一个换页符。等价于\x0c和=\cL

\n

匹配一个换行符。等价于\x0a或\cJ

\r

匹配一个回车符。等价于\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

\w

匹配字母、数字、下划线。等价于[A-Za-z0-9_]

\W

匹配非字母、数字、下划线。等价于[^A-Za-z0-9_]

\xn

匹配n,其中n为十六进制转义值。例如'\x41'匹配“A”。'\x041'则等价于‘\x04' & '1'.

\num

匹配num.

\n

标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。

\nm

标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

\nml

如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

\un

匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

其中零宽断言:

?=exp 零宽度正预测先行断言,自身出现的位置的后面能匹配表达式exp。

比如:I’m singing while you’re dancing.

正则表达式:\b\w+(?=ing\b)

?<=exp 零宽度正向顾后发断言,自身出现的位置的前面能匹配表达式exp.

比如:reading a book

正则表达式:(?<=\bre)\w+\b

负向零宽断言:

查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u。

正则表达式:\b\w*q[^u]\w*\b,存在一个问题,[^u]占位的问题。

?!=exp 负向零宽断言:\b\w*q(?!u)\w*\b 并不消费任何字符

\d{3}(?!\d)匹配3位数字,而且这3位数字的后面不能是数字。

\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

?<! 零宽度负回顾后发断言。

(?<![a-z])\d{7} 匹配前面不是小写字母的七位数字。

4、正则表达式-运算符优先级

正则表达式从左到右进行计算,并遵循优先级顺序,与算数表达式类似。

相同优先级的从左到右进行计算,不同优先级的运算先高后低。

运算符

描述

\

转义符

(),(?:),(?=),[]

圆括号和方括号

*,+,?,{n},{n,},{n,m}

限定符

^,$,\任意元字符,任意字符

定点位和序列(即:位置和顺序)

|

替换,“或”操作,字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food"。如要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood"

5、正则表达式-匹配规则

5.1 基本模式匹配

模式:正则表达式最基本的元素,它们是一组描述字符串特征的字符。比如:

^once 包含了特殊字符^,表示开头,表示该模式只匹配以once开头的字符串。匹配”once upon a time”,不匹配”There once was a man from NewYork”.

bucket$ ,$符号用来匹配那些以给定模式结尾的字符串。匹配”who kept all of this cash in a bucket”,不匹配buckets.

^bucket$ 同时使用^和$,表示精确匹配.

5.2 字符簇

字符簇:描述我们要的模式的方法。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:[AaEeIiOoUu].

[a-z] //匹配所有的小写字母

[A-Z] //匹配所有的大写字母

[a-zA-Z]   //匹配所有的字母

[0-9] ==\d //匹配所有的数字

[a-z0-9A-Z_]==\w  //匹配所有的字母、数字、下划线

[0-9\.\-]   //匹配所有的数字,句号和减号

[ \f\r\t\n]   //匹配所有的白字符

6 正则表达式-示例

6.1 简单表达式

正则表达式最简单形式实在搜索字符串中匹配其本身的单个普通字符。例如,单字符模式,同事也可以将血多单字符组合起来以形成大的表达式。(不需要串联运算符,只需要在一个字符后面键入另一个字符)

/a/

/7/

/M/

/a7M/

6.2 字符匹配

句点(.)匹配字符串中的各种打印或非打印字符,只有一个字符例外(换行符\n)。比如aac、abc、acc、adc、a1c、a2c、a-c、a#c。

/a.c/

6.3 中括号表达式

若要创建匹配字符组的一个列表,请在方括号([和])内放置一个或更多单个字符。当字符括在中括号内时,该列表称为”中括号表达式”。

比如Chapter1、Chapter2、Chapter3、Chapter4、Chapter5。

如上用正则表达式为:/Chapter [12345]/   或者/Chapter [1-5]/

6.4 替换和分组

替换使用|字符来语序在两个或多个替换选项之间进行选择。例如,可以扩展章节标题正则表达式,以返回比章节标题更广的匹配项。

比如:/^Chapter|Section [1-9][0-9]{0,1}$/

该表达式要么匹配行首的Chapter,要么匹配行尾的单词Section及跟在其后的任何数字。

比如:/^(Chapter|Section) [1-9][0-9]{0,1}$/

该表达式周围的括号捕获两个匹配字中的任一个供以后使用。

分组将子表达式进行做成子集,使用()进行分组,方便对match的字符串进行划分。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/60257.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【uniapp】一文读懂app端安装包升级

一、前言 首先&#xff0c;在app端开发上线的过程中&#xff0c;会面临一个问题&#xff0c;就是关于app端的版本升级的问题。如果不做相关处理来引导用户的话&#xff0c;那么app就会出现版本没有更新出现的各种问题&#xff0c;我们常见的有在线升级和去指定地址下载安装两种…

计算机网络—IP

这里写目录标题 IP的基本认识网络层与数据链路层有什么关系IP地址基础知识IP 地址的分类什么是A、B、C类地址广播地址用来做什么什么是D、E类广播多播地址用于什么IP分类的优点IP分类的缺点 无分类地址CIDR如何划分网络号和主机号怎么进性子网划分 公有 IP 地址与私有 IP 地址公…

修改el-select样式;修改element-plus的下拉框el-select样式

修改el-select样式 .select_box{// 默认placeholder:deep .el-input__inner::placeholder {font-size: 14px;font-weight: 500;color: #3E534F;}// 默认框状态样式更改:deep .el-input__wrapper {height: 42px;background-color: rgba(0,0,0,0)!important;box-shadow: 0 0 0 …

获取Spring中bean工具类

获取Spring中bean工具类 工具类 package com.geekmice.springbootselfexercise.utils;import org.springframework.beans.BeansException; import org.springframework.context.ApplicationContext; import org.springframework.context.ApplicationContextAware; import org…

Flink源码之JobManager启动流程

从启动命令flink-daemon.sh中可以看出StandaloneSession入口类为org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint, 从该类的main方法会进入ClusterEntrypoint::runCluster中, 该方法中会创建出主要服务和组件。 StandaloneSessionClusterEntrypoint:…

【cs61b】学习笔记day2

历史文章目录 【cs61b】学习笔记day1 文章目录 历史文章目录List两个小问题bits声明一个变量引用类型方框和指针表示法数组的实例化链表 SLList List 两个小问题 思考下面两个代码分别输出什么 Walrus a new Walrus(1000, 8.3); Walrus b; b a; b.weight 5; System.out.…

博客项目(Spring Boot)

1.需求分析 注册功能&#xff08;添加用户操纵&#xff09;登录功能&#xff08;查询操作)我的文章列表页&#xff08;查询我的文章|文章修改|文章详情|文章删除&#xff09;博客编辑页&#xff08;添加文章操作&#xff09;所有人博客列表&#xff08;带分页功能&#xff09;…

[webpack] 基本配置 (一)

文章目录 1.基本介绍2.功能介绍3.简单使用3.1 文件目录和内容3.2 下载依赖3.3 启动webpack 4.基本配置4.1 五大核心概念4.2 基本使用 1.基本介绍 Webpack 是一个静态资源打包工具。它会以一个或多个文件作为打包的入口, 将我们整个项目所有文件编译组合成一个或多个文件输出出去…

Ubuntu 23.04 作为系统盘的体验和使用感受

1.为啥主系统装了Ubuntu 由于公司发电脑了&#xff0c;我自己也有一台台式电脑&#xff0c;然后也想去折腾一下Ubuntu&#xff0c;就把自己的笔记本装成Ubuntu系统了&#xff0c; 我使用的是23.04的桌面版&#xff0c;带图形化界面的。我准备换回Windows 11了&#xff08;因为…

K8s中的Controller

Controller的作用 &#xff08;1&#xff09;确保预期的pod副本数量 &#xff08;2&#xff09;无状态应用部署 &#xff08;3&#xff09;有状态应用部署 &#xff08;4&#xff09;确保所有的node运行同一个pod&#xff0c;一次性任务和定时任务 1.无状态和有状态 无状态&…

java日期常用操作

Testpublic void validateDateUtils(){// 1 字符串转换日期Date result DateUtil.parse("2023-08-01", com.alibaba.excel.util.DateUtils.DATE_FORMAT_10);log.info("result : [{}]" , result);// 2 日期转换字符串final Date date new Date();String f…

文件数字水印,附一种纯文本隐写术数字水印方法

数字水印&#xff08;Digital Watermark&#xff09;是一种在数字媒体文件中嵌入隐藏信息的技术。这些数字媒体可以是图片、音频、视频或文本等。数字水印不会对原始文件造成明显的视觉或听觉变化&#xff0c;但可以在一定程度上保护知识产权&#xff0c;追踪数据来源&#xff…