正则表达式的使用-编程知识

1、正则表达式-教程

　　正则表达式：文本模式，包括普通字符（例如，a到z之间的字母）和特殊字符（称为元字符）。

　　正则表达式使用单个字符串来描述，匹配一系列匹配某个句法规则的字符串。

2、正则表达式-语法

　　正则表达式描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符（例如字符a-z）以及特殊字符（称为“元字符”）组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

2.1普通字符

　　普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字符、所有数字、所有标点符号和一些其他符号。

2.2 非打印字符

　　非打印字符也可以是正则表达式的组成部分。下列列出了表示非打印字符的转义序列：

字符	描述
\cx	匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。 x的值必须为A-Z或a-z之一。
\f	匹配一个换页符。=\x0c或=\cL
\n	匹配一个换行符。=\x0a或\cJ
\r	匹配一个回车符。=\x0d和\cM
\s	匹配任何空白字符，包括空格、制表符、换页符等待。=[\f\n\r\t\v]
\S	匹配任何非空白字符。=[^ \f\n\r\t\v]
\t	匹配一个制表符。=\x09和\cl
\v	匹配一个垂直制表符。=\x0b和 \cK

2.3 特殊字符

　　特殊字符，就是有一些特殊含义字符。

特别字符	描述
$	匹配输入字符串的结尾位置。如果要匹配本身，需要进行转义，使用\$.
()	标记一个子表达式的开始和结束位置。
*	匹配前面的子表达式0或多次。如果要匹配本身，需要进行转义，使用\*
+	匹配前面的子表达式1或多次。如果要匹配本身，需要进行转义，使用\+
.	匹配除换行符\n之外的任何单个字符。匹配.,使用\.
[	标记一个中括号表达式的开始。要匹配[,使用\[
?	匹配前面的子表达式0或1次，或指明一个非贪婪限定符。要匹配？字符，使用\?
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配^,使用\^
{	标记限定符表达式的开始。要匹配{,使用\{
\|	指明两项之间的一个选择。要匹配\|，请使用\\|

2.4 限定符

　　限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或？或{n}或{n,}或{n,m}共6种。正则表达式中的几种重复模式。

正则表达式的限定符有：

字符(语法)	描述（说明）
*	匹配前面的子表达式0或多次。
+	匹配前面的子表达式1或多次。
？	匹配前面的子表达式0或1次。
{n}	n是一个非负整数。匹配确定的n次。
{n,}	n是一个非负整数，至少匹配n次。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。

*、+限定符都是贪婪的，因为它们会尽可能多的匹配文字，只有它们的后面加上一个?就可以实现非贪婪或最小匹配。

贪婪：下面的表达式匹配从开始小于符号(<)到关闭大于符号(>)之间的所有内容。

比如：<h1>RUNOOB-菜鸟教程</h1>

/<.*>/

非贪婪：如果您只需要匹配开始和结束h1标签，下面的非贪婪表达式只匹配<h1>。

/<.*?>/

2.5定位符

定位符能使正则表达式固定到行首或行尾。定位符用来描述字符串或单词的边界，^和$分别指字符串的开始与结束，\b描述单词的前或后边界，\B表示非单词边界。

字符	描述
^	匹配输入字符串开始的位置。
$	匹配输入字符串结尾的位置。
\b	匹配一个单词边界，即字与空格间的位置。
\B	非单词边界匹配。比如chapter和aptitude,apt出现在单词chapter中的非单词边界处，但出现在单词aptitude中的单词边界处。

注意：不能将限定符与定位符一起使用。由于在紧靠换行或单词边界的前面或后面不能有一个以上位置，因为不允许诸如^*之类的表达式。

选择：用圆括号将所有选择项括起来，相邻的选择项之间用|分隔。但用圆括号会有一个副作用，使相关的匹配会被缓存，此时可用？：放在第一个选项前来消除这种副作用。

其中？:是非捕获元之一，还有两个非捕获元是?=和?!。

?=:正向预查，在任何开始匹配圆括号内的正则表达式的位置来匹配搜索字符串。

?!:负向预查，在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

反向引用：对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中，所捕获的每个子匹配都按照在正则表达式中从左到右出现的顺序存储。缓冲区编号从1开始，最多可存储99个捕获的子表达式。

可以使用非捕获元字符?:,?=;?!来重写捕获，忽略对相关匹配的保存。

比如例子1：Is is the cost of of gasoline going up up?

该正则表达式：/\b([a-z]+) \1\b/ig #[a-z]+ 表示1个或多个字母。\1指定第一个子匹配项。g表示全局变量，i忽略大小写。

例子2：要匹配taobao taobao ,home home这样的情况如何处理？

正则表达式：\b(\w+)\b\s+\1\b

正则表达式给匹配项命名：\b(?<Word>\w+)\b\s+\k<Word>\b

3、正则表达式-元字符

字符	描述
\	将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符。例如n 匹配字符n,\n匹配换行符。匹配\，使用\\;匹配(，使用\(
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，当该符号在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合。要匹配^,使用\^
$	匹配输入字符串的结尾位置。如果要匹配本身，需要进行转义，使用\$.
*	匹配前面的子表达式0或多次。
+	匹配前面的子表达式1或多次。如果要匹配本身，需要进行转义，使用\+
？	匹配前面的子表达式0或1次，或指明一个非贪婪限定符。要匹配？字符，使用\?
{n}	n是一个非负整数。匹配确定的n次。
{n,}	n是一个非负整数，至少匹配n次。
？	当该字符紧跟在任何一个其他限制符(*、+、？、{n}、{n,}、{n,m})后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如对于字符串"oooo",'0+?'将匹配单个"o","o+"将匹配所有'o'.
.	匹配除换行符\n之外的任何单个字符。匹配.,使用\.
(pattern)	匹配pattern并获取这一匹配。
(?:pattern)	匹配pattern但不获取这一匹配，即这是一个非获取匹配，不进行存储供以后使用。比如'industr(?:y\|ies)就是一个比'industry\|industries'更简单的表达式。
(?=pattern)	正向肯定预查（look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。非获取匹配，该匹配不需要获取供以后使用。比如“windows(?=95\|98\|NT\|2000)”能匹配windows2000中的windows,但不能匹配windows3.1中的windows.预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。非获取匹配，也就是说，该匹配不需要获取供以后使用。比如“windows(?!95\|98\|NT\|2000)”不能匹配windows2000中的windows,但能匹配windows3.1中的windows.预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查方向相反。比如“(?<=95\|98\|NT\|2000)windows”能匹配2000windows中的windows,但不能匹配3.1windows中的windows.
(?<!parttern)	反向(look behind)否定预查，与正向否定预查方向相反。比如“(?<!95\|98\|NT\|2000)windows”不能匹配2000windows中的windows,但能匹配3.1windows中的windows.
x\|y	匹配x或y。比如，'z\|food'能匹配'z'或'food'。‘(z\|f)ood’则匹配"zood"或"food".
[xyz]	字符集合。匹配所包含的任意一个字符。比如'[abc]'可以匹配'plain'中的'a'.
[^xyz]	负值字符集合。匹配未包含的任意字符，例如'[^abc]'可以匹配’plain'中的‘p’、'l'、'i'、'n'.
[a-z]	字符范围。匹配指定范围内的任意字符。例如'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。
[^a-z}	负值字符范围。匹配任何不在指定范围内的任意字符。例如'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意小写字符。
\b	匹配一个单词边界，即字与空格间的位置。例如，'er\b'可以匹配"never"中的"er"，但不能匹配"verb"中的"er"
\B	匹配非单词边界。例如，'er\B'不可以匹配"never"中的"er"，但能匹配"verb"中的"er"
\cx	匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。
\d	匹配一个数字字符。等价于[0-9]
\D	匹配一个非数字字符。等价于[^0-9]
\f	匹配一个换页符。等价于\x0c和=\cL
\n	匹配一个换行符。等价于\x0a或\cJ
\r	匹配一个回车符。等价于\x0d和\cM
\s	匹配任何空白字符，包括空格、制表符、换页符等待。=[\f\n\r\t\v]
\S	匹配任何非空白字符。=[^ \f\n\r\t\v]
\t	匹配一个制表符。=\x09和\cl
\v	匹配一个垂直制表符。=\x0b和 \cK
\w	匹配字母、数字、下划线。等价于[A-Za-z0-9_]
\W	匹配非字母、数字、下划线。等价于[^A-Za-z0-9_]
\xn	匹配n,其中n为十六进制转义值。例如'\x41'匹配“A”。'\x041'则等价于‘\x04' & '1'.
\num	匹配num.
\n	标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
\un	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如， \u00A9 匹配版权符号 (?)。

其中零宽断言：

?=exp 零宽度正预测先行断言，自身出现的位置的后面能匹配表达式exp。

比如：I’m singing while you’re dancing.

正则表达式：\b\w+(?=ing\b)

?<=exp 零宽度正向顾后发断言，自身出现的位置的前面能匹配表达式exp.

比如：reading a book

正则表达式：(?<=\bre)\w+\b

负向零宽断言：

查找这样的单词--它里面出现了字母q，但是q后面跟的不是字母u。

正则表达式：\b\w*q[^u]\w*\b，存在一个问题，[^u]占位的问题。

?!=exp 负向零宽断言：\b\w*q(?!u)\w*\b 并不消费任何字符

\d{3}(?!\d)匹配3位数字，而且这3位数字的后面不能是数字。

\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

?<! 零宽度负回顾后发断言。

(?<![a-z])\d{7} 匹配前面不是小写字母的七位数字。

4、正则表达式-运算符优先级

正则表达式从左到右进行计算，并遵循优先级顺序，与算数表达式类似。

相同优先级的从左到右进行计算，不同优先级的运算先高后低。

运算符	描述
\	转义符
(),(?:),(?=),[]	圆括号和方括号
*,+,?,{n},{n,},{n,m}	限定符
^,$,\任意元字符,任意字符	定点位和序列(即：位置和顺序)
\|	替换，“或”操作，字符具有高于替换运算符的优先级，使得"m\|food"匹配"m"或"food"。如要匹配"mood"或"food",请使用括号创建子表达式，从而产生"(m\|f)ood"