贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能 得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例: a.*b ,它将会匹配 最长的以a开始,以b结束的字符串 。如果用它来搜索 aabab 的话,它会匹配整个字 符串 aabab 。这被称为 贪婪 匹配。
有时,我们更需要 懒惰 匹配,也就是匹配尽可能少的字符。前面给出的限定符 都可以被转化为懒惰匹配模式,只要在它后面加上一个问号 ? 。这样 .*? 就意味着 匹 配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复 。现在看看 懒惰版的例子吧:
a.*?b 匹配 最短的,以a开始,以b结束的字符串 。如果把它应用于 aabab 的话,它会匹配 aab(第一到第三个字符) 和 ab(第四到第五个字符) 。
为什么第一个匹配是aab(第一到第三
个字符)而不是ab(第二到第三个字 符)?简单地说,因为正则表达式有另一 条规则,比懒惰/贪婪规则的优先级更 高:最先开始的匹配拥有最高的优先权—
—The match that begins earliest wins。
表5.懒惰限定符
代码/语 法 |
说明 |
*? |
重复任意次,但尽可能少重 复 |
? |
重复1次或更多次,但尽可能 少重复 |
?? |
重复0次或1次,但尽可能少 重复 |
{n,m}? |
重复n到m次,但尽可能少重 复 |
{n,}? |
重复n次以上,但尽可能少重 复 |