PHP擴展之文本處理(二)——PCRE正則表達式語法11——斷言
一個斷言就是一個對當前匹配位置之前或之后的字符的測試, 它不會實際消耗任何字符。簡單的斷言代碼有b、B、 A、 Z、z、 ^、$ 等等。 更加復雜的斷言以子組的方式編碼。 它有兩種類型:前瞻斷言(從當前位置向前測試)和后瞻斷言(從當前位置向后測試)。
一個斷言子組的匹配還是通過普通方式進行的, 不同在于它不會導致當前的匹配點發生改變。?前瞻斷言中的正面斷言(斷言此匹配為真)以 ”(?=” 開始,消極斷言以 ”(?!” 開頭。比如,?w+(?=;)?匹配一個單詞緊跟著一個分號但是匹配結果不會包含分號,?foo(?!bar)?匹配所有后面沒有緊跟 ”bar” 的 ”foo” 字符串。 注意一個類似的模式?(?!foo)bar, 它不能用于查找之前出現所有不是 ”foo” 的 ”bar” 匹配, 它會查找到任意的 ”bar” 出現的情況, 因為 (?!foo) 這個斷言在接下來三個字符時 ”bar” 的時候是永遠都?TRUE?的。 前瞻斷言需要達到的就是這樣的效果。
后瞻斷言中的正面斷言以”(?<=”開始, 消極斷言以”(?<!”開始。比如,?(?<!foo)bar?用于查找任何前面不是 ”foo” 的 ”bar”。 后瞻斷言的內容被嚴格限制為只能用于匹配定長字符串。但是,如果有多個可選分支, 它們不需要擁有相同的長度。比如?(?<=bullock|donkey)?是允許的, 但是?(?<!dogs?|cats?)?將會引發一個編譯期的錯誤。在最上級分支可以匹配不同長度的字符串是允許的。 相比較于 perl 5.005 而言,它會要求多個分支使用相同長度的字符串匹配。(?<=ab(c|de))?這樣的斷言是不允許的, 因為它單個的頂級分支可以匹配兩個不同的長度, 但是它可以接受使用兩個頂級分支的寫法?(?<=abc|abde)?這樣的斷言實現, 對于每個可選分支,暫時將當前位置移動到嘗試匹配的當前位置之前的固定寬度處。 如果在當前沒有足夠的字符就視為匹配失敗。后瞻斷言與一次性子組結合使用可以用來匹配字符串結尾; 一個例子就是在一次性子組上給出字符串結尾。
多個斷言(任意順序)可以同時出現。 比如?(?<=d{3})(?<!999)foo?匹配前面有三個數字但不是 ”999” 的字符串 ”foo”。注意, 每個斷言獨立應用到對目標字符串該點的匹配。 首先它會檢查前面的三位都是數字, 然后檢查這三位不是 ”999”。 這個模式不能匹配 ”foo” 前面有三位數字然后緊跟 3 位非 999 共 6 個字符的字符串,比如, 它不匹配 ”123abcfoo”。 匹配 ”123abcfoo” 這個字符串的模式可以是(?<=d{3}…)(?<!999)foo。
這種情況下,第一個斷言查看(當前匹配點)前面的 6 個字符,檢查前三個是數字, 然后第二個斷言檢查(當前匹配點)前三個字符不是 ”999”。
斷言可以以任意復雜度嵌套。 比如?(?<=(?<!foo)bar)baz?匹配前面有 ”bar” 但是 ”bar” 前面沒有 ”foo” 的 ”baz”。 另外一個模式?(?<=d{3}…(?<!999))foo?則匹配前面有三個數字字符緊跟 3 個不是 999 的任意字符的 ”foo”。
斷言子組時非捕獲子組,并且不能用量詞修飾, 因為對同一件事做多次斷言是沒有意義的.如果所有的斷言都包含一個捕獲子組, 那么為了在整個模式中捕獲子組計數的目的,它們都會被計算在內。然而, 子字符串的捕獲僅可以用于正面斷言,因為對于消極的斷言是沒有意義的。
將斷言計算在內,可以擁有的最大子組數量是 200 個。
相關文章:
