正則表達式
百科名片
在計算機科學中,是指一個用來描述或者匹配一系列符合某個句法規則的字元串的單個字元串。在很多文本編輯器或其他工具里,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。許多程式設計語言都支持利用正則表達式進行字元串操作。例如,在Perl中就內建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由Unix中的工具軟體(例如sed和grep)普及開的。正則表達式通常縮寫成“RegEx”,單數有RegExp、regex,複數有regexps、regexes、regexen。
目錄
歷史和起源
概念
基礎
常用的正則表達式
EditPlus等軟體中正則替換技巧
啟示
展開
編輯本段
歷史和起源
正則表達式的“鼻祖”或許可一直追溯到科學家對人類神經系統工作原理的早期研究。美國新澤西州的WarrenMcCulloch和出生在美國底特律的WalterPitts這兩位神經生理方面的科學家,研究出了一種用數學方式來描述神經網路的新方法,他們創新地將神經系統中的神經元描述成了小而簡單的自動控制元,從而作出了一項偉大的工作革新。
在1956年,出生在被馬克·吐溫(MarkTwain)稱為“美國最美麗的城市之一的”哈特福德市的一位名叫StephenKleene的數學科學家,他在WarrenMcCulloch和WalterPitts早期工作的基礎之上,發表了一篇題目是《神經網事件的表示法》的論文,利用稱之為正則集合的數學符號來描述此模型,引入了正則表達式的概念。正則表達式被作為用來描述其稱之為“正則集的代數”的一種表達式,因而採用了“正則表達式”這個術語。
之後一段時間,人們發現可以將這一工作成果套用於其他方面。KenThompson就把這一成果套用於計算搜尋算法的一些早期研究,KenThompson是Unix的主要發明人,也就是大名鼎鼎的Unix之父。Unix之父將此符號系統引入編輯器QED,然後是Unix上的編輯器ed,並最終引入grep。JeffreyFriedl在其著作“MasteringRegularExpressions(2ndedition)”中對此作了進一步闡述講解,如果你希望更多了解正則表達式理論和歷史,推薦你看看這本書。
自此以後,正則表達式被廣泛地套用到各種UNIX或類似於UNIX的工具中,如大家熟知的Perl。Perl的正則表達式源自於HenrySpencer編寫的regex,之後已演化成了pcre(Perl兼容正則表達式PerlCompatibleRegularExpressions),pcre是一個由PhilipHazel開發的、為很多現代工具所使用的庫。正則表達式的第一個實用應用程式即為Unix中的qed編輯器。
然後,正則表達式在各種計算機語言或各種套用領域得到了廣大的套用和發展,演變成為目前計算機技術森林中的一隻形神美麗且聲音動聽的百靈鳥。
以上是關於正則表達式的起源和發展的歷史描述,到目前正則表達式在基於文本的編輯器和搜尋工具中依然占據這一個非常重要的地位。
在最近的六十年中,正則表達式逐漸從模糊而深奧的數學概念,發展成為在計算機各類工具和軟體包套用中的主要功能。不僅僅眾多UNIX工具支持正則表達式,近二十年來,在WINDOW的陣營下,正則表達式的思想和套用在大部分Windows開發者工具包中得到支持和嵌入套用!從正則式在MicrosoftVisualBasic6或MicrosoftVBScript到.NETFramework中的探索和發展,WINDOWS系列產品對正則表達式的支持發展到無與倫比的高度,目前幾乎所有Microsoft開發者和所有.net語言都可以使用正則表達式。如果你是一位接觸計算機語言的工作者,那么你會在主流作業系統(*nix[Linux,Unix等]、Windws、HP、BeOS等)、目前主流的開發語言(PHP、C#、Java、C++、VB、Javascript、Rubby等)、數以億萬計的各種套用軟體中,都可以看到正則表達式優美的舞姿。[1]
編輯本段
概念
一個正則表達式,就是用某種模式去匹配一類字元串的一個公式。很多人因為它們看上去比較古怪而且複雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點,不過,經過一點點練習之後我就開始覺得這些複雜的表達式其實寫起來還是相當簡單的,而且,一旦你弄懂它們,你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內完成。正則表達式被各種文本編輯軟體、類庫(例如RogueWave的tools.h++)、腳本工具(像awk/grep/sed)廣泛的支持,而且像Microsoft的VisualC++這種互動式IDE也開始支持它了。
我們將在如下的章節中利用一些例子來解釋正則表達式的用法,絕大部分的例子是基於vi中的文本替換命令和grep檔案搜尋命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支持正則表達式的程式語言中使用。你可以看看不同工具中的正則表達式這一節,其中有一些在別的工具中使用正則表達式的例子。還有一個關於vi中文本替換命令(s)的簡單說明附在文後供參考。
編輯本段
基礎
(摘自《正則表達式之道》)
正則表達式由一些普通字元和一些元字元(metacharacters)組成。普通字元包括大小寫的字母和數字,而元字元則具有特殊的含義,我們下面會給予解釋。
在最簡單的情況下,一個正則表達式看上去就是一個普通的查找串。例如,正則表達式"testing"中沒有包含任何元字元,它可以匹配"testing"和"123testing"等字元串,但是不能匹配"Testing"。
要想真正的用好正則表達式,正確的理解元字元是最重要的事情。下表列出了所有的元字元和對它們的一個簡短的描述。
元字元 描述
.點 匹配任何單個字元。例如正則表達式r.t匹配這些字元串:rat、rut、rt,但是不匹配root。
$ 匹配行結束符。例如正則表達式weasel$能夠匹配字元串"He'saweasel"的末尾
但是不能匹配字元串"Theyareabunchofweasels."
^ 匹配一行的開始。例如正則表達式^Whenin能夠匹配字元串"Wheninthecourseofhumanevents"的開始,但是不能匹配"WhatandWheninthe"
* 匹配0或多個正好在它之前的那個字元。例如正則表達式.*意味著能夠匹配任意數量的任何字元。
\ 這是引用符,用來將這裡列出的這些元字元當作普通的字元來進行匹配。例如正則表達式\$被用來匹配美元符號,而不是行尾,類似的,正則表達式\.用來匹配點字元,而不是任何字元的通配符。
[]
[c1-c2]
[^c1-c2] 匹配括弧中的任何一個字元。例如正則表達式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括弧中使用連字元-來指定字元的區間,例如正則表達式[0-9]可以匹配任何數字字元;還可以制定多個區間,例如正則表達式[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字元——也就是所謂的補集——在左邊的括弧和第一個字元之間使用^字元,例如正則表達式[^269A-Z]將匹配除了2、6、9和所有大寫字母之外的任何字元。
\<\> 匹配詞(word)的開始(\<)和結束(\>)。例如正則表達式\<the\>能夠匹配字元串"forthewise"中的"the",但是不能匹配字元串"otherwise"中的"the"。注意:這個元字元不是所有的軟體都支持的。
\(\) 將\(和\)之間的表達式定義為“組”(group),並且將匹配這個表達式的字元保存到一個臨時區域(一個正則表達式中最多可以保存9個),它們可以用\1到\9的符號來引用。
| 將兩個匹配條件進行邏輯“或”(Or)運算。例如正則表達式(him|her)匹配"itbelongstohim"和"itbelongstoher",但是不能匹配"itbelongstothem."。注意:這個元字元不是所有的軟體都支持的。
+ 匹配1或多個正好在它之前的那個字元。例如正則表達式9+匹配9、99、999等。注意:這個元字元不是所有的軟體都支持的。
? 匹配0或1個正好在它之前的那個字元。注意:這個元字元不是所有的軟體都支持的。
\{i\}
\{i,j\} 匹配指定數目的字元,這些字元是在它之前的表達式定義的。例如正則表達式A[0-9]\{3\}能夠匹配字元"A"後面跟著正好3個數字字元的串,例如A123、A348等,但是不匹配A1234。而正則表達式[0-9]\{4,6\}匹配連續的任意4個、5個或者6個數字字元。注意:這個元字元不是所有的軟體都支持的。
最簡單的元字元是點,它能夠匹配任何單個字元(注意不包括換行符)。假定有個檔案test.txt包含以下幾行內容:
heisarat
heisinarut
thefoodisRotten
Ilikerootbeer
我們可以使用grep命令來測試我們的正則表達式,grep命令使用正則表達式去嘗試匹配指定檔案的每一行,並將至少有一處匹配表達式的所有行顯示出來。命令
grepr.ttest.txt
在test.txt檔案中的每一行中搜尋正則表達式r.t,並列印輸出匹配的行。正則表達式r.t匹配一個r接著任何一個字元再接著一個t。所以它將匹配檔案中的rat和rut,而不能匹配Rotten中的Rot,因為正則表達式是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字元區間元字元(方括弧)。正則表達式[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫的r接著任何一個字元再接著一個t就要使用這個表達式:[Rr].t。
要想匹配行首的字元要使用抑揚字元(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會先用簡單表達式he,但是這會匹配第三行的the,所以要使用正則表達式^he,它只匹配在行首出現的h。
有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字元(^)出現在方括弧中是,它表示“排除”,例如要匹配he,但是排除前面是tors的情性(也就是the和she),可以使用:[^st]he。
可以使用方括弧來指定多個字元區間。例如正則表達式[A-Za-z]匹配任何字母,包括大寫和小寫的;正則表達式[A-Za-z][A-Za-z]*匹配一個字母后面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字元+做到同樣的事情,也就是:[A-Za-z]+,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字元+並不是所有支持正則表達式的程式都支持的。關於這一點可以參考後面的正則表達式語法支持情況。
要指定特定數量的匹配,要使用大括弧(注意必須使用反斜槓來轉義)。想匹配所有100和1000的實例而排除10和10000,可以使用:10\{2,3\},這個正則表達式匹配數字1後面跟著2或者3個0的模式。在這個元字元的使用中一個有用的變化是忽略第二個數字,例如正則表達式0\{3,\}將匹配至少3個連續的0。
簡單的例子
這裡有一些有代表性的、比較簡單的例子。
vi命令 作用
:%s/*//g 把一個或者多個空格替換為一個空格
:%s/*$// 去掉行尾的所有空格
:%s/^// 在每一行頭上加入一個空格
:%s/^[0-9][0-9]*// 去掉行首的所有數字字元
:%s/b[aeio]g/bug/g 將所有的bag、beg、big和bog改為bug。
:%s/t\([aou]\)g/h\1t/g 將所有tag、tog和tug分別改為hat、hot和hut(注意用group的用法和使用\1引用前面被匹配的字元)
中級的例子
例1
將所有方法foo(a,b,c)的實例改為foo(b,a,c)。這裡a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:
之前之後
foo(10,7,2)foo(7,10,2)
foo(x+13,y-2,10)foo(y-2,x+13,10)
foo(bar(8),x+y+z,5)foo(x+y+z,bar(8),5)
下面這條替換命令能夠實現這一魔法:
:%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)/g
現在讓我們把它打散來加以分析。寫出這個表達式的基本思路是找出foo()和它的括弧中的三個參數的位置。第一個參數是用這個表達式來識別的::\([^,]*\),我們可以從裡向外來分析它:
[^,]除了逗號之外的任何字元
[^,]*0或者多個非逗號字元
\([^,]*\)將這些非逗號字元標記為\1,這樣可以在之後的替換模式表達式中引用它
\([^,]*\),我們必須找到0或者多個非逗號字元後面跟著一個逗號,並且非逗號字元那部分要標記出來以備後用。
現在正是指出一個使用正則表達式常見錯誤的最佳時機。為什麼我們要使用[^,]*這樣的一個表達式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?構想我們使用模式.*來匹配字元串"10,7,2",它應該匹配"10,"還是"10,7,"?為了解決這個兩義性(ambiguity),正則表達式規定一律按照最長的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強制取出第一個逗號之前的部分。
這個表達式我們已經分析到了:foo(\([^,]*\),這一段可以簡單的翻譯為“當你找到foo(就把其後直到第一個逗號之前的部分標記為\1”。然後我們使用同樣的辦法標記第二個參數為\2。對第三個參數的標記方法也是一樣,只是我們要搜尋所有的字元直到右括弧。我們並沒有必要去搜尋第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overoading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應實例,然後利用標記好的部分進行替換,是把第一和第二個參數交換位置。
例2
假設有一個CSV(commaseparatedvalue)檔案,裡面有一些我們需要的信息,但是格式卻有問題,目前數據的列順序是:姓名,公司名,州名縮寫,郵政編碼,現在我們希望講這些數據重新組織,以便在我們的某個軟體中使用,需要的格式為:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調整列順序,還要合併兩個列來構成一個新列。另外,我們的軟體不能接受逗號前後面有任何空格(包括空格和制表符)所以我們還必須要去掉逗號前後的所有空格。
這裡有幾行我們現在的數據:
BillJones,HI-TEKCorporation,CA,95011
SharonLeeSmith,DesignWorksIncorporated,CA,95012
B.Amos,HillStreetCafe,CA,95013
AlexanderWeatherworth,TheCraftsStore,CA,95014
...
我們希望把它變成這個樣子:
BillJones,CA95011,HI-TEKCorporation
SharonLeeSmith,CA95012,DesignWorksIncorporated
B.Amos,CA95013,HillStreetCafe
AlexanderWeatherworth,CA95014,TheCraftsStore
...
我們將用兩個正則表達式來解決這個問題。第一個移動列和合併列,第二個用來去掉空格。
下面就是第一個替換命令:
:%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/\1,\3\4,\2/
這裡的方法跟例1基本一樣,第一個列(姓名)用這個表達式來匹配:\([^,]*\),即第一個逗號之前的所有字元,而姓名內容被用\1標記下來。公司名和州名縮寫欄位用同樣的方法標記為\2和\3,而最後一個欄位用\(.*\)來匹配("匹配所有字元直到行末")。替換部分則引用上面標記的那些內容來進行構造。
下面這個替換命令則用來去除空格:
:%s/[\t]*,[\t]*/,/g
我們還是分解來看:[\t]匹配空格/制表符,[\t]*匹配0或多個空格/制表符,[\t]*,匹配0或多個空格/制表符後面再加一個逗號,最後,[\t]*,[\t]*匹配0或多個空格/制表符接著一個逗號再接著0或多個空格/制表符。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這裡我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是預設的只替換第一個匹配串)。
例3
假設有一個多字元的片斷重複出現,例如:
Billytriedreallyhard
Sallytriedreallyreallyhard
Timmytriedreallyreallyreallyhard
Johnnytriedreallyreallyreallyreallyhard
而你想把"really"、"reallyreally",以及任意數量連續出現的"really"字元串換成一個簡單的"very"(simpleisgood!),那么以下命令:
:%s/\(really\)\(really\)*/very/
就會把上述的文本變成:
Billytriedveryhard
Sallytriedveryhard
Timmytriedveryhard
Johnnytriedveryhard
表達式\(really\)*匹配0或多個連續的"really"(注意結尾有個空格),而\(really\)\(really\)*匹配1個或多個連續的"really"實例。
不同工具中的正則表達式
OK,你已經準備使用RE(regularexpressions,正則表達式),但是你並準備使用vi。所以,在這裡我們給出一些在其他工具中使用RE的例子。另外,我還會總結一下你在不同程式之間使用RE可能發現的區別。
當然,你也可以在VisualC++編輯器中使用RE。選擇Edit->Replace,然後選擇"Regularexpression"選擇框,FindWhat輸入框對應上面介紹的Vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框對應pat2部分。但是,為了得到vi的執行範圍和g選項,你要使用ReplaceAll或者適當的手工FindNextandReplace(譯者按:知道為啥有人罵微軟弱智了吧,雖然VC中可以選中一個範圍的文本,然後在其中執行替換,但是總之不夠vi那么靈活和典雅)。
sed
Sed是StreamEDitor的縮寫,是Unix下常用的基於檔案和管道的編輯工具,可以在手冊中得到關於sed的詳細信息。
這裡是一些有趣的sed腳本,假定我們正在處理一個叫做price.txt的檔案。注意這些編輯並不會改變源檔案,sed只是處理源檔案的每一行並把結果顯示在標準輸出中(當然很容易使用重定向來定製):
sed腳本 描述
sed's/^$/d'price.txt 刪除所有空行
sed's/^[\t]*$/d'price.txt 刪除所有只包含空格或者制表符的行
sed's/"//g'price.txt 刪除所有引號
awk
awk是一種程式語言,可以用來對文本數據進行複雜的分析和處理。可以在手冊中得到關於awk的詳細信息。這個古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。
在Aho,Weinberger和Kernighan的書TheAWKProgrammingLanguage中有很多很好的awk的例子,請不要讓下面這些微不足道的腳本例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt檔案進行處理,跟sed一樣,awk也只是把結果顯示在終端上。
awk腳本 描述
awk'!~/^$/'price.txt 刪除所有空行
awk'NF>0'price.txt awk中一個更好的刪除所有行的辦法
awk'~/^[JT]/'price.txt 列印所有第二個欄位是'J'或者'T'打頭的行中的第三個欄位
awk'!~/[Mm]isc/{print+}'price.txt 針對所有第二個欄位不包含'Misc'或者'misc'的行,列印第3和第4列的和(假定為數字)
awk'!~/^[0-9]+\.[0-9]*$/'price.txt 列印所有第三個欄位不是數字的行,這裡數字是指d.d或者d這樣的形式,其中d是0到9的任何數字
awk'~/John|Fred/'price.txt 如果第二個欄位包含'John'或者'Fred'則列印整行
grep
grep是一個用來在一個或者多個檔案或者輸入流中使用RE進行查找的程式。它的name程式語言可以用來針對檔案和管道進行處理。可以在手冊中得到關於grep的完整信息。這個同樣古怪的名字來源於vi的一個命令,g/re/p,意思是globalregularexpressionprint。
下面的例子中我們假定在檔案phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個制表符,然後是電話號碼:
Francis,John5-3871
Wong,Fred4-4123
Jones,Thomas1-4122
Salazar,Richard5-2522
grep命令 描述
grep'\t5-...1'phone.txt 把所有電話號碼以5開頭以1結束的行列印出來,注意制表符是用\t表示的
grep'^S[^]*R'phone.txt 列印所有姓以S打頭和名以R打頭的行
grep'^[JW]'phone.txt 列印所有姓開頭是J或者W的行
grep',....\t'phone.txt 列印所有姓是4個字元的行,注意制表符是用\t表示的
grep-v'^[JW]'phone.txt 列印所有不以J或者W開頭的行
grep'^[M-Z]'phone.txt 列印所有姓的開頭是M到Z之間任一字元的行
grep'^[M-Z].*[12]'phone.txt 列印所有姓的開頭是M到Z之間任一字元,並且點號號碼結尾是1或者2的行
egrep
egrep是grep的一個擴展版本,它在它的正則表達式中支持更多的元字元。下面的例子中我們假定在檔案phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個制表符,然後是電話號碼:
Francis,John5-3871
Wong,Fred4-4123
Jones,Thomas1-4122
Salazar,Richard5-2522
egrep命令 描述
egrep'(John|Fred)'phone.txt 列印所有包含名字John或者Fred的行
egrep'John|22$|^W'phone.txt 列印所有包含John或者以22結束或者以W的行
egrep'net(work)?s'report.txt 從report.txt中找到所有包含networks或者nets的行
正則表達式語法支持情況
命令或環境 . [] ^ $ \(\) \{\} ? + | ()
vi X X X X X
VisualC++ X X X X X
awk X X X X
X X X X
sed X X X X X X
Tcl X X X X X
X X X X
ex X X X X X X
grep X X X X X X
egrep X X X X X
X X X X
fgrep X X X X X
perl X X X X X
X X X X
vi替換命令簡介
Vi的替換命令:
:ranges/pat1/pat2/g
其中
:這是Vi的命令執行界面。
range是命令執行範圍的指定,可以使用百分號(%)表示所有行,使用點(.)表示當前行,使用美元符號($)表示最後一行。你還可以使用行號,例如10,20表示第10到20行,.,$表示當前行到最後一行,.+2,$-5表示當前行後兩行直到全文的倒數第五行,等等。
s表示其後是一個替換命令。
pat1這是要查找的一個正則表達式,這篇文章中有一大堆例子。
pat2這是希望把匹配串變成的模式的正則表達式,這篇文章中有一大堆例子。
g可選標誌,帶這個標誌表示替換將針對行中每個匹配的串進行,否則則只替換行中第一個匹配串。
編輯本段
常用的正則表達式
常用的正則表達式主要有以下幾種:
匹配中文字元的正則表達式:[\u4e00-\u9fa5]
評註:匹配中文還真是個頭疼的事,有了這個表達式就好辦了喔
獲取日期正則表達式:\d{4}[年|\-|\.]\d{1,2}[月|\-|\.]\d{1,2}日?
評註:可用來匹配大多數年月日信息。
匹配雙位元組字元(包括漢字在內):[^\x00-\xff]
評註:可以用來計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1)
匹配空白行的正則表達式:\n\s*\r
評註:可以用來刪除空白行
匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</>|<.*?/>
評註:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於複雜的嵌套標記依舊無能為力
匹配首尾空白字元的正則表達式:^\s*|\s*$
評註:可以用來刪除行首行尾的空白字元(包括空格、制表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評註:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
評註:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評註:表單驗證時很實用
匹配國內電話號碼:\d{4}-\d{7}|\d{3}-\d{8}
評註:匹配形式如0511-4405222或021-87888822
匹配騰訊QQ號:[1-9][0-9]\{4,\}
評註:騰訊QQ號從10000開始
匹配中國郵政編碼:[1-9]\d(?!\d)
評註:中國郵政編碼為6位數字
匹配身份證:\d{17}[\d|X]|\d{15}
評註:中國的身份證為15位或18位
匹配ip地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
評註:提取ip地址時有用
匹配特定數字:
^[1-9]\d*$ //匹配正整數
^-[1-9]\d*$//匹配負整數
^-?[1-9]\d*$ //匹配整數
^[1-9]\d*|0$ //匹配非負整數(正整數+0)
^-[1-9]\d*|0$ //匹配非正整數(負整數+0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非負浮點數(正浮點數+0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮點數(負浮點數+0)
評註:處理大量數據時有用,具體套用時注意修正
匹配特定字元串:
^[A-Za-z]+$ //匹配由26個英文字母組成的字元串
^[A-Z]+$ //匹配由26個英文字母的大寫組成的字元串
^[a-z]+$ //匹配由26個英文字母的小寫組成的字元串
^[A-Za-z0-9]+$ //匹配由數字和26個英文字母組成的字元串
^\w+$ //匹配由數字、26個英文字母或者下劃線組成的字元串
評註:最基本也是最常用的一些表達式
FunctionIsRegu(Regu,s)
'正則表達式校驗
IfRegu=""Then
ExitFunction
Endif
DimRe,Sre
SetRe=NewRegExp
Re.Pattern=Regu
Sre=Re.Test(s)
IfSre=TrueThen
IsRegu=True
Else
IsRegu=False
EndIf
EndFunction
tmp=""
if(IsRegu("\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*",tmp))=falsethen
msgbox"E-mail地址不合法!"
FieldCheck#N=false
endif
不同的語言(如PHP和JAVA)、相同語言的不同類庫(如來自Sun的JavaRegularExpression類庫跟ApacheJakarta的正則表達式類庫)間,用法會有所差別,在使用的時候,要注意這些差別。
編輯本段
Editplus等軟體中正則替換技巧
正則表達式套用實例目錄:
【1】正則表達式套用——替換指定內容到行尾
【2】正則表達式套用——數字替換
【3】正則表達式套用——刪除每一行行尾的指定字元
【4】正則表達式套用——替換帶有半角括弧的多行
【5】正則表達式套用——刪除空行
【6】軟體技巧——鍵盤記錄的注意事項
【7】軟體技巧——關閉文檔標籤的便捷方法
【8】軟體技巧——如何去掉EditPlus保存文本檔案時的添加後綴提示?
【9】軟體技巧——提示找不到語法檔案的解決辦法
【10】軟體技巧——設定editplus支持其它文字,如韓文
【11】軟體技巧——FTP上傳的設定
【12】軟體技巧——如何禁用備份檔案功能?
【13】軟體技巧——添加語法檔案、自動完成檔案、以及剪輯庫檔案
【14】工具集成——編譯器集成例子(Java、BorlandC++、VisualC++、INNOSetup、nsis、C#)
【15】工具集成——讓Editplus調試PHP程式
【16】工具集成——打造PHP調試環境(二)
【17】在WinPE中集成EDITPLUS
【18】支持帶UTF-8標記/不帶UTF-8標記的檔案
正則表達式套用實例:
【1】正則表達式套用——替換指定內容到行尾
原始文本如下面兩行
abcaaaaa
123abc444
希望每次遇到“abc”,則替換“abc”以及其後到行尾的內容為“abcefg”
即上面的文本最終替換為:
abcefg
123abcefg
解決:
①在替換對話框,查找內容里輸入“abc.*”,替換內容輸入為“abcefg”
②同時勾選“正則表達式”複選框,然後點擊“全部替換”按鈕
其中,符號的含義如下:
“.”=匹配任意字元
“*”=匹配0次或更多
注意:其實就是正則表達式替換,這裡只是把一些曾經提出的問題加以整理,單純從正則表達式本身來說,就可以引申出成千上萬種特例。
【2】正則表達式套用——數字替換
希望把
asdadas123asdasdas456asdasdasd789asdasd
替換為:
asdadas[123]asdasdas[456]asdasdasd[789]asdasd
在替換對話框裡面,勾選“正則表達式”複選框;
在查找內容裡面輸入“[0-9][0-9][0-9]”,不含引號
“替換為:”裡面輸入“[\0\1\2]”,不含引號
範圍為你所操作的範圍,然後選擇替換即可。
實際上這也是正則表達式的使用特例,“[0-9]”表示匹配0~9之間的任何特例,同樣“[a-z]”就表示匹配a~z之間的任何特例
上面重複使用了“[0-9]”,表示連續出現的三個數字
“\0”代表第一個“[0-9]”對應的原型,“\1”代表第二個“[0-9]”對應的原型,依此類推
“[”、“]”為單純的字元,表示添加“[”或“]”,如果輸入“其它\0\1\2其它”,則替換結果為:
asdadas其它123其它asdasdas其它456其它asdasdasd其它789其它asdasd
功能增強:
如果將查找內容“[0-9][0-9][0-9]”改為“[0-9]*[0-9]”,對應1或123或12345或...
大家根據需要定製
相關內容還有很多,可以自己參考正則表達式的語法仔細研究一下
【3】正則表達式套用——刪除每一行行尾的指定字元
因為這幾個字元在行中也是出現的,所以肯定不能用簡單的替換實現
比如
123451265345
2345
需要刪除每行末尾的“345”
這個也算正則表達式的用法,其實仔細看正則表達式應該比較簡單,不過既然有這個問題提出,說明對正則表達式還得有個認識過程,解決方法如下
解決:
在替換對話框中,啟用“正則表達式”複選框
在查找內容裡面輸入“345$”
這裡“$”表示從行尾匹配
如果從行首匹配,可以用“^”來實現,不過EditPlus有另一個功能可以很簡單的刪除行首的字元串
a.選擇要操作的行
b.編輯-格式-刪除行注釋
c.在彈出對話框裡面輸入要清除的行首字元,確定
【4】正則表達式套用——替換帶有半角括弧的多行
幾百個網頁中都有下面一段代碼:
<scriptLANGUAGE="JavaScript1.1">
<!--
htmlAdWH('93163607','728','90');
//-->
</SCRIPT>
我想把它們都去掉,可是找了很多search&replace的軟體,都是只能對“一行”進行操作。
EditPlus打開幾百個網頁檔案還是比較順暢的,所以完全可以勝任這個工作。
具體解決方法,在Editplus中使用正則表達式,由於“(”、“)”被用做預設表達式(或者可以稱作子表達式)的標誌,所以查找
“<scriptLANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH('93163607','728','90'.);\n//-->\n</SCRIPT>\n”
時會提示查找不到,所以也就無法進行替換了,這時可以把“(”、“)”使用任意字元標記替代,即半角句號:“.”。替換內容為
<scriptLANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH.'93163607','728','90'.;\n//-->\n</SCRIPT>\n
在替換對話框啟用“正則表達式”選項,這時就可以完成替換了
補充:
對()這樣的特殊符號,應該用\(\)來表示,這也是很標準的regexp語法,可以寫為
<scriptLANGUAGE="JavaScript1.1">\n<!--\nhtmlAdWH\('93163607','728','90'\);\n//-->\n</SCRIPT>\n
【5】正則表達式套用——刪除空行
啟動EditPlus,打開待處理的文本類型檔案。
①、選擇“查找”選單的“替換”命令,彈出文本替換對話框。選中“正則表達式”複選框,表明我們要在查找、替換中使用正則表達式。然後,選中“替換範圍”中的“當前檔案”,表明對當前檔案操作。
②、單擊“查找內容”組合框右側的按鈕,出現下拉選單。
③、下面的操作添加正則表達式,該表達式代表待查找的空行。(技巧提示:空行僅包括空格符、制表符、回車符,且必須以這三個符號之一作為一行的開頭,並且以回車符結尾,查找空行的關鍵是構造代表空行的正則表達式)。
直接在"查找"中輸入正則表達式“^[\t]*\n”,注意\t前有空格符。
(1)選擇“從行首開始匹配”,“查找內容”組合框中出現字元“^”,表示待查找字元串必須出現在文本中一行的行首。
(2)選擇“字元在範圍中”,那么在“^”後會增加一對括弧“[]”,當前插入點在括弧中。括弧在正則表達式中表示,文本中的字元匹配括弧中任意一個字元即符合查找條件。
(3)按一下空格鍵,添加空格符。空格符是空行的一個組成成分。
(4)選擇“制表符”,添加代表制表符的“\t”。
(5)移動游標,將當前插入點移到“]”之後,然後選擇“匹配0次或更多”,該操作會添加星號字元“*”。星號表示,其前面的括弧“[]”內的空格符或制表符,在一行中出現0個或多個。
(6)選擇“換行符”,插入“\n”,表示回車符。
④、“替換為”組合框保持空,表示刪除查找到的內容。單擊“替換”按鈕逐個行刪除空行,或單擊“全部替換”按鈕刪除全部空行(注意:EditPlus有時存在“全部替換”不能一次性完全刪除空行的問題,可能是程式BUG,需要多按幾次按鈕)。
【6】軟體技巧——鍵盤記錄的注意事項
EditPlus的鍵盤記錄有些類似於ultraedit的宏操作,不過功能相對單一,錄製的檔案可編輯性較差。
由於基本無法編輯錄製的檔案,所以錄製的時候為了避免錄製失敗,推薦純粹使用鍵盤操作,以下是比較關鍵的幾個鍵盤組合:
Ctrl+F=調出查找對話框
Ctrl+H=調出替換對話框
Alt+F4=關閉作用,比如,關閉查找對話框、關閉替換對話框,等等
其它鍵盤快捷鍵在“幫助-快捷鍵列表”裡面可以很容易的查找到,這裡就不細說了。
【7】軟體技巧——關閉文檔標籤的便捷方法
右鍵單擊文檔標籤工具條,彈出選單中選擇“標籤選項”,選中“用滑鼠中間的按鈕關閉”,這裡包括滑鼠的滾輪。
【8】軟體技巧——如何去掉EditPlus保存文本檔案時的添加後綴提示?
如果你使用EditPlus進行文本編輯,那么每次創建文本檔案,編輯後保存時,儘管檔案類型下拉列表中顯示的是文本檔案,EditPlus還是詢問你是否添加".txt"後綴,是不是很煩?
解決方法:
①在程式目錄建立一個空的檔案“template.txt”
②“工具-參數設定-模板”裡面,單擊“添加”按鈕添加模板,“選單文本”這裡輸入“Text”,瀏覽“template.txt”,之後確定即可
③“檔案-新建-text”,就可以建立一個空的文本檔案,保存時,這個檔案自動帶有擴展名".txt",也就避免了令人頭疼的確認
④模板設定檔案名稱稱為“template.ini”,如果和主程式同一路徑,可以使用相對路徑
羅嗦了點,不過管用
要自動創建帶有某種後綴的檔案,方法同上。
【9】軟體技巧——提示找不到語法檔案*.stx的解決辦法
原因多為設定的語法檔案不存在或者是路徑設定不對。這是因為EditPlus的語法是設定檔案採用的是絕對路徑,而在你設定了語法檔案之後,再把程式複製到其它目錄,因而導致EditPlus無法找到該語法檔案。
解決辦法:
在主程式目錄里,找到Setting.ini這是EditPlus存放語法的檔案
查找後綴為“.stx”、“acp”的文本內容,或者查找帶有驅動器符號的行,比如
Syntaxfile=C:\ProgramFiles\EditPlus2\cpp.stx
那么,就把”C:\ProgramFiles\EditPlus2\“替換成你當前軟體的路徑。
其它提示找不到檔案的解決方法同上
【10】軟體技巧——設定editplus支持其它文字,如韓文
在editplus里打開檔案,出來打開檔案對話框;然後點擊“轉換器”後面的那個省略號,會出來自定義轉換器對話框;在右邊選擇你需要的編碼方式,添加到左邊,然後點確定;最後在下拉框中選擇需要的編碼方式,然後打開檔案即可。
【11】軟體技巧——FTP上傳的設定
“檔案->遠程操作->FTP上傳”在“設定”選項卡中設定好參數(“子目錄”前面應該加“/”如“/web/”),點擊“確定”回到“FTP上傳”選項卡,然後點擊“上傳”即可;“批量上傳”的設定類似。
【12】軟體技巧——如何禁用備份檔案功能?
在“參數選擇”的檔案選項頁,禁用“'保存時自動創建備份檔案”選項
【13】軟體技巧——添加語法檔案、自動完成檔案、以及剪輯庫檔案
要添加*.STX(語法檔案)或*.ACP(自動完成檔案):
1.選擇“參數選擇→語法”
2.單擊“添加”按鈕,命名,在“擴展名”部分輸入對應擴展名(不帶“.”)
3.瀏覽/輸入STX(語法檔案部分)以及ACP(自動完成檔案部分)。
添加剪輯庫檔案(*.CTL)
複製相應*.CTL檔案到軟體安裝目錄,重新啟動EditPlus,則系統自動識別。
作者主頁有很多語法自動完成檔案下載,(地址見擴展閱讀3)
【14】工具集成——編譯器集成例子(Java、BorlandC++、VisualC++、InnoSetup、nsis)
在“工具→參數選擇→用戶工具”選項頁設定,設定步驟
①設定組名稱,這裡也可以不設定
②單擊“添加工具→應用程式”按鈕並進行如下設定
③各種類似"$(FilePath)"的參數可以在文本框右側的箭頭下拉選單中獲取,具體含義如下
參數描述
$(FilePath)檔案路徑(檔案全名,含目錄和檔案名稱)
$(FileDir)檔案目錄(不帶檔案名稱)
$(FileName)檔案名稱(不帶目錄)
$(FileNameNoExt)不帶擴展名的檔案名稱(不帶目錄)
$(FileExt)擴展名(當前檔案)
$(ProjectName)工程名稱(當前工程名)
$(CurLine)當前行號(游標位置處的行號)
$(CurCol)當前列號(游標位置處的列號)
$(CurSel)當前文本(插入當前選定文本)
$(CurWord)當前單詞(插入當前單詞)
$(WindowList)顯示當前視窗列表並選擇特定檔案
例子1.Java編譯器
選單文本:Java編譯器
命令:c:\java\bin\javac.exe
參數:"$(FilePath)"
初始目錄:$(FileDir)
捕獲輸出:開啟
要運行已編譯的Java類檔案,你可以進行如下設定:
選單文本:Java
命令:c:\java\bin\java.exe
參數:$(FileNameNoExt)
初始目錄:$(FileDir)
“命令”部分應當替換為實際的Java解釋器的路徑。
例子2.BorlandC++
選單文本:BorlandC
命令:c:\bc\bin\bcc32.exe
參數:-Ic:\bc\include-Lc:\bc\lib-n$(FileDir)$(FilePath)
初始目錄:c:\bc\bin
捕獲輸出:開啟
例子3.VisualC++
選單文本:VisualC++
命令:c:\msdev\vc98\bin\cl.exe
參數:"$(FilePath)"
初始目錄:$(FileDir)
捕獲輸出:開啟
例子4.InnoSetup
選單文本:編譯Inno
命令:C:\ProgramFiles\InnoSetup4\Compil32.exe”
參數:/cc$(FileName)
初始目錄:$(FileDir)
捕獲輸出:開啟
例子5.nsis
選單文本:編譯nsis
命令:C:\NSIS\makensis.exe
參數:$(FileName)
初始目錄:$(FileDir)
捕獲輸出:開啟
例子6.C#
選單文本:編譯C#
命令:C:\WINDOWS\MicrosoftdotNET\Framework\v1.0.3705\csc.exe
參數:$(FileName)
初始目錄:$(FileDir)
捕獲輸出:開啟
在上面設定中,在命令部分,必須使用系統中各自編譯器的絕對路徑。
設定完畢後,你可以在“工具”選單運行對應工具了,運行結果會顯示在底部的輸出視窗,你也可以通過快捷鍵(Ctrl+0-9)運行,或者是通過“用戶工具列”的快捷按鈕運行。
要運行已編譯的*.exe檔案,你可以進行如下設定(此時執行檔需要和編譯檔案同名):
選單文本:Run
命令:$(FileNameNoExt)
參數:
初始目錄:$(FileDir)
【15】工具集成——讓Editplus調試PHP程式
1:打開Editplus,選擇"工具->配置用戶工具..."選單。
2:在彈出的視窗中選擇"添加工具->應用程式",給新程式起一個好記的名字,比如這裡我們用"DebugPHP",在"選單文本"中輸入"DebugPHP"。點擊"命令行"右邊的按鈕,找到你的php.exe所在的路徑,例如這裡是"c:\php\php.exe"。再點擊"參數"右邊的下拉按鈕選擇"檔案路徑",最後再把"捕獲輸出"前面的複選框選上。
3:現在測試一下,新建一個php檔案,按快捷鍵Ctrl+1可以激活剛才我們設定的工具(如果你設定了多個工具,快捷鍵可能會有所不同),現在你可以看到它已經能正常工作了。但是還有一點不太理想:如果你的PHP程式出錯,在輸出視窗會提示你第幾行出錯,單擊這一行提示,Editplus老是提示你找不到某某檔案,是否新建。接下下我們要修正這個功能。
4:打開剛才用戶工具設定視窗,找到剛才設定的"DebugPHP"工具。點擊"捕獲輸出"複選框旁邊的"輸出模式"按鈕,會彈出一個定義輸出模式的窗體,把"使用默認輸出模式"前面的複選框去掉,在"正則表達式"這一項的文本框中輸入"^.+in(.+)line([0-9]+)"(不包括引號),細心的朋友可能會發現,這裡使用的也正則表達式的語法。然後,在下面的"檔案名稱"下拉選單中選擇"預設表達式1",即上邊正則表達式中的第一個參數,"行"下拉選單項選擇"預設表達式2","列"下拉項保持為空。然後保存設定。
5:好了,現在再來試一下吧,雙擊出錯的行數,Editplus就會自動激活出錯檔案,並把游標定位到出錯行,是不是特別方便呢?!
現在,Editplus經過我們的"改造",已經可以即時的調試PHP檔案了,雖然還不是"可視化"界面的,但對於一些平常的小程式來查錯還是非常好用的。Editplus真是不款不可多得的好工具,如果你有什麼使用技巧,不要忘了大家一起分享喔。^O^
如果不能切換錯誤行號,請嘗試作如下修改:(byaukw@CCF)
1.php.ini中html_errors=Off打開
//如果你不打開,3.中的表達式要修改
2.參數改成:-q-f"$(FilePath)"
//不加"符號的話檔案名稱有空格的檔案調試失敗。
//-q不輸出html頭信息,你去掉也行,不過調試時候你一般用不到那些header信息
3."^.+in(.+)line([0-9]+)"改成"^.+in(.+)online([0-9]+)$"
//如果還是不行,請注意調試結果,自己修改表達式來取出檔案名稱和行號
【16】工具集成——打造PHP調試環境(二)
1:把剪輯庫定位在PHP4Functions上就可以在編輯時,利用[插入]->[匹配剪輯]命令,就可以自動完成末輸入完整的PHP函式(或直接按F2鍵)
2:類似上面,在選擇部分文字後,同樣可以自動完成。(同F2)
3:在[參數選擇]->[設定和語法]->PHP->自動完成,選擇目錄下的php.acp檔案,你可以定製自己的自動完成方式.
4:想要即時預覽檔案,可在[參數選擇]->[工具]->WEB伺服器中添加本地目錄,(注意不要加http://,應是一個有效的站點)。
如:主機->localhost/php|根目錄->D:\php
主機->localhost/asp|根目錄->D:\asp
主機->localhost/cgi|根目錄->D:\cgi
完成設定後只要腳本檔案位於這些目錄下(子目錄也沒問題),就能夠正確解釋.
5:各種語法和模板檔案可以在官方網站獲得(地址見擴展閱讀3),可根據需要選用和編輯。
6:Ctrl+F11可顯示當前檔案中的函式列表.
7:添加各種用戶工具.如:
啟動MYSQL伺服器管理工具->C:\mysql\bin\winmysqladmin.exe
啟動Apache伺服器->C:\Apache\bin\Apache.exe-kstart
啟動Apache伺服器->C:\Apache\bin\Apache.exe-kstop(shutdown)
8:DBG附帶有一個prof_results.php檔案,可剖析PHP程式的性能.
雖不是真正的調試器,但已經夠了.
OK!經過改造後,是不是有點象一個IDE什麼?還差點,沒有即時幫助...看我的,再來:
9:把php_manual_en.chm(最好是擴展幫助手冊)加入到用戶工具中,當遇到需要參考的關鍵字時,把游標定位其上,按下快捷鍵Ctrl+1,看到了嗎.
在輸入時有想不起來的函式名時,先按照第1條的方法調出函式,然後...怎么樣?
以上有的是對於調試工具的設定,由於此類工具比較多,大家設定時參考以上的基本就差不多了,所以就不過多的列舉了。
【17】在WINPE中集成EDITPLUS
可以基於目前的bartpe做得WINPE中,選單使用nu2menu製作
默認位置為\programs\editplus\
默認系統位置為光碟的i386目錄
i386/system32的autorun.bat中添加外殼集成(系統右鍵)
regedit/s%SystemDrive%\programs\editplus\REG.REG
regsvr32/s\programs\editplus\EPPSHELL.DLL
(reg.reg保存了epp的工具列信息,當然註冊用戶也可以放置註冊信息)
複製editplus安裝包裡面的檔案到programs\editplus\,注意,如果有setting.ini,刪掉該檔案,在nu2menu裡面加入以下句子(可以根據需要安排位於特定選單條目下)
<MITEMTYPE="ITEM"DISABLED="@Not(@FileExists(@GetProgramDrive()\Programs\EditPlus\editplus.exe))"CMD="RUN"
FUNC="@GetProgramDrive()\Programs\EditPlus\editplus.exe">EditPlus文本編輯</MITEM>
【18】支持帶UTF-8標記/不帶UTF-8標記的檔案Lei@DRL提出並測試
這裡ByteOrderMark翻譯為標記/檔案頭/標籤
參數選擇-檔案-裡面設定“支持不帶有UTF-8檔案頭的UTF-8檔案”,我這裡翻譯標籤為UTF-8檔案頭,如果複選該項,應該是保存為不帶標籤的Utf-8,如果不複選,應該是保存成帶有BOM的UTF-8。
這樣就可以打開帶簽名的UTF-8檔案,並且可以正常編輯,但是又不能打開不帶簽名的了,想要打開不帶簽名的還需要改回來...不過雖然有點麻煩,但是總算能用了
1.驗證用戶名和密碼:("^[a-zA-Z]\w{5,15}$")正確格式:"[A-Z][a-z]_[0-9]"組成,並且第一個字必須為字母6~16位;
2.驗證電話號碼:("^(\d{3.4}-)\d{7,8}$")正確格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
3.驗證身份證號(15位或18位數字):("^\d{15}|\d{18}$");
4.驗證Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");
5.只能輸入由數字和26個英文字母組成的字元串:("^[A-Za-z0-9]+$");
6.整數或者小數:^[0-9]+\.{0,1}[0-9]{0,2}$
7.只能輸入數字:"^[0-9]*$"。
8.只能輸入n位的數字:"^\d{n}$"。
9.只能輸入至少n位的數字:"^\d{n,}$"。
10.只能輸入m~n位的數字:。"^\d{m,n}$"
11.只能輸入零和非零開頭的數字:"^(0|[1-9][0-9]*)$"。
12.只能輸入有兩位小數的正實數:"^[0-9]+(.[0-9]{2})?$"。
13.只能輸入有1~3位小數的正實數:"^[0-9]+(.[0-9]{1,3})?$"。
14.只能輸入非零的正整數:"^\+?[1-9][0-9]*$"。
15.只能輸入非零的負整數:"^\-[1-9][]0-9"*$。
16.只能輸入長度為3的字元:"^.{3}$"。
17.只能輸入由26個英文字母組成的字元串:"^[A-Za-z]+$"。
18.只能輸入由26個大寫英文字母組成的字元串:"^[A-Z]+$"。
19.只能輸入由26個小寫英文字母組成的字元串:"^[a-z]+$"。
20.驗證是否含有^%&',;=?$\"等字元:"[^%&',;=?$\x22]+"。
21.只能輸入漢字:"^[\u4e00-\u9fa5]{0,}$"
22.驗證URL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。
23.驗證一年的12個月:"^(0?[1-9]|1[0-2])$"正確格式為:"01"~"09"和"1"~"12"。
24.驗證一個月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正確格式為;"01"~"09"和"1"~"31"。
.(小圓點)
匹配除換行符號外的任意字元
\w
匹配字母、數字、下劃線和漢字
\s
匹配任意空白字元
\d
匹配數字
\b
匹配單詞的開始或結束
^
匹配字元串的開始,或排除
$
匹配字元串的結束
以上都是單個字元匹配
如果要求匹配元字元中的符號,則需要加反斜槓。例如\+表示匹配加號
www.baidu.com和www\.baidu\.com
*
重複零次或多次
+
重複一次或多次
?
重複零次或一次
{n}
重複n次
{n,}
至少重複n次
{n,m}
重複n到m次
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}
^w{3}\..+\.\w+$
[]
表示匹配中括弧中的任一字元
()
小括弧內的為一個整體
|
前後兩者任意匹配一種
\(?0\d{2}[)-]?\d{8}
(\(0\d{2}\)\d{8})|(0\d{2}-\d{8})|0\d{2}\d{8}
\W:與\w相反
\S:與\s相反
\D:與\d相反
\B:與\b相反
[^something]:與[something]相反
0\d{2}-\d{8}
\b\w{6}\b
^\w+
<a[^>]+>
Windows98|Windows2000|WindosXP
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
^\+?[1-9][0-9]*$和^\-[1-9][]0-9“*$
^[A-Za-z]+$和^[A-Z]+$和^[a-z]+$
^[a-zA-Z]\w{5,15}$
編輯本段
啟示
(1)心中時刻保持新穎想法,嘗試用各種新辦法來解決遇到的問題。對於遇到的問題,在用常規的解決思路無法解決或不能很好解決的時間,可以大膽探索嘗試採用新的方法或思路來解決問題,說大點就是創新!沒有新思路估計今天的正則表達式還要等幾百年才能露現人間。
(2)善於學習和借鑑前人的經驗和成果,UNIX鼻祖KenThompson是什麼樣子的人?是被計算機界尊稱為“UNIX之父”的大師級別的人物,大師都在不斷思考從其它學科、其它知識領域的工作成果,來改進自己的工作或程式,事實也證明這樣做取得巨大結果和後來的深遠影響是事先誰也無法預估到的,我們在做一些事情或研究的時間,是否也考慮學習大師的優秀習慣?
(3)學好數學、英語並保持對數學、英語的興趣,數學也是人類幾千年積累的智慧結晶,學習數學知識可以培養和訓練人的思維能力。看這篇文章的朋友,我想很多都是計算機相關專業的朋友,至於數學和英語對於計算機學習和發展的重要性的道理,這裡就不在多說,重在實踐加持之以恆!
(4)養成獨立思考的習慣。上學時候老師經常說人與動物的最大區別是人能思考。拉美洲有句關於“思考”的諺語是,不會思考的人是白痴,不肯思考的人是懶漢,不敢思考的人是奴隸。我想大家和我一樣,既不願做懶漢、奴隸,更不願做白痴。所以相信正則分享網的朋友們一定會選擇做一個“會思、肯思、敢思”的人。
正則表達式匹配規則:
一切從最基本的開始。模式,是正規表達式最基本的元素,它們是一組描述字元串特徵的字元。模式可以很簡單,由普通的字元串組成,也可以非常複雜,往往用特殊的字元表示一個範圍內的字元、重複出現,或表示上下文。例如:
^once
這個模式包含一個特殊的字元^,表示該模式只匹配那些以once開頭的字元串。例如該模式與字元串"onceuponatime"匹配,與"ThereoncewasamanfromNewYork"不匹配。正如如^符號表示開頭一樣,$符號用來匹配那些以給定模式結尾的字元串。
bucket$
這個模式與"Whokeptallofthiscashinabucket"匹配,與"buckets"不匹配。字元^和$同時使用時,表示精確匹配(字元串與模式一樣)。例如:
^bucket$
只匹配字元串"bucket"。如果一個模式不包括^和$,那么它與任何包含該模式的字元串匹配。例如:模式
once
與字元串
ThereoncewasamanfromNewYorkWhokeptallofhiscashinabucket.
是匹配的。
在該模式中的字母(o-n-c-e)是字面的字元,也就是說,他們表示該字母本身,數字也是一樣的。其他一些??表符等),要用到轉義序列。所有的轉義序列都用反斜槓(\)打頭。制表符的轉義序列是:\t。所以如果我們要檢測一個字元串是否以制表符開頭,可以用這個模式:
^\t
類似的,用\n表示“新行”,\r表示回車。其他的特殊符號,可以用在前面加上反斜槓,如反斜槓本身用\\表示,句號.用\.表示,以此類推。
參考資料
1
擴展閱讀:
1
http://kb.microembedded.com/regularexpression-KnowledgeME正則表達式之道
2
http://www.cn-dos.net/forum/viewthread.php?tid=24206&fpage=1&highlight=%E6%AD%A3%E5%89%87
3
http://zhidao.baidu.com/question/12878982.html
4
http://editplus.com/files.html