正則表達式教程之匹配單個字符的詳細介紹

ADVERTISEMENT
ADVERTISEMENT

正則表達式教程之匹配單個字符的詳細介紹

本文實例講述了正則表達式教程之匹配單個字符。分享給大家供大家參考,具體如下:

注:在所有例子中正則表達式匹配結果包含在源文本中的之間,有的例子會使用Java來實現,如果是java本身正則表達式的用法,會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

java測試代碼:


 /**
 * 根據正則表達式和要匹配的源文本,輸出匹配結果
 * @param regex 正則表達式
 * @param sourceText 要匹配的源文本
 */
 public static void matchAndPrint(String regex, String sourceText){
 Pattern pattern = Pattern.compile(regex);
 Matcher matcher = pattern.matcher(sourceText);
 while(matcher.find()){
 System.out.println(matcher.group());
 }
 }
 

一、匹配純文本

1、只有一個匹配結果

首先來看一個簡單的正則表達式,today,雖然它本身是純文本,但它是一個正則表達式。來看一個例子:

源文本:Yesterday is history,tomorrow is a mystery, but today is a gift.

正則表達式:today

結果:Yesterday is history,tomorrow is a mystery, but 【today】 is a gift.

分析:這里使用的正則表達式是純文本,它匹配了源文本中的today。

調用matchAndPrint方法,輸出結果是:

today

2、有多個匹配結果

源文本:Yesterday is history,tomorrow is a mystery, but today is a gift.

正則表達式:is

結果:Yesterday is history,tomorrow is a mystery, but 【today】 is a gift.

分析:在源文本中,有三個is,但輸出了四個is,因為history中的is也會被匹配到。

調用matchAndPrint方法,輸出結果是:

is

is

is

is

3、字母大小寫問題

正則表達式是區分字母大小寫的,但很多正則表達式的實現中也支持不區分大小寫的匹配操作。在JavaScript中,使用i標誌來執行一次不區分字母大小寫的匹配。在java中,如果要不區分大小寫,那麼在編譯正則表達式時,可以指定:


 Patternpattern = Pattern.compile(regex, Pattern.CASE_INSENSITIVE);
 

二、匹配任意字符

前面見到的正則表達式都是靜態的純文本,它們根本體現不出正則表達式的威力。下面,來看看如何使用正則表達式來匹配不可預知的字符。

在正則表達式中,特殊字符(或字符集合)用來給出要搜索的東西。.字符(英文狀態句號)可以匹配任何一個單個字符。相當於DOS中的?字符和SQL中的_(下劃線)字符。如:正則表達式c.t將匹配cat、cut、cot等等。下面來看一個例子。

文本:

orders1.txt

orders2.txt

sales1.txt

salesA.txt

orders3.txt

sales2.txt

sales.txt

正則表達式:sales.

結果:

orders1.txt

orders2.txt

【sales1】.txt

【salesA】.txt

orders3.txt

【sales2】.txt

【sales.】txt

分析:正則表達式sales.將把由字符串sales和另外一個字條構成的文件名找出來,從結果可以看出,.可以匹配字母、數字以及它本身。7個文件中有4個與這個模式匹配。

如果調用matchAndPrint方法,輸出結果是:

sales1

salesA

sales2

sales.

三、匹配特殊字符

.字符在正則表達式中有著特殊的含義。如果模式里需要一個.,就要想辦法來告訴正則表達式你需要的是.字符本身而不是它在正則表達式中的特殊含義。為此,必須在.前面加上\字符來對它進行轉義。\也是一個元字符(metacharacter,表示這個字符有特殊含義,而不是字符含義本身)。來看下面這個例子。

找出na或sa開頭的文件,不管它後面跟的是一個什麼數字。

文本:

sales.txt

na1.txt

na2.txt

sa1.txt

sanatxt.txt

正則表達式:.a..txt

結果:

【sal】es.txt

【na1】.txt

【na2】.txt

【sa1】.txt

【sanatxt】.txt

分析:這個正則把na1.txt、na2.txt、sa1.txt找出來了,但是還找到了2個意料之外的結果。因為.a..txt這個正則中的.字符將與任意一個字符匹配。要想匹配.字符本身,那麼需要使用\轉義。把正則修改成.a.\.txt,則能夠滿足我們的需求。

注意:如果使用java,那麼.a.\.txt這個正則表達式應該寫成.a.\.txt,因為\在java語言中也是一個轉義字符。

四、總結

正則表達式通常簡稱為模式,它們其實是一些字符構成的字符串。這些字符可以是普通字符(純文本)或元字符(有特殊含義的特殊字符)。這里介紹了如何使用普通字符和元字符去匹配單位字符。.可以匹配任何字符。\用來對字符進行轉義。在正則表達式中,有特殊含義的字符序列總是以\字符開頭。在接下來的文章中,我們將介紹如何匹配一組一組字符。

PS:這里再為大家提供2款非常方便的正則表達式工具供大家參考使用:

JavaScript正則表達式在線測試工具:
http://tools.jb51.net/regex/javascript

正則表達式在線生成工具:
http://tools.jb51.net/regex/create_reg

希望本文所述對大家正則表達式學習有所幫助。

ADVERTISEMENT

本文地址:
ADVERTISEMENT
ADVERTISEMENT