固定字符結(jié)尾的正則

昵稱(chēng)163835 2022-09-24 發(fā)布于廣東

展開(kāi)全文

一前言

　　對(duì)于正則表達(dá)式，相信很多人都知道，但是很多人的第一感覺(jué)就是難學(xué)，因?yàn)榭吹谝谎蹠r(shí)，覺(jué)得完全沒(méi)有規(guī)律可尋，而且全是一堆各種各樣的特殊符號(hào)，完全不知所云。

其實(shí)只是對(duì)正則不了解而以，了解了你就會(huì)發(fā)現(xiàn)，原來(lái)就這樣啊正則所用的相關(guān)字符其實(shí)不多，也不難記，更不難懂，唯一難的就是組合起來(lái)之后，可讀性比較差，而且不容易理解，本文旨在讓大家對(duì)正則有一個(gè)基本的了解，能看得懂簡(jiǎn)單的正則表達(dá)式，寫(xiě)得出簡(jiǎn)單的正則表達(dá)式，用以滿(mǎn)足日常開(kāi)發(fā)中的需求即可。

0\d{2}-\d{8}|0\d{3}-\d{7} 先來(lái)一段正則，如果你對(duì)正則不了解，是不是完全不知道這一串字符是什么意思？這不要緊文章會(huì)詳細(xì)解釋每個(gè)字符的含義的。

1.1 什么是正則表達(dá)式

正則表達(dá)式是一種特殊的字符串模式，用于匹配一組字符串，就好比用模具做產(chǎn)品，而正則就是這個(gè)模具，定義一種規(guī)則去匹配符合規(guī)則的字符。

1.2 常用的正則匹配工具

在線(xiàn)匹配工具：

　　1 http://www./

2 http:///

正則匹配軟件

McTracer

用過(guò)幾個(gè)之后還是覺(jué)得這個(gè)是最好用的，支持將正則導(dǎo)成對(duì)應(yīng)的語(yǔ)言如java C# js等還幫你轉(zhuǎn)義了，Copy直接用就行了很方便，另外支持把正則表達(dá)式用法解釋?zhuān)缒囊欢问遣东@分組，哪段是貪婪匹配等等，總之用起來(lái) So Happy .

二正則字符簡(jiǎn)單介紹

2.1 元字符介紹

'^' ：^會(huì)匹配行或者字符串的起始位置，有時(shí)還會(huì)匹配整個(gè)文檔的起始位置。

'$' ：$會(huì)匹配行或字符串的結(jié)尾

如圖

而且被匹配的字符必須是以This開(kāi)頭有空格也不行，必須以Regex結(jié)尾，也不能有空格與其它字符

'\b' :不會(huì)消耗任何字符只匹配一個(gè)位置，常用于匹配單詞邊界如我想從字符串中'This is Regex'匹配單獨(dú)的單詞 'is' 正則就要寫(xiě)成 '\bis\b'

　　 \b 不會(huì)匹配is 兩邊的字符，但它會(huì)識(shí)別is 兩邊是否為單詞的邊界

'\d': 匹配數(shù)字，

　　例如要匹配一個(gè)固定格式的電話(huà)號(hào)碼以0開(kāi)頭前4位后7位，如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這里只是為了介紹'\d'字符，實(shí)際上有更好的寫(xiě)法會(huì)在下面介紹。

'\w'：匹配字母，數(shù)字，下劃線(xiàn).

　　例如我要匹配'a2345BCD__TTz' 正則：'\w+' 這里的'+'字符為一個(gè)量詞指重復(fù)的次數(shù)，稍后會(huì)詳細(xì)介紹。

'\s'：匹配空格

　　例如字符 'a b c' 正則：'\w\s\w\s\w' 一個(gè)字符后跟一個(gè)空格，如有字符間有多個(gè)空格直接把'\s' 寫(xiě)成 '\s+' 讓空格重復(fù)

'.'：匹配除了換行符以外的任何字符

　　這個(gè)算是'\w'的加強(qiáng)版了'\w'不能匹配空格如果把字符串加上空格用'\w'就受限了，看下用 '.'是如何匹配字符'a23 4 5 B C D__TTz' 正則：'.+'

'[abc]': 字符組匹配包含括號(hào)內(nèi)元素的字符

這個(gè)比較簡(jiǎn)單了只匹配括號(hào)內(nèi)存在的字符，還可以寫(xiě)成[a-z]匹配a至z的所以字母就等于可以用來(lái)控制只能輸入英文了，

2.2 幾種反義

　　寫(xiě)法很簡(jiǎn)單改成大寫(xiě)就行了，意思與原來(lái)的相反，這里就不舉例子了

'\W' 匹配任意不是字母，數(shù)字，下劃線(xiàn) 的字符

'\S' 匹配任意不是空白符的字符

　'\D' 匹配任意非數(shù)字的字符

'\B' 匹配不是單詞開(kāi)頭或結(jié)束的位置

'[^abc]' 匹配除了abc以外的任意字符

2.3 量詞

　　先解釋關(guān)于量詞所涉及到的重要的三個(gè)概念

貪婪(貪心) 如'*'字符貪婪量詞會(huì)首先匹配整個(gè)字符串，嘗試匹配時(shí)，它會(huì)選定盡可能多的內(nèi)容，如果失敗則回退一個(gè)字符，然后再次嘗試回退的過(guò)程就叫做回溯，它會(huì)每次回退一個(gè)字符，直到找到匹配的內(nèi)容或者沒(méi)有字符可以回退。相比下面兩種貪婪量詞對(duì)資源的消耗是最大的，

懶惰(勉強(qiáng)) 如 '?' 懶惰量詞使用另一種方式匹配，它從目標(biāo)的起始位置開(kāi)始嘗試匹配，每次檢查一個(gè)字符，并尋找它要匹配的內(nèi)容，如此循環(huán)直到字符結(jié)尾處。

占有如'+' 占有量詞會(huì)覆蓋事個(gè)目標(biāo)字符串，然后嘗試尋找匹配內(nèi)容，但它只嘗試一次，不會(huì)回溯，就好比先抓一把石頭，然后從石頭中挑出黃金

'*'(貪婪) 重復(fù)零次或更多

　　　例如'aaaaaaaa' 匹配字符串中所有的a 正則：'a*' 會(huì)出到所有的字符'a'

'+'(懶惰) 重復(fù)一次或更多次

　　例如'aaaaaaaa' 匹配字符串中所有的a 正則：'a+' 會(huì)取到字符中所有的a字符， 'a+'與'a*'不同在于'+'至少是一次而'*' 可以是0次，

　　稍后會(huì)與'?'字符結(jié)合來(lái)體現(xiàn)這種區(qū)別

'?'(占有) 重復(fù)零次或一次

　　例如'aaaaaaaa' 匹配字符串中的a 正則： 'a?' 只會(huì)匹配一次，也就是結(jié)果只是單個(gè)字符a

　 '{n}' 重復(fù)n次

　　例如從'aaaaaaaa' 匹配字符串的a 并重復(fù)3次正則： 'a{3}' 結(jié)果就是取到3個(gè)a字符 'aaa';

　 '{n,m}' 重復(fù)n到m次

　　例如正則 'a{3,4}' 將a重復(fù)匹配3次或者4次所以供匹配的字符可以是三個(gè)'aaa'也可以是四個(gè)'aaaa' 正則都可以匹配到

'{n,}' 重復(fù)n次或更多次

　　與{n,m}不同之處就在于匹配的次數(shù)將沒(méi)有上限，但至少要重復(fù)n次如正則'a{3,}' a至少要重復(fù)3次

把量詞了解了之后之前匹配電話(huà)號(hào)碼的正則現(xiàn)在就可以改得簡(jiǎn)單點(diǎn)了^0\d\d\d-\d\d\d\d\d\d\d$ 可以改為'^0\d+-\d{7}$'。

這樣寫(xiě)還不夠完美如果因?yàn)榍懊娴膮^(qū)號(hào)沒(méi)有做限定，以至于可以輸入很多們，而通常只能是3位或者4位，

現(xiàn)在再改一下 '^0\d{2,3}-\d{7}'如此一來(lái)區(qū)號(hào)部分就可以匹配3位或者4位的了

2.4 懶惰限定符

　　'*?' 重復(fù)任意次，但盡可能少重復(fù)

　　如 'acbacb' 正則 'a.*?b' 只會(huì)取到第一個(gè)'acb' 原本可以全部取到但加了限定符后，只會(huì)匹配盡可能少的字符，而'acbacb'最少字符的結(jié)果就是'acb'

　　'+?' 重復(fù)1次或更多次，但盡可能少重復(fù)

　　與上面一樣，只是至少要重復(fù)1次

　　'??' 重復(fù)0次或1次，但盡可能少重復(fù)

　　如 'aaacb' 正則 'a.??b' 只會(huì)取到最后的三個(gè)字符'acb'

　　'{n,m}?' 重復(fù)n到m次，但盡可能少重復(fù)

如 'aaaaaaaa' 正則 'a{0,m}' 因?yàn)樽钌偈?次所以取到結(jié)果為空

　　'{n,}?' 重復(fù)n次以上，但盡可能少重復(fù)

如 'aaaaaaa' 正則 'a{1,}' 最少是1次所以取到結(jié)果為 'a'

三正則進(jìn)階

3.1 捕獲分組

　　先了解在正則中捕獲分組的概念，其實(shí)就是一個(gè)括號(hào)內(nèi)的內(nèi)容如 '(\d)\d' 而'(\d)' 這就是一個(gè)捕獲分組，可以對(duì)捕獲分組進(jìn)行后向引用 (如果后而有相同的內(nèi)容則可以直接引用前面定義的捕獲組，以簡(jiǎn)化表達(dá)式) 如(\d)\d\1 這里的'\1'就是對(duì)'(\d)'的后向引用

那捕獲分組有什么用呢看個(gè)例子就知道了

如 'zery zery' 正則 \b(\w+)\b\s\1\b 所以這里的'\1'所捕獲到的字符也是與(\w+)一樣的'zery'，為了讓組名更有意義，組名是可以自定義名字的

'\b(?\w+)\b\s\k\b' 用'?'就可以自定義組名了而要后向引用組時(shí)要記得寫(xiě)成 '\k';自定義組名后,捕獲組中匹配到的值就會(huì)保存在定義的組名里

下面列出捕獲分組常有的用法

'(exp)' 匹配exp,并捕獲文本到自動(dòng)命名的組里

'(?exp)' 匹配exp,并捕獲文本到名稱(chēng)為name的組里

'(?:exp)' 匹配exp,不捕獲匹配的文本，也不給此分組分配組號(hào)

以下為零寬斷言

'(?=exp)' 匹配exp前面的位置

　　如 'How are you doing' 正則'(?.+(?=ing))' 這里取ing前所有的字符，并定義了一個(gè)捕獲分組名字為 'txt' 而'txt'這個(gè)組里的值為'How are you do';

'(?<=exp)' 匹配exp后面的位置

　　如 'How are you doing' 正則'(?(?<=How).+)' 這里取'How'之后所有的字符，并定義了一個(gè)捕獲分組名字為 'txt' 而'txt'這個(gè)組里的值為' are you doing';

'(?!exp)' 匹配后面跟的不是exp的位置

　　如 '123abc' 正則 '\d{3}(?!\d)'匹配3位數(shù)字后非數(shù)字的結(jié)果

'(? 匹配前面不是exp的位置

　　如 'abc123 ' 正則 '(?

四正則實(shí)戰(zhàn)

　　正則在做驗(yàn)證，與數(shù)據(jù)過(guò)濾時(shí)體現(xiàn)的威力是巨大的，我想用過(guò)的朋友都知道，下面我們把剛剛了解的全部結(jié)合起來(lái)做一次實(shí)戰(zhàn) 做數(shù)據(jù)采集用正則過(guò)濾Html標(biāo)簽并取相應(yīng)的數(shù)據(jù)

我們的戰(zhàn)場(chǎng)就選在博客園吧，假設(shè)現(xiàn)在要采集博客園首頁(yè)的所有文章信息包括文章標(biāo)題，鏈接接作者博客地址，文章簡(jiǎn)介，文章發(fā)布時(shí)間，閱讀數(shù)據(jù)，評(píng)論數(shù) ，推薦數(shù)。

先看博客園文章的Html格式

<div class='post_item'><div class='digg'><div class='diggit' onclick='DiggIt(3439076,120879,1)'> <span class='diggnum' id='digg_count_3439076'>4span>div><div class='clear'>div>    <div id='digg_tip_3439076' class='digg_tip'>div>div>      <div class='post_item_body'><h3><a class='titlelnk' href='http://www.cnblogs.com/swq6413/p/3439076.html' target='_blank'>分享完整的項(xiàng)目工程目錄結(jié)構(gòu)a>h3>                   <p class='post_item_summary'><a href='http://www.cnblogs.com/swq6413/' target='_blank'><img width='48' height='48' class='pfs' src='http://pic./face/142964/20131116170946.png' alt=''/>a>    在項(xiàng)目開(kāi)發(fā)過(guò)程中，如何有序的保存項(xiàng)目中的各類(lèi)數(shù)據(jù)文件，建立一個(gè)分類(lèi)清晰、方便管理的目錄結(jié)構(gòu)是非常重要的。綜合以前的項(xiàng)目和一些朋友的項(xiàng)目結(jié)構(gòu)，我整理了一份我覺(jué)得還不錯(cuò)的項(xiàng)目目錄結(jié)構(gòu)。在這里分享給大家，歡迎各位提出你寶貴的意見(jiàn)和建議。如果喜歡請(qǐng)“推薦”則個(gè)，感激萬(wàn)分??！整個(gè)目錄設(shè)置到4級(jí)子目錄，實(shí)...p>              <div class='post_item_foot'>                    <a href='http://www.cnblogs.com/swq6413/' class='lightblue'>七少爺a>     發(fā)布于 2013-11-23 15:48<span class='article_comment'><a href='http://www.cnblogs.com/swq6413/p/3439076.html#commentform' title='2013-11-23 16:40' class='gray'>        評(píng)論(4)a>span><span class='article_view'><a href='http://www.cnblogs.com/swq6413/p/3439076.html' class='gray'>閱讀(206)a>span>div>div><div class='clear'>div>div>

通過(guò)構(gòu)造一個(gè)Http請(qǐng)求來(lái)取到數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理得到關(guān)鍵信息，在過(guò)濾Html標(biāo)簽取文章時(shí)正則的強(qiáng)大的威力就體現(xiàn)出來(lái)了，

正則的知識(shí)點(diǎn)也都基本用上了比如 '\s \w+ . * ? '還有捕獲分組，零寬斷言等等。喜歡的朋友可以試一試，然后自己看如何通過(guò)正則取相應(yīng)數(shù)據(jù)的，代碼中的正則都是很基本簡(jiǎn)單的，其意思與用法都在上文中詳細(xì)寫(xiě)了。

    class Program    {static void Main(string[] args)        {string content = HttpUtility.HttpGetHtml();            HttpUtility.GetArticles(content);        }    }internal class HttpUtility    {//默認(rèn)獲取第一頁(yè)數(shù)據(jù)public static string HttpGetHtml()        {            HttpWebRequest request = (HttpWebRequest)WebRequest.Create('http://www.cnblogs.com/');            request.Accept = 'text/plain, */*; q=0.01';            request.Method = 'GET';            request.Headers.Add('Accept-Language', 'zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3');            request.ContentLength = 0;            request.Host = 'www.cnblogs.com';            request.UserAgent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.1.3.5000 Chrome/26.0.1410.43 Safari/537.1';            HttpWebResponse response = (HttpWebResponse)request.GetResponse();            Stream responStream = response.GetResponseStream();            StreamReader reader = new StreamReader(responStream, Encoding.UTF8);string content = reader.ReadToEnd();return content;        }public static List GetArticles(string htmlString)        {            List articleList = new List();            Regex regex = null;            Article article = null;            regex = new Regex('

(?.*?)(?=

' + @'

\s*

)',
 RegexOptions.Singleline);if (regex.IsMatch(htmlString))
 {
 MatchCollection aritcles = regex.Matches(htmlString);foreach (Match item in aritcles)
 {
 article = new Article();//取推薦
 regex =new Regex('

.*(?.*)' + @'' +'.*

', RegexOptions.Singleline);
 article.DiggNum = regex.Match(item.Value).Groups['digNum'].Value;//取文章標(biāo)題 需要去除轉(zhuǎn)義字符
 regex = new Regex('

`(?.*)`

', RegexOptions.Singleline);string a = regex.Match(item.Value).Groups['a'].Value;
 regex = new Regex('.*?)\'.*>(?.*)', RegexOptions.Singleline);
 article.AritcleUrl = regex.Match(a).Groups['href'].Value;
 article.AritcleTitle = regex.Match(a).Groups['summary'].Value;//取作者圖片
 regex = new Regex('(?].*>)', RegexOptions.Singleline);
 article.AuthorImg = regex.Match(item.Value).Groups['img'].Value;//取作者博客URL及鏈接的target屬性
 regex = new Regex('.*)\'\\s*?target=\'(?.*?)\'>.*',
 RegexOptions.Singleline);
 article.AuthorUrl = regex.Match(item.Value).Groups['href'].Value;string urlTarget = regex.Match(item.Value).Groups['target'].Value;//取文章簡(jiǎn)介//1 先取summary Div中所有內(nèi)容
 regex = new Regex('

(?.*)

', RegexOptions.Singleline);string summary = regex.Match(item.Value).Groups['summary'].Value;//2 取簡(jiǎn)介
 regex = new Regex('(?(?<=).*)', RegexOptions.Singleline);
 article.AritcleInto = regex.Match(summary).Groups['indroduct'].Value;//取發(fā)布人與發(fā)布時(shí)間
 regex =new Regex('

\\s*(?.*)(?.*)',
 RegexOptions.Singleline);
 article.Author = regex.Match(item.Value).Groups['publishName'].Value;
 article.PublishTime = regex.Match(item.Value).Groups['publishTime'].Value.Trim();//取評(píng)論數(shù)
 regex =new Regex('(?.*)',
 RegexOptions.Singleline);
 article.CommentNum = regex.Match(item.Value).Groups['comment'].Value;//取閱讀數(shù)
 regex = new Regex('(?.*)', RegexOptions.Singleline);
 article.ReadNum = regex.Match(item.Value).Groups['readNum'].Value;
 articleList.Add(article);
 }
 }return articleList;
 }public static string ClearSpecialTag(string htmlString)
 {string htmlStr = Regex.Replace(htmlString, '\n', '', RegexOptions.IgnoreCase);
 htmlStr = Regex.Replace(htmlStr, '\t', '', RegexOptions.IgnoreCase);
 htmlStr = Regex.Replace(htmlStr, '\r', '', RegexOptions.IgnoreCase);
 htmlStr = Regex.Replace(htmlStr, '\'', ''', RegexOptions.IgnoreCase);return htmlStr;
 }
 }public class Article
 {/// /// 文章標(biāo)題/// public string AritcleTitle { get; set; }/// /// 文章鏈接/// public string AritcleUrl { get; set; }/// /// 文章簡(jiǎn)介/// public string AritcleInto { get; set; }/// /// 作者名/// public string Author { get; set; }/// /// 作者地址/// public string AuthorUrl { get; set; }/// /// 作者圖片/// public string AuthorImg { get; set; }/// /// 發(fā)布時(shí)間/// public string PublishTime { get; set; }/// /// 推薦數(shù)/// public string DiggNum { get; set; }/// /// 評(píng)論數(shù)/// public string CommentNum { get; set; }/// /// 閱讀數(shù)/// public string ReadNum { get; set; }
 }

正則部分可能寫(xiě)得不很完美，但至少也匹配出來(lái)了，另外因?yàn)樽约阂彩莿偨佑|正則，也只能寫(xiě)出這種比較簡(jiǎn)單的正則。還望大家海涵~~

`五總結(jié)`

　　正則其實(shí)并不難，了解每個(gè)符號(hào)的意思后，自己馬上動(dòng)手試一試多寫(xiě)幾次自然就明白了，正則是出了名的坑多，隨便少寫(xiě)了個(gè)點(diǎn)就匹配不到數(shù)據(jù)了，我也踩了很多坑，踩著踩著就踩出經(jīng)驗(yàn)了。

-------------

文章轉(zhuǎn)載于https://www.cnblogs.com/zery/p/3438845.html

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

电竞比分网-中国电竞赛事及体育赛事平台

固定字符結(jié)尾的正則

一 前言

二 正則字符簡(jiǎn)單介紹

三 正則進(jìn)階

四 正則實(shí)戰(zhàn)

(?.*)

五 總結(jié)

一前言

二正則字符簡(jiǎn)單介紹

三正則進(jìn)階

四正則實(shí)戰(zhàn)

`(?.*)`

`五總結(jié)`