12个实例教你快速入门正则表达式

极客寻星人说
• 阅读 1503

正则表达式

首发:https://mp.weixin.qq.com/s/kS...

这里只单纯介绍正则表达式,不会涉及其他。

基本的介绍下正则表达式,并讲解一些基本的使用方法和案例。

这篇适用于正则表达式新手入门学习,不讲太多的理论,偏向实战中练习!

先学会怎么用,用的过程中,再探索其中的逻辑。

是什么

正则表达式是什么?

正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具。

说白了,正则表达式是一种工具,主要是用来提取和替换字符串。

测试工具

在我们写正则表达式的过程中,我们可能会测试表达式的正确性,这时候就要使用到测试工具

我这里使用的是 RegexTester.exe

请自行下载!

RegexTester基本使用

有2种模式,一个查找一个替换,按照需要选择

查找

12个实例教你快速入门正则表达式

填好正则表达式和待匹配的字符串,点击运行即可显示结果

这里说下结果的0,1,2,3,4....

0:表示的就是整个正则表达式匹配到的结果,

1:表示第 1 个括号中匹配到的结果

2:表示第 2 个括号中匹配到的结果

以此类推

替换

替换和查找类似,多了一个替换项,其实就是先查找,将查到的字符串,按照替换项的规则进行替换

12个实例教你快速入门正则表达式

$1:表示的是 这里是查找到的第 1 个括号中匹配到的结果

$2:表示的是 这里是查找到的第 2 个括号中匹配到的结果

以此类推

实例详解

就直接上案例了,案例中的所有正则表达式都在图中,我并没有给到可以直接复制粘贴,自己复现一遍,印象更深

复现的过程中,如果有正则语法、元字符、特殊字符等不懂的,可以查看下附表或者自行百度

实例1:

现在有一个待匹配字符串:

构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。

需求:匹配其中的表达式3个汉字

12个实例教你快速入门正则表达式

这里我们可以看到,直接用表达式作为正则表达式即可,我们匹配到了4个地方

实例2:

需求:匹配所有的正则表达式

12个实例教你快速入门正则表达式

实例3:

需求:我们要匹配所有的正则表达式数据表达式

方法1

我们知道.可以用来匹配除了换行符外的任意字符,因为表达式前面2个字符变化的,我们用点来代替

12个实例教你快速入门正则表达式

我们可以看到,匹配到了4个结果,不过其中有2个不是我们想要的,优化一下

12个实例教你快速入门正则表达式

这样就能得到我们想要的结果了

这里的 [^的] 的意思是匹配除了 以外的任意字符

方法2

上面的方式,在当前情况下,是可以匹配到准确的字符串,但是如果换一个,可能匹配到一些我们不需要的字符串,下面我们再精确点

12个实例教你快速入门正则表达式

这里正则表达式的意思是:

小括号表示:一个组

竖线| 表示或者的意思

总的就是匹配满足前2个字符是正则或者数学,后三个字符是表达式的字符串

实例4:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:提取其中所有的url

我们看下我们想要的url有什么特征,第一个是前面有 url: 标识,第二个它们被包含在2个引号之间

所以我们可以这样写

12个实例教你快速入门正则表达式

\s* :表示匹配0到多个任意空白字符

[^"]*?:表示匹配匹配除"以外的全部字符,非贪婪匹配 (对于贪婪匹配和非贪婪匹配不了解的可以百度下)

实例5:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:提取其中所有的title

12个实例教你快速入门正则表达式

和实例4差不多

实例6:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:提取前2个字符是峄城的title

12个实例教你快速入门正则表达式

实例7:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:提取前2个字符是峄城的title所对应的url

12个实例教你快速入门正则表达式

实例8:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:提取大括号中的字符串

这种一般主要用来提取行

12个实例教你快速入门正则表达式

实例9:

源文本:

{ url: "./202108/t20210810_1259734.html", title: '峄城区卫生健康局2021年7月卫生监督行政处罚案件', time: "2021-08-05", source:'', }
{ url: "./202107/t20210721_1249763.html", title: '峄城区市场监管局关于对枣庄越强网络科技有限公司等240家企业', time: "2021-07-22"}
{ url: "./202107/t20210721_1291713.html", title: '行政处罚...', time: "2021-07-22", source:'', }

需求:有的title中有包含...,但是我们并不需要

这时候我们就用到正则替换

12个实例教你快速入门正则表达式

这里的.要用\进行转义,因为在正则中. 默认是匹配除换行符的任意字符

我们要将...替换为空,所以替换项,我们留空

实例10:

源文本:

{'USCC': '92340503MA2PMQ0T13', 'ID': '2cc5dea5-700a-4724-92f5-b81cd97d0cb5', 'CF_GXRQ': '2021-08-05', 'NAME': '马鞍山市万丰超市'}

需求:将USCC补充成完整的url

完整的url如下:

http://xy.mas.gov.cn/queryDou...

我们可以发现,url后面的USCC=的值,就是源文本中USCC的值,但是现在我们只有源文本,需要自己拼成url,该如何用正则实现呢

第一步:我们先提到源文本中USCC的值

12个实例教你快速入门正则表达式

第二步:写替换项

12个实例教你快速入门正则表达式

我们提到了USCC的值,用$1来代替它,因为我们要在值的前面,加上url前缀,http://xy.mas.gov.cn/queryDoublePublicInfo?USCC=$1,其他的字符不变

实例11:

源文本:

{'USCC': '92340503MA2PMQ0T13', 'ID': '2cc5dea5-700a-4724-92f5-b81cd97d0cb5', 'CF_GXRQ': '2021-08-05', 'NAME': '马鞍山市万丰超市'}

需求:在实例10的基础上,我想直接获取到url

我们是可以先实现实例11中的步骤,让后直接提USCC的值即可,这种就不详细说了,很简单

但是现在想用一个正则替换直接获取到正确的url

12个实例教你快速入门正则表达式

因为正则替换是替换你查找到的字符串,没有提到的,不会进行替换,因为我们最后只留下url,所以要不源文本全部提到,进行替换处理

实例12:

源文本:

{'USCC': '92340503MA2PMQ0T13', 'ID': '2cc5dea5-700a-4724-92f5-b81cd97d0cb5', 'CF_GXRQ': '2021-08-05', 'NAME': '马鞍山市万丰超市'}

需求:在实例11的基础上,稍微在复杂一些,同样是直接获取到url

完整的url是这样的:

http://xy.mas.gov.cn/queryDou...

可以看到这里有2个参数

逻辑其实和上面一样的,就是多了一步,将id的值也提到,进行正则替换

12个实例教你快速入门正则表达式

注意

“|”和“[]”的区别:

  1. 竖线|是或者的关系,竖线两边任意匹配一边都成立
  2. 中括号[]是括号内部选一的关系,即:括号里面的字符,只要匹配到一个,即成立([]是一个字符集合)

正则中的替换

是将匹配到的数据替换为别的数据,没有匹配到数据是不变的

$1、${1}:表示从0开始数,第一个小括号匹配的内容,

\s\S.的区别

  • \s\S:匹配全部字符
  • .:匹配除换行符外的全部字符

附录:正则匹配大全

  • ^ 匹配字符串的开头
  • $ 匹配字符串的末尾。
  • . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
  • [...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
  • 1 不在[]中的字符:2 匹配除了a,b,c之外的字符。
  • re* 匹配0个或多个的表达式。
  • re+ 匹配1个或多个的表达式。
  • re? 匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
  • re{ n} 精确匹配 n 个前面表达式。例如, o{2} 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。
  • re{ n,} 匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
  • re{ n, m} 匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
  • a| b 匹配a或b
  • (re) 匹配括号内的表达式,也表示一个组
  • (?imx) 正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。
  • (?-imx) 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
  • (?: re) 类似 (...), 但是不表示一个组
  • (?imx: re) 在括号中使用i, m, 或 x 可选标志
  • (?-imx: re) 在括号中不使用i, m, 或 x 可选标志
  • (?#...) 注释.
  • (?= re) 前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。
  • (?! re) 前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功
  • (?> re) 匹配的独立模式,省去回溯。
  • \w 匹配字母数字及下划线
  • \W 匹配非字母数字及下划线
  • \s 匹配任意空白字符,等价于 [\t\n\r\f].
  • \S 匹配任意非空字符
  • \d 匹配任意数字,等价于 [0-9].
  • \D 匹配任意非数字
  • \A 匹配字符串开始
  • \Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
  • \z 匹配字符串结束
  • \G 匹配最后匹配完成的位置。
  • \b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
  • \B 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
  • \n, \t, 等. 匹配一个换行符。匹配一个制表符。等
  • \1...\9 匹配第n个分组的内容。
  • \10 匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式。
  • [\u4e00-\u9fa5] 匹配汉字

更多教程:https://www.runoob.com/regexp/regexp-tutorial.html

关注我获取更多内容

  1. ...
  2. abc
点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Stella981 Stella981
4年前
SpringBoot学习:整合shiro自动登录功能(rememberMe记住我功能)
首先在shiro配置类中注入rememberMe管理器!复制代码(https://oscimg.oschina.net/oscnet/675f5689159acfa2c39c91f4df40a00ce0f.gif)/cookie对象;rememberMeCookie()方法是设置Cookie的生成模
Easter79 Easter79
4年前
SpringBoot学习:整合shiro自动登录功能(rememberMe记住我功能)
首先在shiro配置类中注入rememberMe管理器!复制代码(https://oscimg.oschina.net/oscnet/675f5689159acfa2c39c91f4df40a00ce0f.gif)/cookie对象;rememberMeCookie()方法是设置Cookie的生成模
Stella981 Stella981
4年前
Python正则表达式用法详解
搞懂Python正则表达式用法Python正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python自1.5版本起增加了re模块,它提供Perl风格的正则表达式模式。re模块使Python语言拥有全部的正则表达式功能。compile函
Stella981 Stella981
4年前
AJPFX总结关于Java中过滤出字母、数字和中文的正则表达式
1、Java中过滤出字母、数字和中文的正则表达式(1)过滤出字母的正则表达式\^(AZaz)\(2)过滤出数字的正则表达式\^(09)\(3)过滤出中文的正则表达式\^(\\\\u4e00\\\\u9fa5)\(4)过滤出字母、数字和中文的正则表达式\^(azAZ09\\\\u
Stella981 Stella981
4年前
Python正则表达式精讲
_摘要:_ Python正则表达式精讲一、什么是正则表达式正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:RegularExpression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。Python正则表达式精讲一、什么是正则表达式正则表达式,又称正规表示式、正规表示法、正规表
Stella981 Stella981
4年前
JavaScript基础入门10
JavaScript基础入门10\toc\正则表达式正则表达式(regularexpression)是一个描述字符模式的对象。在JavaScript中,RegExp表示正则对象。在开发的工作当中,我们经常需要使用正则表达式强大的模式匹配、文本检索、以及替换功能。简单的说,
Wesley13 Wesley13
4年前
JajavaScript 正则表达式(RegExp)实用指南 (三)【译】
快速实践指南。用示例理解正则表达式。!(https://oscimg.oschina.net/oscnet/a5941f43308455eaa7bf850f05cbae0262c.jpg)在JavaScript正则表达式(RegExp)实用指南(一)(https://www.oschina.net/action/GoToLink?
Python进阶者 Python进阶者
3年前
这个txt文档每章后面都有个这个特殊字符,如何提取出来删除掉?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【Python狗】问了一个Python正则表达式处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_im
Python进阶者 Python进阶者
2年前
盘点一个Python正则表达式的问题
大家好,我是皮皮。一、前言前几天在Python白银群【whoisme】问了一个Python正则表达式的问题,这里拿出来给大家分享下。下图是他的正则表达式:二、实现过程这个正则表达式还是蛮复杂的,在Python中,正则表达式中的问号?表示前面的字符出现0次或
极客寻星人说
极客寻星人说
Lv1
书画一船烟外月,湖山十里镜中人。
文章
4
粉丝
0
获赞
0