一日一技:正则表达式同一个小括号两种意思

开发 后端
在Python里面,当我们要从一段正则表达式中提取出一部分内容的时候,我们可以把这部分内容用小括号包起来。

 [[405738]]

在Python里面,当我们要从一段正则表达式中提取出一部分内容的时候,我们可以把这部分内容用小括号包起来。例如:从字符串我的密码123456abc中提取123456abc,我们可以这样写正则表达式:

  1. import re 
  2.  
  3. s = '我的密码123456abc' 
  4. password = re.findall('密码(.*?)$', s) 
  5. print(password

运行效果如下图所示:

在这个例子里面,小括号的意思是“分组”。

但是,在正则表达式里面,小括号还有另外一个意思,那就是把几个符号放在一起,作为一个整体。

例如,还有另一个字符串我的口令123456abc,这里密码前面是口令,为了使用同一个正则表达式来从这两个句子里面提取密码,那么需要表达密码或口令(.*?)$这个意思。

但如果我们这样写:

  1. 密码|口令(.*?)$ 

它实际上表达的意思是密码令(.*?)$或者密口令(.*?)$。

所以我们需要把(密码)和口令作为整体来看待。此时,正则表达式本身支持使用括号来表示:

  1. (密码|口令)(.*?)$ 

在正则表达式里面,小括号内部的|左右两侧的多个字符串会作为整体,这样就能表示密码(.*?)$或口令(.*?)$了。

但是,正则表达式里面作为整体的小括号,与Python里面用来分组的小括号发生了冲突,于是我们会发现提取出来的内容并不是我们想要的:

可以看到,这里,(密码|口令)它同时即有正则表达式里面作为整体的功能,又有Python里面分组的功能。于是结果多出来了我们不想要的东西。

那么有什么办法让(密码|口令)只实现正则表达式里面的作为整体的功能,不实现Python里面的分组功能呢?这个时候就需要使用正则表达式里面的一个组合符号?:了。

请大家对比下面三个结果:

可以看到,>.*?<与<(?:.*?)>的作用是一样的。这就说明,以?:开头的小括号,它失去了分组的功能。

因此,我们把这个特征用到一开始的例子中:

  1. >>> import re 
  2. >>> s = '我的密码123456abc' 
  3. >>> re.findall('(?:密码|口令)(.*?)$', s) 
  4. ['123456abc'
  5. >>> s = '我的口令123456abc' 
  6. >>> re.findall('(?:密码|口令)(.*?)$', s) 
  7. ['123456abc'

运行效果如下图所示,完成任务:

本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。

 

责任编辑:武晓燕 来源: 未闻Code
相关推荐

2022-06-10 12:19:24

正则表达式可读性

2021-06-01 21:24:44

多线程代码搜索

2018-08-21 11:00:20

前端正则表达式Java

2017-08-25 16:38:05

表达式正则血案

2021-10-15 21:08:31

PandasExcel对象

2021-04-27 22:15:02

Selenium浏览器爬虫

2023-09-06 00:15:04

Pandas技巧格式

2021-04-12 21:19:01

PythonMakefile项目

2021-10-06 23:17:26

Python抽象类接口

2021-04-05 14:47:55

Python多线程事件监控

2021-03-12 21:19:15

Python链式调用

2021-09-13 20:38:47

Python链式调用

2022-03-12 20:38:14

网页Python测试

2023-10-28 12:14:35

爬虫JavaScriptObject

2022-06-28 09:31:44

LinuxmacOS系统

2021-04-19 23:29:44

MakefilemacOSLinux

2021-10-03 20:08:29

HTTP2Scrapy

2021-07-27 21:32:57

Python 延迟调用

2021-05-08 19:33:51

移除字符零宽

2010-03-03 10:51:32

正则表达式
点赞
收藏

51CTO技术栈公众号