re.sub()中的 r'\1\2\3\数字' 还不知道是什么意思?这里有答案!!

Coral ·
更新时间:2024-11-10
· 845 次阅读

步入正题之前,先来看一下re.sub()函数的功能演示:

import re text = 'Jame 12 years old' pattern = r'[A-Z]\w+\s\d{1,2}' # 正则,匹配出名字和年龄 result = re.sub(pattern,'hello',text) # 将匹配出的内容替换为hello print(text) #打印原来的文本 print(result) # 打印替换后的文本 >>>Jame 12 years old >>>hello years old

显而易见,pattern从text中匹配到的内容"Jame 12"被中间的字符串即hello替换,记住这三个参数之间的关系,下面开始步入正题。

import re text = 'Jame 12 years old' pattern = r'([A-Z]\w+)\s(\d{1,2})' print(re.search(pattern, text).group(0)) print(re.search(pattern, text).group(1)) print(re.search(pattern, text).group(2)) >>>Jame 12 >>>Jame >>>12

与文章开头的代码不同的是,这次分别对名字和年龄进行了分组:

名字:([A-Z]\w+)
年龄:(\d{1,2})

可以看到,goup(0)对应的是全部内容,goup(1)对应名字,goup(2)对应年龄,记住这个对应关系!接下来加入一段代码:

result = re.sub(pattern, r'\1 is \2', text) print(result) >>>Jame is 12 years old

不知道你是否已经猜到\1\2分别代表什么了呢?其实代表的就是group(1)和group(2),既然中间的参数是准备替换的字符串,那我们同样可以引用已经匹配出来的字符串,对于初学者这里可能比较晕,多练习几遍自然就懂了。

小彩蛋

那么问题来了,如果我想把匹配到的年龄加两岁该怎么做呢?

result = re.sub(pattern, r'\1 is 15', text) print(result) >>>Jame is 15 years old

这样写固然可以,但是你有没有想过如果text里有很多个这样的数据需要处理,并且加两岁后年龄不可能全是15岁,这样的话手动改写就太浪费时间了,而且代码量也会很大,下面来看解决方法:引入一个函数来解决这个问题。

def func(match): # func的参数是一个match对象 years = match.group(2) years = int(years) + 3 return '%s %d' % (match.group(1), years) result2 = re.sub(pattern, func, text) print(result2) >>>Jame 15 years old

中间的参数—func,意思是将pattern从text中匹配到的内容传给func,最后func返回我们需要的结果(字符串类型)
这里就会有人问了,func里面的参数match和下面的match.group(2)是什么意思?
不要着急,再来看一段代码:

print(re.search(pattern, text)) # 打印返回值,是一个match对象 ret= re.search(pattern,text) print(ret.group(2)) >>> >>> 12

可以看到,pattern匹配文本后返回的是一个match对象,match(2)就相当于re.search.group(2) ,这样子是不是就能理解了?

当给子组命名时

\g+

同样的道理,把原来的\1\2改为如上格式即可:

result = re.sub(pattern, r'\g is \g', text) print(result) >>>Jame is 12 years old !!!

觉得博主写的还不错话记得给个再走哦



sub

需要 登录 后方可回复, 如果你还没有账号请 注册新账号
相关文章