步入正题之前,先来看一下re.sub()函数的功能演示:
import re
text = 'Jame 12 years old'
pattern = r'[A-Z]\w+\s\d{1,2}' # 正则,匹配出名字和年龄
result = re.sub(pattern,'hello',text) # 将匹配出的内容替换为hello
print(text) #打印原来的文本
print(result) # 打印替换后的文本
>>>Jame 12 years old
>>>hello years old
显而易见,pattern从text中匹配到的内容"Jame 12"被中间的字符串即hello替换,记住这三个参数之间的关系,下面开始步入正题。
import re
text = 'Jame 12 years old'
pattern = r'([A-Z]\w+)\s(\d{1,2})'
print(re.search(pattern, text).group(0))
print(re.search(pattern, text).group(1))
print(re.search(pattern, text).group(2))
>>>Jame 12
>>>Jame
>>>12
与文章开头的代码不同的是,这次分别对名字和年龄进行了分组:
名字:([A-Z]\w+)
年龄:(\d{1,2})
可以看到,goup(0)对应的是全部内容,goup(1)对应名字,goup(2)对应年龄,记住这个对应关系!接下来加入一段代码:
result = re.sub(pattern, r'\1 is \2', text)
print(result)
>>>Jame is 12 years old
不知道你是否已经猜到\1\2分别代表什么了呢?其实代表的就是group(1)和group(2),既然中间的参数是准备替换的字符串,那我们同样可以引用已经匹配出来的字符串,对于初学者这里可能比较晕,多练习几遍自然就懂了。
小彩蛋那么问题来了,如果我想把匹配到的年龄加两岁该怎么做呢?
result = re.sub(pattern, r'\1 is 15', text)
print(result)
>>>Jame is 15 years old
这样写固然可以,但是你有没有想过如果text里有很多个这样的数据需要处理,并且加两岁后年龄不可能全是15岁,这样的话手动改写就太浪费时间了,而且代码量也会很大,下面来看解决方法:引入一个函数来解决这个问题。
def func(match): # func的参数是一个match对象
years = match.group(2)
years = int(years) + 3
return '%s %d' % (match.group(1), years)
result2 = re.sub(pattern, func, text)
print(result2)
>>>Jame 15 years old
中间的参数—func,意思是将pattern从text中匹配到的内容传给func,最后func返回我们需要的结果(字符串类型)
这里就会有人问了,func里面的参数match和下面的match.group(2)是什么意思?
不要着急,再来看一段代码:
print(re.search(pattern, text)) # 打印返回值,是一个match对象
ret= re.search(pattern,text)
print(ret.group(2))
>>>
>>> 12
可以看到,pattern匹配文本后返回的是一个match对象,match(2)就相当于re.search.group(2) ,这样子是不是就能理解了?
当给子组命名时\g+
同样的道理,把原来的\1\2改为如上格式即可:
result = re.sub(pattern, r'\g is \g', text)
print(result)
>>>Jame is 12 years old
!!!
觉得博主写的还不错话记得给个赞再走哦