概念:匹配字符串内容的一种规则
官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式在线测试工具http://tool.chinaz.com/regex/
注意:正则表达式只与字符串相关
不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。
但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。
时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已
2.正则表达式的规则:
字符组**:
[] 描述的是一个字符位置上的内容规则(更灵活)
字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
注意点:
[0-9],[5-9],[a-z],[A-Z]不能从大到小规定范围,
字符组内所有的范围是根据ascii码来确定的
字符组中,-是有特殊意义的,取消特殊意义,需要使用\转义
非字符组:[^] 匹配非括号内的所有内容
如:[^123]:匹配非数字123的所有
元字符:元字符 |
匹配内容 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
\b | 匹配一个单词的结尾 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结尾 |
\W | 匹配非字母或数字或下划线 |
\D | 匹配非数字 |
\S | 匹配非空白符 |
a|b | 匹配字符a或字符b |
() | 匹配括号内的表达式,也表示一个组 |
[…] | 匹配字符组中的字符 |
[^…] | 匹配除了字符组中字符的所有字符 |
量词 |
用法说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
如:www.(baidu|oldboy).com
分组 ()使用场景:
一组内容,需要整体约束出现次数的时候。 在和 " | " 连用的时候,前后固定,中间位置二选一。正则 | 待匹配字符 | 匹配 结果 | 说明 |
---|---|---|---|
1\d{13,16}[0-9x]$ | 110101198001017032 | 110101198001017032 | 表示可以匹配一个正确的身份证号 |
2\d{13,16}[0-9x]$ | 1101011980010170 | 1101011980010170 | 表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字 |
3\d{14}(\d{2}[0-9x])?$ | 1101011980010170 | False | 现在不会匹配错误的身份证号了()表示分组,将\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次 |
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ | 110105199812067023 | 110105199812067023 | 表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14} |
在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配
贪婪匹配:比如匹配 a.*x 利用的是回溯算法:从a开始匹配,一直匹配任意字符,无论是否为x,匹配完所有字符后,发现 * 后面有个x,又回过头来找x,找到x就立即停止。待匹配字符 | 匹配 结果 | 说明 | |
---|---|---|---|
在满足匹配时,匹配尽可能少的字符串,需要在量词后面使用问号。
非贪婪匹配:a.*?x
从a开始匹配,匹配任意长度字符,?的作用是时刻检查下一个字符是否为x,如果是x则立马停止。 非贪婪匹配pattern*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
.*?的用法
. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x
就是取前面任意长度的字符,直到一个x出现
5.转义符 **
在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成’\n’,那么正则里就要写成"\\n",这样就太麻烦了。这个时候我们就用到了r’\n’这个概念,此时的正则是r’\n’就可以了。
正则 | 待匹配字符 | 匹配 结果 | 说明 |
---|---|---|---|
\n | \n | False | 因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配 |
\n | \n | True | 转义\之后变成\\,即可匹配 |
“\\n” | ‘\n’ | True | 如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次 |
r’\n’ | r’\n’ | True | 在字符串之前加r,让整个字符串不转义 |
flags有很多可选值:
re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
re.finditer(regex,str): 返回一个迭代器,存储了所有’结果对象’,遍历后迭代器获得每一个结果对象,对每个结果对象使用.group()方法取值
re.sub(regex,new,str): 返回一个替换后的字符串
re.subn(regex,new,str): 返回替换后的字符串,和替换的次数
re.split(regex,str): 返回一个列表,根据正则匹配内容分割。
2.re模块详细使用
import re
ret = re.findall('a', 'eva egon yuan') # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']
ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。
ret = re.match('a', 'abc').group() # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'
ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) # ['', '', 'cd']
ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #evaHegon4yuan4
ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)
'''
节省时间角度上
# re.compile() 预编译
# 参数:pattern,flags
使用原因:re.findall('\d+','asdfasd2131')
每次findall计算机都需要去解析'\d+',如果有n个待匹配的字符串,那就需要计算机解析n次'\d+',这个时候我们需要将'\d+'这个正则规则进行预编译,在以后每次查找时,直接拿已经编译后的代码,可以节省大量程序执行的‘时间’。
'''
obj = re.compile('\d{3}') #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group()) #结果 : 123
'''
节省空间上
# re.finditer()
返回一个存储了'结果对象'的迭代器,取值的时候需要遍历后在对每个结果对象使用.group()方法
当使用findall找到的结果数量巨大的时候,返回的结果会很占用内存,这个时候我们就需要使用finditer
'''
import re
ret = re.finditer('\d', 'ds3sy4784a') #finditer返回一个存放匹配结果的迭代器
print(ret) #
print(next(ret).group()) #查看第一个结果
print(next(ret).group()) #查看第二个结果
print([i.group() for i in ret]) #查看剩余的左右结果
3.re方法小结
'''
re方法总结:
匹配:
findall
search match 返回结果对象,用.group()取值
字符串的其他处理:不常用
替换
分割
进阶:
时间上:使用compile预编译,能够提前编译一个正则表达式,当同一个正则需要多次使用的时候,可以节省时间。
空间上:使用finditer返回一个迭代器,里面是一个一个结果结果对象,通过对结果对象.group取到每个值
'''
4.re模块的使用*
1.分组在findall当中默认会优先显示出来
2.在分组中开始加上 ?: 可以取消分组优先的设定
在爬虫\数据清洗的过程中最常用的正则表达式操作
s = '''
hahaha
wahaha
qqxing
'''
'>(\w+)(\w+)<',s)
print(ret) # findall永远优先显示分组中的内容
# ['hahaha', 'wahaha', 'qqxing']
# 分组优先显示会遇到如下问题:找到所有数字,会把括号内优先返回,导致提取信息不符要求
ret = re.findall('\d+(\.\d+)?','1.23+2.34')
print(ret) # ['.23', '.34']
'''
取消分组优先
在不想分组的括号开头加上 ////?: ////可以取消分组优先显示的问题
'''
ret = re.findall('\d+(?:\.\d+)?','1.23+2.34')
print(ret) # ['1.23', '2.34']
5.split和分组:
如果被用来分割的内容在分组中,则保留这个内容。
ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 : ['eva', 'egon', 'yuan']
ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan']
#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。
6.search和分组:
search返回的结果不收分组的影响,但是可以通过序号索引分组内容,0代表所有组,1代表第一组,一次顺延
ret = re.search(r'(\w+)',r'qqxing ')
print(ret.group()) # 不写默认是0,取全部
print(ret.group(1))
print(ret.group(2))
分组小结:
findall: 优先显示分组中的内容
split: 保留在分组中的分割符内容
search: 可以通过.group()索引分组内容的值
取消分组优先:(?:正则)
在分组括号前输入:?P 就可为分组命名。
ret = re.search('<(?P\w+)>.*</(?P\w+)>','hahaha ')
print(ret.group(0)) # 不受分组影响
print(ret.group('tag')) # 不受分组的影响
print(ret.group('content')) # 不受分组影响
分组特殊的要求:
网页中我们需要匹配成对的标签
s = 'wahaha'
ret = re.search('<(?P\w+)>.*','wahaha
')
print(ret.group())
ret = re.search(r'<(?P\w+)>.*','wahaha
')
print(ret.group())
使用匹配的tips:
当我们需要匹配的内容混在不相匹配内容中
只能把不想要匹配的东西也匹配出来,然后去掉不想要的,就可以拿到想要的内容。
import re
ret = re.search("<(?P\w+)>\w+","hello
")
#还可以在分组中利用?的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name')) #结果 :h1
print(ret.group()) #结果 :hello
ret = re.search(r"\w+","hello
")
#如果不给组起名字,也可以用\序号来找到对应的组,表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group()) #结果 :hello
2.匹配整数*
import re
ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']
3.匹配数字
1、 匹配一段文本中的每行的邮箱 http://blog.csdn.net/make164492212/article/details/51656638
2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12’;
分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、
一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$
3、 匹配qq号。(腾讯QQ号从10000开始) [1,9][0,9]{4,}
4、 匹配一个浮点数。 ^(-?\d+)(\.\d+)?$ 或者 -?\d+\.?\d*
5、 匹配汉字。 ^[\u4e00-\u9fa5]{0,}$
6、 匹配出所有整数
爬虫练习
import requests
import re
import json
def getPage(url):
response=requests.get(url)
return response.text
def parsePage(s):
com=re.compile('.*?.*?(?P\d+).*?(?P.*?) '
'.*? .*?(?P.*?)评价',re.S)
ret=com.finditer(s)
for i in ret:
yield {
"id":i.group("id"),
"title":i.group("title"),
"rating_num":i.group("rating_num"),
"comment_num":i.group("comment_num"),
}
def main(num):
url='https://movie.douban.com/top250?start=%s&filter='%num
response_html=getPage(url)
ret=parsePage(response_html)
print(ret)
f=open("move_info7","a",encoding="utf8")
for obj in ret:
print(obj)
data=json.dumps(obj,ensure_ascii=False)
f.write(data+"\n")
if __name__ == '__main__':
count=0
for i in range(10):
main(count)
count+=25
简化版
import re
import json
from urllib.request import urlopen
def getPage(url):
response = urlopen(url)
return response.read().decode('utf-8')
def parsePage(s):
com = re.compile(
'.*?.*?(?P\d+).*?(?P.*?) '
'.*? .*?(?P.*?)评价', re.S)
ret = com.finditer(s)
for i in ret:
yield {
"id": i.group("id"),
"title": i.group("title"),
"rating_num": i.group("rating_num"),
"comment_num": i.group("comment_num"),
}
def main(num):
url = 'https://movie.douban.com/top250?start=%s&filter=' % num
response_html = getPage(url)
ret = parsePage(response_html)
print(ret)
f = open("move_info7", "a", encoding="utf8")
for obj in ret:
print(obj)
data = str(obj)
f.write(data + "\n")
count = 0
for i in range(10):
main(count)
count += 25
简化版
flags用法
flags有很多可选值:
re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
1-9 ↩︎
1-9 ↩︎
1-9 ↩︎
yidianyidei
原创文章 6获赞 1访问量 428
关注
私信
展开阅读全文
作者:yidianyidei