众人好,我是辰哥~
本文带众人研习正则抒发式,并经过python代码举例诠释罕用的正则抒发式
着末实战爬取小说网页:要点在于爬取的网页经过正则抒发式停止说明。
正则抒发式语法
Python的re模块(正则抒发式)供给各样正则抒发式的般配职掌。在绝大普遍情景下可以灵验地完结对繁杂字符串的剖析并掏出关联讯息。在诠释怎样实践运用正则抒发式以前,先教众人研习并控制正则抒发式的根基语法(般配规矩)。
正则抒发式般配历程以下:
(1)将界说好的正则抒发式和字符串停止对照。
(2)要是每一个字符串都能般配,则胜利;一旦有般配不行功的字符则般配失利。
正则抒发式规矩
罕见规矩
语法
解说
实例
完备般配
\
转义符
a\\c
a\c
.
通配符,般配随意除换行符外的字符
a.c
abc
[…]
字符集,对应场所是字符齐集随意字符
a[bcd]ef
abef
acefadef
\d
[0-9],示意一位数字
a\dc
a4c
\D
[^0-9],非数字
a\Dc
adc
\w
[0-9a-zA-Z_]。示意数字、巨细写字母和下划线
a\wc
a3c
abc
\W
[^0-9a-zA-Z_],非单词字符
a\Wc
ac
\s
[\t\v\r\f]。示意空白符,包罗空格、制表符、换行符、回车符、换行符
a\sc
ac
\S
[^\t\v\r\f],非空白符
a\Sc
abc
数目词般配规矩
语法
解说
实例
完备般配
*
前一个字符0次或无尽次
abcd*
abc
abcddddd
+
前一个字符1次或无尽次
abcd+
abcd
Abcddddd
?
前一个字符0次或1次
abcd?
abc
abcd
{m}
前一个字符m次
abc{3}d
abcccd
{m,n}
前一个字符m至n次
abc{1,2}d
abcd
abccd
畛域般配规矩
语法
解说
实例
完备般配
^
般配字符串发端
^ab
ab
般配字符串结尾
ab
ab
\A
仅般配字符串发端
\Aab
ab
\Z
仅般配字符串结尾
ab\Z
ab
Re模块
Python中应用Re库去界说的正则抒发式,罕用的法子陈列以下:
lpattern目标
re.