常见正则表达式的规则及使用

2025年3月1日

regex101

一个可以测试、解释以及参考正则表达式的网站。

用圆括号括起来的部分就是捕获组，方便进一步获取内容。

在正则表达式内部或者正则替换时，可以用\k的方式来引用第k个捕获组。

不论捕获组是否嵌套，左括号更前，编号就更前。

捕获组索引从 1 开始，可以用(?P<name>...)的方式给捕获组命名。在正则表达式内部通过(?P=name)来引用命名捕获组；正则替换时用\g<name来引用对应的捕获组。

正则表达式默认贪心匹配，即匹配最多的字符。比如.*会匹配尽量多的字符直到换行。

对此，加上一个?即可阻止贪心。例如对abc 123来说：

正则表达式	捕获组内容
`(.)\s[0-9]*`	`abc 123`
`(.?)\s[0-9]*`	`abc`

编译正则表达式，加速后续运算：

pattern = re.compile(regex)

字符串是否匹配某一模式。

表达式	作用
`pattern.match(string)`	字符串开头是否匹配模式
`pattern.fullmatch(string)`	字符串全部是否匹配模式

在字符串中找到匹配模式的子串。

表达式	作用
`result = pattern.search(string)`	查找匹配模式的第一个子串（找不到则为`None`）
`result.group()` `result.group(0)`	匹配到的子串
`result.group(k)`	返回第`k`个捕获组或者命名捕获组
`result.groups()`	所有捕获组的元组
`result.start()` `result.end()` `result.span()`	匹配的起止位置