import re # 程序功能:要将所有<h1>..</h1>中的文本替换掉 key = r"<html><body><h1>hello world</h1><h1>hello wjs</h1></body></html>" # 这段是你要匹配的文本 p1 = r"(?<=<h1>).+?(?=</h1>)" # 这是我们写的正则表达式规则 pattern1 = re.compile(p1) # 我们在编译这段正则表达式 print(pattern1.findall(key)) # 查看下匹配到什么 newKey = re.sub(p1, "替换成的文本", key) print("原文本:"+key) print("新文本:"+newKey)
以上输出:
['hello world', 'hello wjs']
原文本:<html><body><h1>hello world</h1><h1>hello wjs</h1></body></html>
新文本:<html><body><h1>替换成的文本</h1><h1>替换成的文本</h1></body></html>