Linux区


火车采集器使用正则表达式实现纯正则替换

有一段火车头采集器需要处理的网页源代码:

撸linux">我给整容整形医院拟了一则广告:“丑八怪没有生存价值!”<a href="http://www.abracadabra.com">C语言精粹</a>

我想将前面的“撸linux">”删掉,方法如下:

纯正则替换里“原正则表达式”填写如下内容:

^.*?\">

替换后表达式留空即可。

^.*?\">是非贪婪匹配。从行首一直匹配到第一个“>出现为止。行首用^表示,中间的内容用.*?表示,如果没有问号,就是贪婪匹配。.*?之后是结尾字符。"之前需要用\来转义。

弄这个之前需学习一下正则表达式教程。可以先用Code Architects Regex Tester软件测试一下正则表达式是否有效。

 

相关博文



发表评论

电子邮件地址不会被公开。