有一段火车头采集器需要处理的网页源代码:
撸linux">我给整容整形医院拟了一则广告:“丑八怪没有生存价值!”<a href="http://www.abracadabra.com">C语言精粹</a>
我想将前面的“撸linux">”删掉,方法如下:
纯正则替换里“原正则表达式”填写如下内容:
^.*?\">
替换后表达式留空即可。
^.*?\">是非贪婪匹配。从行首一直匹配到第一个“>出现为止。行首用^表示,中间的内容用.*?表示,如果没有问号,就是贪婪匹配。.*?之后是结尾字符。"之前需要用\来转义。
弄这个之前需学习一下正则表达式教程。可以先用Code Architects Regex Tester软件测试一下正则表达式是否有效。