正在加载中...
怎样用editplus正则表达式批量替换清理掉干扰码?
很多用户在采集互联网信息的时候,经常遇到图片地址里面如果带有杂乱的干扰符号,怎样批量去掉呢?万维景盛编程大师给广大用户分享通过EDITPLUS正则表达式替换达到清理干扰符号目标的技巧。
代码如下:
<img src="http://bbs.aliyun.com/attachment/Fid_219/219_35615732_a6d18c8ac4d8acc.jpg?78" border="0" style="outline: none; margin: 0px; padding: 0px; border: 0px; font-style: inherit; font-variant: inherit; font-weight: inherit; font-stretch: inherit; line-height: inherit; font-family: inherit; vertical-align: baseline; max-width: 995px;"/>
我们注意到,.jpg后面有个?78,影响了我们对数据的判断,那么怎样批量去掉这样的干扰符号呢?
我们只需要在editplus中按ctrl+h,打开替换弹窗,勾选正则表达式,然后像如图一样填写正则表达式,
.jpg\?[0-9][0-9]"
那么就可以找到这些不规则的干扰码,然后批量替换为去掉干扰码的字符即可。>>>EDITPLUS正则表达式使用方法详解
如图:
editplus通过正则表达式批量替换清理干扰码
另外还有一种干扰码是网页文字水印,属于网页服务器随机加的乱码,因此最好在转帖复制前清除,如果复制后,在想清除夹杂在文字里的随机乱码非常麻烦,因此最好在复制前一次性清除这些文字水印,傲游浏览器有个专门清除文字水印的插件,复制前只需要按一下插件按钮,自动一次性清除这些文字水印,随意复制不再受乱码干扰。火狐浏览器的话可以用CleanHide清除隐藏文字。
最后还有一种脚本去除干扰文字的方法:
<a href='javascript: (function() { var tamper = { "font":"font-size: 0px", "span":"display: none" }; for (var t in tamper) { var doms = document.getElementsByTagName(t); var numAll = doms.length-1; for (var i=numAll; i>=0; i--) { var item = doms; if (item.style.cssText.toLowerCase().indexOf(tamper[t]) > -1) { item.parentNode.removeChild(item); } } }; })(); void 0; '> JavaScript 清理干扰字符 </a>
只需要将打断需要清理干扰码的文字放在<a></a>标签之间,运行一下即可。