天问

修复teleport软件中文爬取网站的错误

(1)正则表达式替换一些无用标签:

查找替换
/\*tpa=.*\*/ 
\btppabs="h[^"]*"或者tppabs="h[^"]*" 
href="javascript:if\(confirm\('htt[^"]*"href=www.xxx.com
href=" *javascript:if\(confirm\('(htt[^"\s]*).*?"href="$1"
utf-8"utf-8"utf-8
css文件: 
tpa=http://[^\s]*.gif 
/\*tpa.*?\*/
href="javascript:if(confirm(%27htt[^"]*" href=www.xxx.com

(2)使用项目中的convert.php把中文文件名乱码项目运行一下即可转换为正确编码。

(3)项目地址:http://git.yoqi.me/lyq/fix-teleport

博客地址:http://blog.yoqi.me/?p=4081
扫我捐助哦
喜欢 4111

这篇文章还没有评论

发表评论