集搜客还是很好用的,完全浏览器打开,一步一步打开网页,搜集数据。这种爬虫,往往很难封杀。
集搜客有一些问题,就是不是本地化工具,规则,算法在云端。也就是该公司的核心技术,可以理解。最大的一个问题就是数据默认保存为xml,很多其他爬虫会保存到excel,sql server,hdfs中。那么我最近做了个工具,可以将xml结果合并,保存到csv中,这样excel就可以打开了。
项目地址:
http://git.yoqi.me/lyq/gooExport
昵称:
邮箱:
网址:
这篇文章还没有评论