我的爬虫项目

发表于项目 2017-07-14 16:04 阅读量: 2,131

陆续做过一些爬虫项目，有空把我的笔记分享下，顺便整理一下。

工具篇：

比较原始，需要处ip代理，爬虫的每个逻辑。在此基础上不断迭代吧。

使用一些底层框架，做起来比较简单。

很多Windows可视化爬虫都是基于这些工具做的，打开一个浏览器，不断执行抓包任务。linux没有可视化界面所以一直在Windows跑爬虫，以至于爬虫云端部署还是需要一个Windows server。

这个在三年前，爬阿里云顶级域名的时候用到过，与其说爬虫，不如说调用接口，解析入库等等。

可定制高，比较好用，网上所有python+urllib的爬虫“教程”都可以通过集搜客几下操作就可以达到要求。。。

有些bug

爬虫项目

1、爬校花网.

http://www.xiaohuar.com 所有图片，以及用户信息，分类保存。

2、爬上海图书馆。

用户的习惯一般都是到图书馆查看有什么书再借，图书馆很多热门书比较紧俏，可能A用户归还后几天后就被借了；有些图书可能放置一年都没人看一眼，资源优化空间很大。图书待在图书馆闲置是一种资源浪费，而用户对书有很高的需求。这个项目就是用户设置需要跟踪的书籍，系统定时爬上海图书馆的在馆书籍，将结果推送给用户。

3、wordpress文章爬虫

4、开放设备爬虫

5、天猫月销售量爬虫

天猫爬虫很难做，一般用户没有登录搜索10个商品就会直接跳转到登录页面，不再返回结果。用户登录了，访问一个有几百个商品的店铺，每访问5个分页时候，就弹出输入验证码阻止访问。

爬淘宝

爬京东

爬微信公众号

爬大众点评网商品

爬拉钩网

爬51job所有职位

爬ele.me所有商户

爬百度网盘所有公开资源

爬身份证挂失网站

博客地址：http://blog.yoqi.me/?p=3586

这篇文章还没有评论