陆续做过一些爬虫项目,有空把我的笔记分享下,顺便整理一下。
工具篇:
比较原始,需要处ip代理,爬虫的每个逻辑。在此基础上不断迭代吧。
使用一些底层框架,做起来比较简单。
很多Windows可视化爬虫都是基于这些工具做的,打开一个浏览器,不断执行抓包任务。linux没有可视化界面所以一直在Windows跑爬虫,以至于爬虫云端部署还是需要一个Windows server。
这个在三年前,爬阿里云顶级域名的时候用到过,与其说爬虫,不如说调用接口,解析入库等等。
可定制高,比较好用,网上所有python+urllib的爬虫“教程”都可以通过集搜客几下操作就可以达到要求。。。
有些bug
爬虫项目
1、爬校花网.
http://www.xiaohuar.com 所有图片,以及用户信息,分类保存。
项目开源:http://git.yoqi.me/lyq/crawl-xiaohua
2、爬上海图书馆。
用户的习惯一般都是到图书馆查看有什么书再借,图书馆很多热门书比较紧俏,可能A用户归还后几天后就被借了;有些图书可能放置一年都没人看一眼,资源优化空间很大。图书待在图书馆闲置是一种资源浪费,而用户对书有很高的需求。这个项目就是用户设置需要跟踪的书籍,系统定时爬上海图书馆的在馆书籍,将结果推送给用户。
3、wordpress文章爬虫
4、开放设备爬虫
5、天猫月销售量爬虫
天猫爬虫很难做,一般用户没有登录搜索10个商品就会直接跳转到登录页面,不再返回结果。用户登录了,访问一个有几百个商品的店铺,每访问5个分页时候,就弹出输入验证码阻止访问。
爬淘宝
爬京东
爬微信公众号
爬大众点评网商品
爬拉钩网
爬51job所有职位
爬ele.me所有商户
爬百度网盘所有公开资源
爬身份证挂失网站
博客地址:http://blog.yoqi.me/?p=3586
这篇文章还没有评论