天问

我的爬虫项目

陆续做过一些爬虫项目,有空把我的笔记分享下,顺便整理一下。

 

工具篇:

  • 1、python+urllib/urllib2/urllib3

比较原始,需要处ip代理,爬虫的每个逻辑。在此基础上不断迭代吧。

  • 2、python+scrapy/pyspider

使用一些底层框架,做起来比较简单。

  • 3、python+SplinterSplinter/PhantomJs/Selenium

很多Windows可视化爬虫都是基于这些工具做的,打开一个浏览器,不断执行抓包任务。linux没有可视化界面所以一直在Windows跑爬虫,以至于爬虫云端部署还是需要一个Windows server。

  • 4、java+

这个在三年前,爬阿里云顶级域名的时候用到过,与其说爬虫,不如说调用接口,解析入库等等。

  • 5、集搜客+自定义规则

可定制高,比较好用,网上所有python+urllib的爬虫“教程”都可以通过集搜客几下操作就可以达到要求。。。

  • 6、php+Snoopy.class.php

有些bug

  • 7、php+curl/file_get_contents

 

爬虫项目

1、爬校花网.

http://www.xiaohuar.com 所有图片,以及用户信息,分类保存。

项目开源:http://git.yoqi.me/lyq/crawl-xiaohua

2、爬上海图书馆。

用户的习惯一般都是到图书馆查看有什么书再借,图书馆很多热门书比较紧俏,可能A用户归还后几天后就被借了;有些图书可能放置一年都没人看一眼,资源优化空间很大。图书待在图书馆闲置是一种资源浪费,而用户对书有很高的需求。这个项目就是用户设置需要跟踪的书籍,系统定时爬上海图书馆的在馆书籍,将结果推送给用户。

3、wordpress文章爬虫

 

4、开放设备爬虫

 

5、天猫月销售量爬虫

天猫爬虫很难做,一般用户没有登录搜索10个商品就会直接跳转到登录页面,不再返回结果。用户登录了,访问一个有几百个商品的店铺,每访问5个分页时候,就弹出输入验证码阻止访问。

 

爬淘宝

 

爬京东

 

爬微信公众号

 

爬大众点评网商品

 

爬拉钩网

 

爬51job所有职位

 

爬ele.me所有商户

 

爬百度网盘所有公开资源

 

爬身份证挂失网站

 

博客地址:http://blog.yoqi.me/?p=3586
扫我捐助哦
喜欢 4

这篇文章还没有评论

发表评论