接触很多资源都是提供百度云分享,于是专门研究了一下百度云盘相关的技术知识。
去年就看到一些网站提供了百度云盘搜索服务。分享链接爬虫原理:
1、抓取种子链接,通过http://yun.baidu.com/pcloud/friend/getfollowlist 获取用户订阅的列表,比如可以抓取到A用户订阅了一些B,C用户的分享。这样就可以把A用户所有分享链接获取,同时获取B,C用户的分享链接。
2、抓取二级链接,B,C用户又订阅了C,D,E用户的分享,这样既可以递归获取A,B,C,D,E所有用户的分享。
3、此外,http://pan.baidu.com/pcloud/friend/getfanslist 链接可以获取用户粉丝,一些用户只分享不订阅,通过这个链接,可以获取到一些偏门的资源。
注意:目前百度已经下架了这两个功能,打开任何链接都无法获取到用户的分享。
我之前开过一段时间的百度云VIP,用起来还不错,最大好处就是解除了限速。但是最近总有时不时的大文件下载需求(视频资源)。一直开着百度云有感觉不划算。于是继续找了一些相关技术,并比较挑选了最优下载方案goagent+proxyee-down
下载后Chrome安装,goagent是一个http代理插件,添加一个情景模式,设置本地指定应用代理:127.0.0.1 9999.那么,接下来proxyee-down就会监听这个端口,遇到goagent发出的代理请求,打开相关链接多线程下载即可。
这是一个开源的项目,需要导入Windows证书,开始还有点不放心。检查了下相关代码,也没有流量异常的情况,果断信任了这个软件,同时由于本机已经安装好了jdk,所以就自编译了一遍,去掉了jdk包,原来370M大小一下子就只有30M大小了,这下算完美了。。
(1)百度云盘搜索相关项目
略
(2)goagent+proxyee-down实现百度云盘加速下载:
链接: https://pan.baidu.com/s/14fOGxi9KVeMX7NL0tZhv9Q 密码: y46p
博客地址:http://blog.yoqi.me/?p=4378
这篇文章还没有评论