spark | 天问博客

基于Spark与ROS的分布式无人驾驶模拟平台

本文是无人驾驶技术系列的第四篇，着重介绍基于Spark与ROS的分布式无人驾驶模拟平台。无人驾驶的安全性和可靠性是通过海量的功能和性能测试来保证的。无人驾驶系统是一个复杂的系统工程，在它的整个研发流程中，测试工作至关重要同时也繁重复杂。显然将全部测试工作都集中在真车上进行是一种成本异常高昂且安全系数非常...

2017/03/20 spark 0

用Spark分析Amazon的8000万商品评价（内含数据集、代码、论文）

点击上方“云栖社区”可以订阅哦摘要尽管数据科学家经常通过分布式云计算来处理数据，但是即使在一般的笔记本电脑上，只要给出足够的内存，Spark也可以工作正常（在这篇文章中，我使用2016年MacBook Pro / 16GB内存，分配给Spark 8GB内存）。亚马逊的商品评论和评分是一个非常重要...

2017/03/13 spark 0

大数据实时处理实战

作者：武智晖，北京移动网络运行维护中心大数据系统架构师，北京邮电大学软件工程硕士，高级工程师。多年从事系统架构设计，软件开发，运营商大数据分析挖掘工作。随着互联网时代的发展，运营商作为内容传送的管道服务商，在数据领域具有巨大的优势，如何将这些数据转化为价值，越来越被运营商所重视。运营商的大数...

2017/03/08 spark 大数据 0

链家网大数据平台枢纽——工具链

作者：吕毅，链家网平台架构师。目前负责链家网大数据平台，之前曾负责链家网基础服务平台建设。责编：郭芮，关注大数据领域，寻求报道或投稿请联系guorui@csdn.net。声明：本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》。链家网于2015年成立大数据部门，开始构建基于Hadoop的...

2017/01/18 spark 大数据 0

开源|LightGBM：三天内收获GitHub 1000+ 星

【导读】不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM，在三天之内GitHub上被star了1000+次，fork了200+次。知乎上有近千人关注“如何看待微软开源的LightGBM？”问题，被评价为“速度惊人”，“非常有启发”，“支持分布式”，“代码清晰易懂”，“占用内存小”等。本文邀请了微软...

2017/01/06 spark 0

基于Spark的公安大数据实时运维技术实践

本文为《程序员》原创文章，未经允许不得转载，更多精彩请订阅2017年《程序员》。公安行业存在数以万计的前后端设备，前端设备包括相机、检测器及感应器，后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统，数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/S...

2017/01/05 spark 大数据 0

【BDTC 2016】专访中兴飞流吕阿斌、郑龙：Yita，基于数据流的大数据计算引擎

【CSDN现场报道】2016年12月8-10日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办，以“聚焦行业最佳实践，数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。在此次大会的大数据分析与生态系...

2016/12/13 spark 大数据 0

Spark调优经验总结

本文以Spark实践经验和Spark原理为依据，总结了Spark性能调优的一些方法。这些总结基于Spark-1.0.0版本。对于最近推出的Spark-1.1.0版本，本文介绍了几个版本增强。 Spark性能调优 Executor和分区 Executor是一个独立的JVM进程，每个任务会有独立的线程来执行，Executor最大可并发任务数量与其...

2016/11/28 spark 0 2

Spark计算过程分析

Spark是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark延续了Hadoop的MapReduce计算模型，相比之下Spark的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型，其特点是Map...

2016/11/28 spark 0

天问的个人博客

专注前沿科技