天问

Hadoop 技术面面观(下)


四、Hadoop 数据安全的十大措施

Dataguise 最近发布了 Hadoop 十大数据安全措施,内容涵盖隐私风险、数据管理和信息安全等,可以帮助专业人士降低大数据应用的潜在数据泄漏和政策违规等风险。

大数据分析向来伴随着隐私话题和争议,在大数据分析中的海量数据里,难免会出现姓名、地址和身份号码等个人隐私信息 PII (Personally Identifiable Information)。而大量金融数据中类似信用卡和银行账户号码中难免也会携带上述个人信息,对这些数据的访问将引起极大的争议。

以下是 Dataguise 给出的 Hadoop 项目实施的最佳安全实践,尤其对项目初期的规划阶段有重要参考价值:

1、数据隐私措施越早越好。在规划阶段就明确数据隐私保护策略,最好在将数据导入 Hadoop 之前完成,这可以防患未然。

2、明确你所在企业中哪些数据元素属于敏感数据。充分考虑企业的隐私政策,相关行业规定和政府法规。

3、审视分析环境和装配 Hadoop 系统的过程中是否藏有/夹带敏感数据。

4、收集足够信息来明确合规风险。

5、明确业务分析是否需要访问真实数据,或“脱敏”数据能否使用。然后选择合适的敏感信息遮挡和加密等矫正技术 (masking or encryption)。遮挡 (masking) 技术提供最好的安全性能,而加密则更具灵活性,视将来的需要而定。

6、确保数据保护方案能够同时支持遮挡和加密两种数据矫正技术,尤其是当需要将经过遮挡处理和未经遮挡的两个版本的数据分别存放于不同的 Hadoop 目录下的时候。

7、确保数据保护技术对所有数据文件提供一致的 masking 方式,这样可以保证在各个数据汇聚维度上的分析的准确性。

8、确定特定数据集是否需要定制的保护方案,出于数据单元安全管理的需要,可以考虑将 Hadoop 目录划分成更小的群组。

9、确保你选择的加密方案与企业的访问控制技术能够互操作,这样特定级别和身份的用户只能访问 Hadoop 集群中特定的数据范围。

10、当需要使用加密技术的时候,确保部署合适的技术(Java、Pig 等)实现无缝加密,同时确保对数据的无障碍访问。

通过及早启动并建立敏感数据预案,企业能尽早发现 Hadoop 环境中的敏感数据,分析合规风险并合理采用数据保护技术,这不但能大大降低数据泄漏和合规风险,还能提高大数据项目的投资回报。

五、Hadoop 生态系统链

1、Hadoop 生态系统 8 个环节

Hadoop 如今已经成为大数据领域的代名词。围绕 Hadoop 产品技术已经形成软件、应用、服务的综合体,即生态系统。Hadoop 生态系统就像一颗年轻的超新星,随时都在快速分化和增长,新产品、新模式不断涌现。

GigaOM 最近制作了一张 Hadoop 生态系统地图,按照不同的应用场景和交付模式,将 Hadoop 生态系统的厂商和产品划分为六大层面和八类玩家:

1.版本发行商

2.第三方管理软件提供商

3.Hadoop 基础功能扩展厂商(例如 SQL on Hadoop)

4.Hadoop 打包服务商(例如 Oracle、惠普等公司的大数据一体机产品或者整合入现有的产品套件,此类厂商并未开发 Hadoop 层面的技术,而是直接采用 Hortonworks 和 Cloudera 等公司的现成的发行版本)

5.Hadoop 基础设施提供商

6.Hadoop 应用开发商

7.Hadoop 分析应用平台服务商

8.Hadoop 竞争平台、HDFS 替代产品提供商

Hadoop 生态系统地图中的亮点信息还包括:

● SQL-on-Hadoop 是最近的热点,这个领域的厂商和企业希望能在全新的数据平台上提供类似传统数据仓库的体验,在 Hadoop 应用领域也存在类似的热点。

● Hadoop 版本发行依然是最稳定的和利润最丰厚的 Hadoop 市场领域,参与其中的都是大公司或者有大量投资支撑的创业公司。

2、企业级 Hadoop 供应商 vendors

免费开源应用程序 Apache Hadoop 可供企业 IT 部门下载、使用和根据其需要进行改变。而受支持的企业版本 Hadoop 则是更好更实际的选择。

以下是一些 Hadoop 主要供应商,这些供应商可以帮助你的公司开始享受 Hadoop 的优势,有些供应商提供内部部署软件包,有些供应商还销售云端 Hadoop,还有刚刚出现的 Hadoop 数据库设备,包括最近宣布合作的 Oracle 和 Cloudera

● Amazon 提供的 Amazon Elastic MapReduce,运行在 Amazon 的弹性云以及 Simple Storage 服务中的托管 Hadoop 框架

● Cloudera 公司的 Enterprise 订阅服务

● 使用 Hadoop 的 Datameer Analytics Solution

● DataStax Enterprise Hadoop 软件

● EMC 分公司 Greenplum 公司提供的 Greenplum HD Enterprise-Ready Apache Hadoop

● Hortonworks 数据平台

● BigInsights,基于 Hadoop 的来自 IBM 的非结构化数据云服务

● Karmasphere Analyst, 使用 Hadoop 帮助生成数据的工具包

● MapR 提供的企业级 Hadoop 软件 M5 版本

以上只是列出了一些提供企业级 Hadoop 产品和服务的供应商,随着 Hadoop 在数据市场上关注度的提升,供应商的数量还将增加。

六、Hadoop应用案例


2013 年初,先是 Hortworks 和微软宣布推出 Windows 版 Hadoop,无缝整合 SQL Server 和 Hadoop;随后 2 月 26 日 EMC Greenplum 推出全新的 Hadoop 版本——Pivotal HD,将旗舰 SQL 数据库 MPP 与 Hadoop 嫁接,EMC 还在发布会上宣称公司“全部的力量都集中在 Hadoop上 ”;紧接着第二天 2 月 27 日英特尔宣布推出自己的第一个 Apache Hadoop 发行版本以及 Hadoop 管理工具。

目前 Hadoop 发行市场四家创业公司:Hortonworks、WANdisco、MapR 和 Cloudera,以及两大 IT 行业巨头:EMC 和英特尔。

1、当红酒遇上大数据

美国加州的初创公司 VinEno 近日推出了一个基于大量用户偏好数据分析的红酒推荐引擎。它使用 Hadoop 来存储和分析数千万的用户“签到”, VinEno 的 App 叫 Vinspin,可以向高帅富们推荐新的红酒, 而 Foursquare 则可以推荐到哪儿能喝一杯。品酒师对能够品出红酒中每种成分的味道,VinEno 对大量品酒师的数据进行了收集,此外,它还建立了一套针对不同红酒的属性数据库, 在此基础上, 它采用了推荐引擎技术。

对 VinEno 来说, 最关键的是要判断用户说的和他们真实的想法是否一致, 当用户到红酒店时, 他们会说,我想要“果”酒, 而你看他的数据,你就会发现, 他其实想要的并不是“果”酒, 而是“甜”酒。

当然, 实际上 Vinspin 不需要这么麻烦, 用户只需要告诉说喜欢某种红酒, 比如说拉菲, 算法就可以根据拉菲的特征属性,对产品进行排序,从而推荐一些类似的其他红酒。

2、沃尔玛实验室准备开源其大数据工具

沃尔玛实验室 (Walmart Labs) 正着手将沃尔玛旗下的 10 个网站整合成一个,同时将目前试点的 10 个节点的 Hadoop 集群扩展到 250 个节点。沃尔玛曾在 2011 年收购创业公司 Kosmix,该公司的社交媒体语义分析技术非常优秀,能够搜索并分析实时数据之间的关系,可以被用来向消费者提供个性化的商品推荐。收购 Kosmix 意味着沃尔玛正式进入了 Facebook 和 twitter 为代表的大数据世界,其规模远远超过沃尔玛信息系统日常产生和处理的数据,向大数据技术迁移成为沃尔玛唯一选择。

3、Hadoop 云服务 Altiscale

最近,Stata 创办的 Hadoop 创业公司 Altiscale 募集了 1200 万美元 A 轮融资。Stata 曾亲手将 Hadoop 从一个小微项目打造成一个规模可达 42000 个节点的大型生产系统,而 Altiscale 能够从硬件到网络各个方面为特定的 Hadoop 任务优化,从而打造出一个全新的 Hadoop 云服务模式:HaaS (Hadoop as a Service)。

Altiscale 虽然是一种托管服务,但并不是人们想象中的那种云服务。例如,Altiscale 并不是按小时收费,Stata 认为 Hadoop 在线服务适合按月收费,因为了解 Hadoop 的企业通常了解他们的基础需求(而不是像采用公有云服务产生较大的负载波动),而且客户偶尔的空间超额也不会另外计费。

目前,用户可以通过 SSH 登录 Altiscale 的“桌面环境”(其实是托管在亚马逊 AWS 上的服务)来访问各种 Hadoop 工具,例如 MapReduceHivePig 和 Flume,以及数据科学工具如 R

Stata 认为目前的 hadoop 设计偏重大规模任务,Altiscale 也主要是面向有经验的 Hadoop 用户,目前还无暇顾及那些刚刚开始使用 Hadoop 的用户。

如今又很多公司使用 Hadoop 运行传统的企业数据仓库任务,或者与现有的 IT 环境进行深度集成,但是 Altiscale 的 Hadoop 云服务面向新的数据难题,例如在线广告、智能电网数据、物流数据分析等,这些数据分析场景中,传感器或者机器产生的大量数据直接被灌入 Hadoop。

4、英特尔:Hadoop 生态的牧羊犬

很多人都知道英特尔是全球最大的芯片厂商,其实英特尔也是全球第七大软件厂商,因此英特尔涉足大数据软件市场的消息并不令人吃惊。此番英特尔借助 Hadoop 进军大数据市场主打的是性能牌。作为针对 Cloudera 和 Hortonworks 等 Hadoop 发行商的竞争策略,英特尔的 Hadoop 方案主打的是性能牌。

英特尔是首个将大数据与 SSD 固态存储技术整合起来的 Hadoop 发行商,此外英特尔还改写了 Hadoop 框架,使其支持 Xeon 升级运算加密指令集 AES-NS,一方面提高数据运算速度,还能在数据存储到 HBase 的过程中使用芯片原生的加密功能。英特尔还宣称通过改写 HDFS、MapReduce 和 HBase 将 SQL 指令的查询速度提升了 8.5 倍。

英特尔的 Hadoop 战略并非是要击败竞争对手一家独大,而是通过技术创新和性能优化对其他大数据发行商施加压力,推动企业级大数据方案的成熟,进而推动 Hadoop 总体市场规模的成长,由于所有的 Hadoop 发行版都运行在英特尔的硬件架构上,因此 Hadoop 生态的繁荣最终对英特尔有利。如果把 Hadoop 发行商比作羊群,英特尔更多扮演的是牧羊犬的角色。 

5、其他

Concurrent 公司的一个部门负责收集和存储关于视频的客户统计数据,这也是 Hadoop 发挥作用的地方。有的客户一个月要生成和保存 30 亿数据记录,预计将达到一个月 100 亿数据记录。

过去,Concurrent 公司面对的两个主要局限是:传统关系型数据库无法处理非结构化数据如视频,并且需要处理和存储的数据量成倍增长。客户想要保存数据四到五年,当他们每天产生 1PB 数据时,这将是一个大数据问题。

为了对比,该公司使用传统数据库进行了相同的测试,发现 Hadoop 的主要优势之一在于它可以方便快捷地根据需要增加额外的硬件,而不需要额外的授权费用,因为它是开源产品。

Hadoop 并没有取代该公司的传统关系型数据库,包括 MySQLPostgreSQL 和 Oracle。使用 Hadoop 来完成繁重的工作,例如大规模数据处理。然后使用 Hadoop 内的 Map/Reduce 来创建汇总数据,这种数据能够通过传统 RDBMS 来查看。

eBay 使用 Hadoop 完成了一些非常了不起的事情,包括对商品陈列、用户体验和用户使用网站的方式的改善等。大多数客户使用 Hadoop 添加到其他类型的软件上,而不是取代其他软件。例如,eBay 仍然在使用关系型数据库,并需要处理大量自定义数据库工作。在 eBay,发现了使用多种技术来处理数据的价值。Hadoop 对于某些目的而言,是一个非常好的选择,而对于其他目的,其他技术更加适用。

生命科学和基因组公司 NextBio 公司是另一个 Hadoop 用户。

EMC Greenplum 推出的 Hadoop 发行版 Pivotal HD

七、Hadoop 的发展之路


1、Hadoop 之路

Hadoop 诞生已经 7 年了,但是 Hadoop 在企业中的应用还有很长的路要走。451 研究所的分析师 Matt Aslett 在 Hadoop 峰会上的演讲指出,企业采用 Hadoop 需要经历三个发展阶段,从一开始用来存储海量数据,到对数据进行处理和转换,到最终开始分析这些数据。我们还处于 Hadoop 市场和技术生命周期的早期阶段,Rainstor 的调查显示,即使是最高级的 Hadoop 用户,也认为 Hadoop 最大的挑战是时间 (26%) 和编程 (25%)。根据 Gartner 的调查,目前只有 6% 的企业开始部署大数据项目,企业还需要更多成功案例指路,同时也需要更多时间消化相关技术。

根据 IDC 发布的 Hadoop-MapReduce 软件生态系统预测报告,Hadoop 的流行其实与数据分析无关。实际上大多数采用 Hadoop 的公司都没有将 Hadoop 用于大数据分析,而是把 Hadoop 作为一种廉价的海量存储和 ETL(抽取、转换、加载)系统。

目前确实有个别企业将 Hadoop 用于运行分析工作。Cloudera 曾提出 Hadoop 的三大应用模式:Transform、Active Archive 和 Exploration,业内人士分析目前至少有 75% 的部署 Hadoop 的企业还都只是停留在前两个模式中:将 Hadoop 作为廉价的 ETL 方案,或者用作垃圾数据填埋场(编者注:离线历史数据仓库,存储海量的价值较低的历史数据,例如淘宝光棍节的交易数据)。

2、Hadoop 的发展趋势

大数据的顶级工具包括 Hadoop-Hive,Hadoop-Hbase,Cassandra 和 MongoDB 等。Jaspersoft 根据下载量和 BI 接口数据统计制作了一份关于大数据指数的信息图,统计了 2011 年全年大数据工具排名。

2012 年加州 Hadoop 峰会上,开源 BI 提供商 Jasppersoft 发布了今年 2012Q2 大数据指数报告(存储、分析、虚拟化),报告的数据来自 JasperForge 社区。

根据 Gartner 不久前公布的数据,Hadoop 是 2011-2012 年间 Gartner 网站搜索量最大的关键词,过去 12 个月增长了 601%。Gartner 对 Hadoop 关键词搜索的分析结果还包括:

● 27% 的查询来自银行、金融保险,制造业紧随其后 (14%),以及政府 (13%)、服务业 (10%) 和医疗业 (8%)。

● 北美地区 (75.9%),欧洲、中东和非洲地区 (13.5%) 是查询量最大的两个地域。

以下是 Gartner 网站的 Hadoop 搜索分析数据:

CIO 们开始认真考虑采用 Hadoop 来快速低成本、低风险实现大数据分析。

Hadoop 加速进入企业应用领域对于 CRM(客户关系管理),分析和商业智能是 CRM 与业务的核心纽带。Hadoop 能让非结构化数据的价值得到发挥,同时从财务表现、利润和客户价值周期等多个方面提供深入的用户报告。

下面这张技术名词流行周期表有助于我们理解 Hadoop 和大数据发展速度。大数据和极限信息管理技术正在进入技术过热期。

3、Hadoop 的未来NoSQL 的未来是 SQL

将 SQL 与 Hadoop 整合是大数据厂商们致力解决的一个重要议题。SQL 与 Hadoop 的整合取得了重大突破,包括 Hadapt、Greenplum、Concurrent、Coudera、Hortonworks 和 Teradata Aster 都已经能够提供面向 Hadoop 等 NoSQL 数据库的 SQL 功能。而不久之前 Hortworks 和微软推出 Windows 版 Hadoop 以及 EMC Greenplum 推出的 Hadoop 发行版 Pivotal HD 则代表着 Hadoop 与 SQL 整合的最新阶段。

通过向 Hadoop 以及其他 NoSQL 数据提供 SQL 或类 SQL 界面工具,大数据厂商们正在不断降低企业使用 Hadoop 技术的门槛。而作为 SQL 颠覆者的 NoSQL,最终进入企业市场赚取真金白银时,依然需要“SQL 化”,这多少有些讽刺意味。

总结:本文整理 Hadoop 相关信息比较丰富,读者可以从本文中较为全面的了解相关知识。对于文中的不足和问题,欢迎讨论。


想看上篇的点这里:Hadoop 技术面面观(上)

 作者简介 


吕林军

华为中央研究院规划部

高级规划工程师

1998 年中国科技大学教学改革试点班数学物理专业毕业,而后进入华为开始 15 年之久的研发工作。参与通信协议研究和开发,从事过网络处理器(2100 搜索引擎,3400),DSP(TI 公司 54x,6000 系列)的应用开发,对芯片实现方面有一定的基础。个人擅长物理层,算法和系统协议分析工作。

往期精华文章  

微信公众号中回复数字查看更多精华文章:


回复【1】:技术干货

回复【2】:程序员幽默世界

回复【3】:物联网江湖

回复【4】:华为招聘

回复【5】:HDG 视频+PPT 汇总

回复【6】:华为开发者大赛获奖作品展示

博客地址:http://blog.yoqi.me/?p=2529
扫我捐助哦
喜欢 2

这篇文章还没有评论

发表评论