部署优质高效的大数据分析平台是企业的愿景,而这背后的门道你知多少?英特尔和金山云帮忙来科普,一起看他们如何联手打造云时代的大数据分析师吧!
大数据时代的到来,令企业用户认识到利用大数据帮助企业进行经营决策的重要性,各企业纷纷着手部署自己的大数据分析平台。但平台部署的复杂度及维护难度却成为企业用户大数据发展的路障。
大数据处理分析的结果将对用户的决策产生直接影响,因此,数据处理过程需要更加实时、稳定和准确,这些都对进行大数据分析处理的动力源平台提出了更高的性能要求。此外,企业的业务变动会带来大数据处理资源需求的频繁变动,无论对于自建系统还是云平台都会造成成本压力,同时也带来资源浪费。
面对挑战,可以快速部署、弹性扩展的金山云KMR产品能提供多种节点配置,弹性增加或减少节点,应对用户多变的业务需求;同时,分钟级集群部署和扩容能力,可以帮助用户快速部署。
围绕KMR,金山云还提供云存储、云主机、关系型数据库等一系列服务,为用户提供延伸服务。同时,KMR通过与其他产品整合,也使用户的运营成本更低,数据可靠性更高。
通过引入英特尔至强处理器E5家族、英特尔固态盘以及英特尔万兆位以太网服务器适配器等产品,KMR产品在处理能力、稳定性等多个性能指标上都拥有卓越表现。而这些优势又如何为企业带来更好的体验呢?
完全托管,集群分钟级快速部署
过去,企业通过自建平台来进行计算、存储、数据处理等工作,这种方式会消耗大量资源在软、硬件维护上。例如,部署一个典型的Hadoop平台,通常需要经历业务评估、设备选型采购、硬件上架调试、操作系统和平台软件安装调试等一系列复杂工作,花费1-3个月的时间。同时,企业在专业维护人员上的缺失也使自建平台在安全性、系统稳定性等方面的表现不尽如人意。因此,很多企业都逐渐将目光转移到云平台上。
尽管如此,向云平台的转移却并不能完全消除用户在部署上遇到的问题,面对不同的业务需求,用户仍需要耗费一定的资源去执行部署和维护的工作。KMR的重要优势,就是能最大程度地帮助用户降低部署的复杂度和运维的工作量。通过采用弹性计算服务 (Kingsoft Elastic Compute,KEC) 构建集群,通常情况下只需几分钟即可自动完成部署工作,用户只需关心数据处理任务本身,而不需要关注硬件和底层系统的运维工作。
性能优化,大数据分析即时响应
大数据分析处理的核心目的是为行为决策提供参考,因此时效性是评价其分析平台能力好坏的重要指标。在一些特殊场景中数据的处理分析速度带来的影响更不容小觑。
英特尔固态盘以及英特尔万兆位以太网服务器适配器的引入,令KMR性能表现卓越。适用于PCIe的英特尔数据中心固态盘可以直接为英特尔至强处理器提供极致的数据吞吐量,在KMR中采用的高性能英特尔以太网聚合网络适配器X520-SR2,针对苛刻的数据中心/云环境提供了高度的灵活性以及可扩展性。
在硬件产品以外,英特尔在各类大数据分析软件库上的贡献也为金山云的性能加速提供了动力。例如英特尔高性能数据分析加速库,包含了基于英特尔平台优化的常用机器学习算法库(如K-Means,LR,PCA等)。在英特尔工程师的协助下,金山云完成了英特尔数据分析加速库的评测。数据分析加速库K-Means算法对应传统的SparkML-Lib算法有近4.6倍性能提升。
生态丰富,弹性服务有效降低TCO
用户数据从产生到最终体现价值,包含收集、存储、分析处理和消费等多个环节,每个环节又有多种多样的需求。除了KMR以外,大数据的处理与分析还需要多种云服务能力的配合。基于金山云丰富的生态环境和良好的开放性,KMR不仅提供了丰富的开源生态组件,还可以和其他云服务产品以及第三方的解决方案无缝集成,共同构建端到端的大数据生态。
以存储为例,KMR提供了金山云KS3(标准存储服务)访问接口。在进行数据处理时,通过内部高速网络直接访问KS3的同时,也可将原始数据统一汇总到这里。KMR集群中运行的MapReduce、Spark等作业就可以直接调用KS3中存储的数据进行计算,并把结果写回到KS3。KS3提供了较低的使用成本和极高的数据可靠性,保证了在集群释放时仍然可以持久地存储原始数据和计算结果。
展望未来,新技术助推更优服务
实践证明,英特尔至强处理器E5产品家族、英特尔固态盘以及英特尔万兆位以太网服务器适配器有助于KMR性能提升,获得更好用户体验。同时,英特尔不断引领的各项大数据开源技术正为大数据处理分析技术的发展提供源源不断的动力。
现在,英特尔开源了基于ApacheSpark的分布式深度学习库BigDL,可以直接运行在金山云一类的Hadoop/Spark集群上,并允许用户编写标准的Spark程序来进行深度学习的训练与预测。
未来,通过提供类似于BigDL的先进技术,英特尔可以帮助金山云的用户在KMR及相关平台上获得数据存储、预处理、分析和深度学习等一站式服务,获得更强劲的大数据分析和处理能力。