`

Spark简介

 
阅读更多
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。

在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天,能够满足上文提到的需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术,就是Apache Spark。从能源产业到金融行业,Spark凭借其高效性与多功能性已经成为当今大数据处理栈中的关键部分。

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算,在函数式编程中与Hadoop相比更具生产力。例如,如图1所示,在逻辑回归算法性能测试中,Spark内存计算下的运行比Hadoop MapReduce快了几个数量级的速度。



图1:逻辑回归算法性能测试。图片来源:Apache Spark,使用已经过授权。

其中Spark的一些特性包括:
它利用分布式内存进行计算。
它支持完整的用有向无环图(DAG)来展示数据的并行计算。
它可以提高开发人员的经验。
它提供了线性可伸缩性与数据本地化。
它具有容错机制。

Spark为各种不同的用户提供着便利:信息技术开发人员可以受益于Spark支持各种流行的开发语言,例如Java、Python、R语言;而数据科学家可以在Spark支持的机器学习(ML)库中获得研究便利。

在Spark中还有一个庞大且不断增长的第三方包列表,将各式各样的工具、环境、框架、语言整合到一起,从而扩展Spark的复杂性以及能力。

Spark用例可以部署在不同的生产场景中,其中包括在一个大型技术公司中运用Spark通过使用机器学习来进行个性化搜索;在一个金融系统中仅需数小时便可以处理数以百万计的股票分析,要知道相同的工作量下此前使用Hadoop MapReduce起码得耗费一周的时间;在学术环境中进行基因科学研究;在视频系统中,Spark与Spark Streaming被用于处理流媒体及其分析;以及卫生保健领域中Spark被用于进行疾病的预测建模。

如此看来似乎各式各样不同的问题都能通过Spark成功地被解决,但是最重要的是我们仍需要不断去优化Spark的架构,以处理任何所提及到的用例。正如Spark拥有强大的特性,简而言之,这也意味着它的复杂性。因此,为了获得最佳性能的Spark,它需要成为一个更广泛的Hadoop基础数据管理平台的重要组成部分。此外,为了能在实时或者预测分析中得到更大收益,那么优化整个数据供应链也是至关重要的。
分享到:
评论

相关推荐

    Spark简介以及其生态圈

    Spark简介以及其生态圈。Spark运行架构原理,让大家快速的理解与掌握Spark

    2_Hadoop与Spark简介.pptx

    2_Hadoop与Spark简介.pptx

    大数据学习笔记

    1.1 Spark简介与发展 7 1.2 Spark特点 7 1.3 Spark与Hadoop集成 7 1.4 Spark组件 8 第2章 Spark弹性分布数据集 9 2.1 弹性分布式数据集 9 2.2 MapReduce数据分享效率低 9 2.3 MapReduce进行迭代操作 9 2.4 MapReduce...

    spark简介及使用

    介绍Spark集群计算框架,及运行于Spark框架上的Hive工具Shark。

    storm与spark简介

    写得比较简单,供初学者参考参考

    spark简介及应用.pdf

    Spark是一个基于内存计算的开源大数据处理框架,它的出现彻底改变了大数据处理和分析的格局。Spark提供了高效、快速且易于使用的工具,使得数据科学家、数据工程师和开发人员能够轻松处理和分析大规模数据集。下面将...

    Spark总结PPT

    Spark总结PPT介绍spark常用的方法,shuffle,优化方法等

    Spark大数据处理

    第1章 Spark简介 1.1 Spark是什么 1.2 Spark生态系统BDAS 1.3 Spark架构 1.4 Spark分布式架构与单机多核架构的异同 1.5 Spark的企业级应用 1.5.1 Spark在Amazon中的应用 1.5.2 Spark在Yahoo!的应用 1.5.3 Spark在...

    (1)Spark简介

    从bigdatastudy.cn下载的讲义

    Python大数据之Spark编程基础与提升视频课程课件PPT模板.pptx

    第1章spark入门 1-1spark简介和启动方法spark简介和启动方法 1-2【案例】使用spark分析商品数据【案例】使用spark分析商品数据 1-3【案例】使用spark交互式分析商品数据【案例】使用spark交互式分析商品数据 1-2...

    fangyeqing#BigData-Notes#Spark简介1

    一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apach

    Spark-Core学习知识笔记整理

    第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark历史 4 4 BDAS生态系统 4 5 Spark与Hadoop的差异 5 6 Spark的适用场景 6 7 Spark成功案例 6 第二章 Spark开发环境搭建 8 1 Spark运行模式 8 2...

    Spark-Fundamentals:Spark基础知识I-Spark简介

    星火基础 Spark基础知识I-Spark简介

    Spark 编程基础(Scala 版)-机房上机实验指南

    Spark简介:介绍Spark的起源、核心概念、架构以及与其他大数据处理框架(如Hadoop MapReduce)的比较。 Scala语言基础:由于Spark最初是使用Scala开发的,本书将详细介绍Scala的基础知识,包括语法、数据类型、控制...

    一个关于spark介绍的PDF文件

    关于spark的介绍,可以作为初步的了解

    8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf

    1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战....

    Spark学习笔记一

    Spark简介spark的四大特性 Speed Ease of Use Generality Runs Everywhere

    IT十八掌_Spark阶段学习笔记(Spark+Mahout+机器学习)

    IT十八掌第三期大数据配套...1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame 7.深入Spark Streaming 8.Spark MLlib与机器学习 9.GraphX与SparkR 10.mahout

Global site tag (gtag.js) - Google Analytics