精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

【豐沃創(chuàng )新】大數據 Spark都有什么性能特點(diǎn)呢?

  • 發(fā)布時(shí)間: 2018-3-19 10:04:08

一.大數據Spark是什么

Spark 是一種與 Hadoop 相似的開(kāi)源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優(yōu)越,換句話(huà)說(shuō),Spark 啟用了內存分布數據集,除了能夠提供交互式查詢(xún)外,它還可以?xún)?yōu)化迭代工作負載。

Spark 是在 Scala 語(yǔ)言中實(shí)現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

二.大數據Spark有什么特點(diǎn)

Spark 主要有三個(gè)特點(diǎn):

首先,高級 API 剝離了對集群本身的關(guān)注,Spark 應用開(kāi)發(fā)者可以專(zhuān)注于應用所要做的計算本身。

其次,Spark 很快,支持交互式計算和復雜算法。

最后,Spark 是一個(gè)通用引擎,可用它來(lái)完成各種各樣的運算,包括 SQL 查詢(xún)、文本處理、機器學(xué)習等,而在 Spark 出現之前,我們一般需要學(xué)習各種各樣的引擎來(lái)分別處理這些需求。

三.大數據Spark有什么作用

Apache Spark 是專(zhuān)為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗室)所開(kāi)源的類(lèi)Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫(xiě)HDFS,因此Spark能更好地適用于數據挖掘與機器學(xué)習等需要迭代的MapReduce的算法。

大數據Spark都有什么性能特點(diǎn)呢?

1.更快的速度:內存計算下,Spark 比 Hadoop 快100倍。

2.易用性:Spark 提供了80多個(gè)高級運算符。

3.通用性:Spark 提供了大量的庫,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。 開(kāi)發(fā)者可以在同一個(gè)應用程序中無(wú)縫組合使用這些庫。

4.支持多種資源管理器:Spark 支持 Hadoop YARN,Apache Mesos,及其自帶的獨立集群管理器。

四.大數據Spark的原理

Spark Streaming:構建在Spark上處理Stream數據的框架,基本的原理是將Stream數據分成小的時(shí)間片斷(幾秒),以類(lèi)似batch批量處理的方式來(lái)處理這小部分數據。Spark Streaming構建在Spark上,一方面是因為Spark的低延遲執行引擎(100ms+),雖然比不上專(zhuān)門(mén)的流式數據處理軟件,也可以用于實(shí)時(shí)計算,另一方面相比基于Record的其它處理框架(如Storm),一部分窄依賴(lài)的RDD數據集可以從源數據重新計算達到容錯處理目的。此外小批量處理的方式使得它可以同時(shí)兼容批量和實(shí)時(shí)數據處理的邏輯和算法。方便了一些需要歷史數據和實(shí)時(shí)數據聯(lián)合分析的特定應用場(chǎng)合。

精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影