精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

大數據工具有哪些?

  • 發(fā)布時(shí)間: 2018-3-19 10:13:39

大數據工具是什么?

顧名思義,大數據工具就是用戶(hù)大數據工作的工具統稱(chēng),比如從事大數據開(kāi)發(fā)工作會(huì )用到j(luò )ava、hadoop、spark、storm、es等,而從事大數據可視化工作需要很多的數據可視化工具,比如echarts、samrtbi、tableau、D3.js等,大數據工作人員利用這些工具來(lái)進(jìn)行日常的大數據工作。

下面我們來(lái)介紹一些大數據工作中用到的工具。

1. Hivemall

Hivemall結合了面向Hive的多種機器學(xué)習算法。它包括諸多高度擴展性算法,可用于數據分類(lèi)、遞歸、推薦、k最近鄰、異常檢測和特征哈希。

支持的操作系統:與操作系統無(wú)關(guān)。

Hivemall官網(wǎng)鏈接:https://github.com/myui/hivemall

2. Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一個(gè)開(kāi)源項目,提供一些可擴展的機器學(xué)習領(lǐng)域經(jīng)典算法的實(shí)現,旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng )建智能應用程序。Mahout包含許多實(shí)現,包括聚類(lèi)、分類(lèi)、推薦過(guò)濾、頻繁子項挖掘。此外,通過(guò)使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。

Mahout官網(wǎng)地址:http://mahout.apache.org/

3. MapReduce

MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數式編程語(yǔ)言里借來(lái)的,還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì )分布式并行編程的情況下,將自己的程序運行在分布式系統上。

MapReduce相關(guān)文檔:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

4. Oozie

Oozie是一種Java Web應用程序,它運行在Java servlet容器——即Tomcat——中,并使用數據庫來(lái)存儲以下內容:

● 工作流定義

● 當前運行的工作流實(shí)例,包括實(shí)例的狀態(tài)和變量

Oozie官網(wǎng)地址:http://oozie.apache.org/

5. Pig

Pig是一種數據流語(yǔ)言和運行環(huán)境,用于檢索非常大的數據集。為大型數據集的處理提供了一個(gè)更高層次的抽象。Pig包括兩部分:一是用于描述數據流的語(yǔ)言,稱(chēng)為Pig Latin;二是用于運行Pig Latin程序的執行環(huán)境。

Pig官網(wǎng)地址:http://pig.apache.org/

6. Sqoop

Sqoop(發(fā)音:skup)是一款開(kāi)源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進(jìn)行數據的傳遞,可以將一個(gè)關(guān)系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進(jìn)到Hadoop的HDFS中,也可以將HDFS的數據導進(jìn)到關(guān)系型數據庫中。

Sqoop官網(wǎng)地址:http://sqoop.apache.org/

Sqoop相關(guān)文檔:http://sqoop.apache.org/docs/1.4.5/index.html

7. Spark

Spark 是一種與 Hadoop 相似的開(kāi)源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優(yōu)越,換句話(huà)說(shuō),Spark 啟用了內存分布數據集,除了能夠提供交互式查詢(xún)外,它還可以?xún)?yōu)化迭代工作負載。

Spark官網(wǎng)地址:http://spark.apache.org/

8. Tez

Tez建立在A(yíng)pache Hadoop YARN的基礎上,這是“一種應用程序框架,允許為任務(wù)構建一種復雜的有向無(wú)環(huán)圖,以便處理數據!彼孒ive和Pig可以簡(jiǎn)化復雜的任務(wù),而這些任務(wù)原本需要多個(gè)步驟才能完成。

支持的操作系統:Windows、Linux和OS X。

Tez官網(wǎng)鏈接:http://tez.apache.org

9. Zookeeper

ZooKeeper是一個(gè)分布式的,開(kāi)放源碼的分布式應用程序協(xié)調服務(wù),是Google的Chubby一個(gè)開(kāi)源的實(shí)現,是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應用提供一致性服務(wù)的軟件,提供的功能包括:配置維護、域名服務(wù)、分布式同步、組服務(wù)等。

Zookeeper官網(wǎng):http://zookeeper.apache.org/


精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影