人們在提到大數據遇到了很多相關(guān)概念上的問(wèn)題,比如云計算、 Hadoop等等。那么,大
大數據概念早在1980年,著(zhù)名未來(lái)學(xué)家阿爾文·托夫勒提出的概念。2009年美國互聯(lián)網(wǎng)數據中心證實(shí)大數據時(shí)代的來(lái)臨。隨著(zhù)谷歌MapReduce和 GoogleFile System (GFS)的發(fā)布,大數據不再僅用來(lái)描述大量的數據,還涵蓋了處理數據的速度。目前定義:大數據(big data),或稱(chēng)巨量資料,指的是所涉及的資料量規模巨大到無(wú)法透過(guò)目前主流軟件工具在合理時(shí)間內獲取、管理、處理、并整理為幫助企業(yè)經(jīng)營(yíng)決策。
大數據目前分為四大塊:大數據技術(shù)、大數據工程、大數據科學(xué)和大數據應用。其中云計算是屬于大數據技術(shù)的范疇,是一種通過(guò)Internet以服務(wù) 的方式提供動(dòng)態(tài)可伸縮的虛擬化的資源的計算模式。那么這種計算模式如何實(shí)現呢,Hadoop的來(lái)臨解決了這個(gè)問(wèn)題,Hadoop是Apache(阿帕切) 的一個(gè)開(kāi)源項目,它是一個(gè)對大量數據進(jìn)行分布式處理的軟件架構,在這個(gè)架構下組織的成員HDFS(Hadoop分布式文件系統),MapReduce、 Hbase 、Zookeeper(一個(gè)針對大型分布式系統的可靠協(xié)調系統),hive(基于Hadoop的一個(gè)數據倉庫工具)等。
1.云計算屬于大數據中的大數據技術(shù)范疇。
2.云計算包含大數據。
3.云和大數據是兩個(gè)領(lǐng)域。
云計算是指利用由大量計算節點(diǎn)構成的可動(dòng)態(tài)調整的虛擬化計算資源,通過(guò)并行化和分布式計算技術(shù),實(shí)現業(yè)務(wù)質(zhì)量的可控的大數據處理的計算技術(shù)。而作為云計算技術(shù)中的佼佼者,Hadoop以其低成本和高效率的特性贏(yíng)得了市場(chǎng)的認可。Hadoop項目名稱(chēng)來(lái)源于創(chuàng )立者Doung Cutting兒子的一個(gè)玩具,一頭黃色的大象。
Hadoop項目的目標是建立一個(gè)可擴展開(kāi)源軟件框架,能夠對大數據進(jìn)行可靠的分布式處理。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。HDFS是一個(gè)分布式文件系統,具有低成本、高可靠性性、高吞吐量的特點(diǎn)。MapReduce是一個(gè)變成模型和軟件框架。
簡(jiǎn)單理解,Hadoop是一個(gè)開(kāi)源的大數據分析軟件,或者說(shuō)編程模式。它是通過(guò)分布式的方式處理大數據的,因為開(kāi)元的原因現在很多的企業(yè)或多或少的在運用hadoop的技術(shù)來(lái)解決一些大數據的問(wèn)題,在數據倉庫方面hadoop是非常強大的。但在數據集市以及實(shí)時(shí)的分析展現層面,hadoop也有著(zhù)明顯的不足,現在一個(gè)比較好的解決方案是架設hadoop的數據倉庫而數據集市以及實(shí)時(shí)分析展現層面使用永洪科技的大數據產(chǎn)品,能夠很好地解決hadoop的分時(shí)間長(cháng)以及其他的問(wèn)題。
Hadoop大數據技術(shù)案例
讓Hadoop和其他大數據技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問(wèn)題的答案,而在此之前他們甚至不知道問(wèn)題是什么。這可能會(huì )產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運營(yíng)效率的方法。不過(guò),也有一些已經(jīng)明確的大數據用例,無(wú)論是互聯(lián)網(wǎng)巨頭如谷歌,Facebook和LinkedIn還是更多的傳統企業(yè)。它們包括:
情感分析: Hadoop與先進(jìn)的文本分析工具結合,分析社會(huì )化媒體和社交網(wǎng)絡(luò )發(fā)布的非結構化的文本,包括Tweets和Facebook,以確定用戶(hù)對特定公司,品牌或產(chǎn)品的情緒。分析既可以專(zhuān)注于宏觀(guān)層面的情緒,也可以細分到個(gè)人用戶(hù)的情緒。
風(fēng)險建模: 財務(wù)公司、銀行等公司使用Hadoop和下一代數據倉庫分析大量交易數據,以確定金融資產(chǎn)的風(fēng)險,模擬市場(chǎng)行為為潛在的“假設”方案做準備,并根據風(fēng)險為潛在客戶(hù)打分。
欺詐檢測: 金融公司、零售商等使用大數據技術(shù)將客戶(hù)行為與歷史交易數據結合來(lái)檢測欺詐行為。例如,信用卡公司使用大數據技術(shù)識別可能的被盜卡的交易行為。
客戶(hù)流失分析: 企業(yè)使用Hadoop和大數據技術(shù)分析客戶(hù)行為數據并確定分析模型,該模型指出哪些客戶(hù)最有可能流向存在競爭關(guān)系的供應商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶(hù)。
用戶(hù)體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數據技術(shù)將之前單一 客戶(hù)互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數據整合在一起, 以獲得對客戶(hù)體驗的完整視圖。這使企業(yè)能夠了解客戶(hù)交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶(hù)生命周期的用戶(hù)體驗。
當然,上述這些都只是大數據用例的舉例。事實(shí)上,在所有企業(yè)中大數據最引人注目的用例可能尚未被發(fā)現。這就是大數據的希望。