大數據擁抱云計算
在PaaS層中一個(gè)復雜的通用應用就是大數據平臺。大數據是如何一步一步融入云計算的呢?
1數據不大也包含智慧
一開(kāi)始這個(gè)大數據并不大。原來(lái)才有多少數據?現在大家都去看電子書(shū),上網(wǎng)看新聞了,在我們80后小時(shí)候,信息量沒(méi)有那么大,也就看看書(shū)、看看報,一個(gè)星期的報紙加起來(lái)才有多少字?如果你不在一個(gè)大城市,一個(gè)普通的學(xué)校的圖書(shū)館加起來(lái)也沒(méi)幾個(gè)書(shū)架,是后來(lái)隨著(zhù)信息化的到來(lái),信息才會(huì )越來(lái)越多。
首先我們來(lái)看一下大數據里面的數據,就分三種類(lèi)型,一種叫結構化的數據,一種叫非結構化的數據,還有一種叫半結構化的數據。
結構化的數據:即有固定格式和有限長(cháng)度的數據。例如填的表格就是結構化的數據,國籍:中華人民共和國,民族:漢,性別:男,這都叫結構化數據。
非結構化的數據:現在非結構化的數據越來(lái)越多,就是不定長(cháng)、無(wú)固定格式的數據,例如網(wǎng)頁(yè),有時(shí)候非常長(cháng),有時(shí)候幾句話(huà)就沒(méi)了;例如語(yǔ)音,視頻都是非結構化的數據。
半結構化數據:是一些XML或者HTML的格式的,不從事技術(shù)的可能不了解,但也沒(méi)有關(guān)系。
其實(shí)數據本身不是有用的,必須要經(jīng)過(guò)一定的處理。例如你每天跑步帶個(gè)手環(huán)收集的也是數據,網(wǎng)上這么多網(wǎng)頁(yè)也是數據,我們稱(chēng)為Data。數據本身沒(méi)有什么用處,但數據里面包含一個(gè)很重要的東西,叫做信息(Information)。
數據十分雜亂,經(jīng)過(guò)梳理和清洗,才能夠稱(chēng)為信息。信息會(huì )包含很多規律,我們需要從信息中將規律總結出來(lái),稱(chēng)為知識(Knowledge),而知識改變命運。信息是很多的,但有人看到了信息相當于白看,但有人就從信息中看到了電商的未來(lái),有人看到了直播的未來(lái),所以人家就牛了。如果你沒(méi)有從信息中提取出知識,天天看朋友圈也只能在互聯(lián)網(wǎng)滾滾大潮中做個(gè)看客。
有了知識,然后利用這些知識去應用于實(shí)戰,有的人會(huì )做得非常好,這個(gè)東西叫做智慧(Intelligence)。有知識并不一定有智慧,例如好多學(xué)者很有知識,已經(jīng)發(fā)生的事情可以從各個(gè)角度分析得頭頭是道,但一到實(shí)干就歇菜,并不能轉化成為智慧。而很多的創(chuàng )業(yè)家之所以偉大,就是通過(guò)獲得的知識應用于實(shí)踐,最后做了很大的生意。
所以數據的應用分這四個(gè)步驟:數據、信息、知識、智慧。
最終的階段是很多商家都想要的。你看我收集了這么多的數據,能不能基于這些數據來(lái)幫我做下一步的決策,改善我的產(chǎn)品。例如讓用戶(hù)看視頻的時(shí)候旁邊彈出廣告,正好是他想買(mǎi)的東西;再如讓用戶(hù)聽(tīng)音樂(lè )時(shí),另外推薦一些他非常想聽(tīng)的其他音樂(lè )。
用戶(hù)在我的應用或者網(wǎng)站上隨便點(diǎn)點(diǎn)鼠標,輸入文字對我來(lái)說(shuō)都是數據,我就是要將其中某些東西提取出來(lái)、指導實(shí)踐、形成智慧,讓用戶(hù)陷入到我的應用里面不可自拔,上了我的網(wǎng)就不想離開(kāi),手不停地點(diǎn)、不停地買(mǎi)。
很多人說(shuō)雙十一我都想斷網(wǎng)了,我老婆在上面不斷地買(mǎi)買(mǎi)買(mǎi),買(mǎi)了A又推薦B,老婆大人說(shuō),“哎呀,B也是我喜歡的啊,老公我要買(mǎi)”。你說(shuō)這個(gè)程序怎么這么牛,這么有智慧,比我還了解我老婆,這件事情是怎么做到的呢?
2數據如何升華為智慧
數據的處理分幾個(gè)步驟,完成了才最后會(huì )有智慧。
第一個(gè)步驟叫數據的收集。(400-1109951)首先得有數據,數據的收集有兩個(gè)方式:
第一個(gè)方式是拿,專(zhuān)業(yè)點(diǎn)的說(shuō)法叫抓取或者爬取。例如搜索引擎就是這么做的:它把網(wǎng)上的所有的信息都下載到它的數據中心,然后你一搜才能搜出來(lái)。比如你去搜索的時(shí)候,結果會(huì )是一個(gè)列表,這個(gè)列表為什么會(huì )在搜索引擎的公司里面?就是因為他把數據都拿下來(lái)了,但是你一點(diǎn)鏈接,點(diǎn)出來(lái)這個(gè)網(wǎng)站就不在搜索引擎它們公司了。比如說(shuō)新浪有個(gè)新聞,你拿百度搜出來(lái),你不點(diǎn)的時(shí)候,那一頁(yè)在百度數據中心,一點(diǎn)出來(lái)的網(wǎng)頁(yè)就是在新浪的數據中心了。
第二個(gè)方式是推送,有很多終端可以幫我收集數據。比如說(shuō)小米手環(huán),可以將你每天跑步的數據,心跳的數據,睡眠的數據都上傳到數據中心里面。
第二個(gè)步驟是數據的傳輸。一般會(huì )通過(guò)隊列方式進(jìn)行,因為數據量實(shí)在是太大了,數據必須經(jīng)過(guò)處理才會(huì )有用?上到y處理不過(guò)來(lái),只好排好隊,慢慢處理。
第三個(gè)步驟是數據的存儲,F在數據就是金錢(qián),掌握了數據就相當于掌握了錢(qián)。要不然網(wǎng)站怎么知道你想買(mǎi)什么?就是因為它有你歷史的交易的數據,這個(gè)信息可不能給別人,十分寶貴,所以需要存儲下來(lái)。
第四個(gè)步驟是數據的處理和分析。上面存儲的數據是原始數據,原始數據多是雜亂無(wú)章的,有很多垃圾數據在里面,因而需要清洗和過(guò)濾,得到一些高質(zhì)量的數據。對于高質(zhì)量的數據,就可以進(jìn)行分析,從而對數據進(jìn)行分類(lèi),或者發(fā)現數據之間的相互關(guān)系,得到知識。
比如盛傳的沃爾瑪超市的啤酒和尿布的故事,就是通過(guò)對人們的購買(mǎi)數據進(jìn)行分析,發(fā)現了男人一般買(mǎi)尿布的時(shí)候,會(huì )同時(shí)購買(mǎi)啤酒,這樣就發(fā)現了啤酒和尿布之間的相互關(guān)系,獲得知識,然后應用到實(shí)踐中,將啤酒和尿布的柜臺弄的很近,就獲得了智慧。
第五個(gè)步驟是對于數據的檢索和挖掘。檢索就是搜索,所謂外事不決問(wèn)Google,內事不決問(wèn)百度。內外兩大搜索引擎都是將分析后的數據放入搜索引擎,因此人們想尋找信息的時(shí)候,一搜就有了。
另外就是挖掘,僅僅搜索出來(lái)已經(jīng)不能滿(mǎn)足人們的要求了,還需要從信息中挖掘出相互的關(guān)系。比如財經(jīng)搜索,當搜索某個(gè)公司股票的時(shí)候,該公司的高管是不是也應該被挖掘出來(lái)呢?如果僅僅搜索出這個(gè)公司的股票發(fā)現漲的特別好,于是你就去買(mǎi)了,其實(shí)其高管發(fā)了一個(gè)聲明,對股票十分不利,第二天就跌了,這不坑害廣大股民么?所以通過(guò)各種算法挖掘數據中的關(guān)系,形成知識庫,十分重要。
3大數據時(shí)代,眾人拾柴火焰高
當數據量很小時(shí),很少的幾臺機器就能解決。慢慢的,當數據量越來(lái)越大,最牛的服務(wù)器都解決不了問(wèn)題時(shí),怎么辦呢?這時(shí)就要聚合多臺機器的力量,大家齊心協(xié)力一起把這個(gè)事搞定,眾人拾柴火焰高。
對于數據的收集:就IoT來(lái)講,外面部署這成千上萬(wàn)的檢測設備,將大量的溫度、濕度、監控、電力等數據統統收集上來(lái);就互聯(lián)網(wǎng)網(wǎng)頁(yè)的搜索引擎來(lái)講,需要將整個(gè)互聯(lián)網(wǎng)所有的網(wǎng)頁(yè)都下載下來(lái)。這顯然一臺機器做不到,需要多臺機器組成網(wǎng)絡(luò )爬蟲(chóng)系統,每臺機器下載一部分,同時(shí)工作,才能在有限的時(shí)間內,將海量的網(wǎng)頁(yè)下載完畢。
對于數據的傳輸:一個(gè)內存里面的隊列肯定會(huì )被大量的數據擠爆掉,于是就產(chǎn)生了基于硬盤(pán)的分布式隊列,這樣隊列可以多臺機器同時(shí)傳輸,隨你數據量多大,只要我的隊列足夠多,管道足夠粗,就能夠撐得住。
對于數據的存儲:一臺機器的文件系統肯定是放不下的,所以需要一個(gè)很大的分布式文件系統來(lái)做這件事情,把多臺機器的硬盤(pán)打成一塊大的文件系統。
對于數據的分析:可能需要對大量的數據做分解、統計、匯總,一臺機器肯定搞不定,處理到猴年馬月也分析不完。于是就有分布式計算的方法,將大量的數據分成小份,每臺機器處理一小份,多臺機器并行處理,很快就能算完。例如著(zhù)名的Terasort對1個(gè)TB的數據排序,相當于1000G,如果單機處理,怎么也要幾個(gè)小時(shí),但并行處理209秒就完成了。
所以說(shuō)什么叫做大數據?說(shuō)白了就是一臺機器干不完,大家一起干?墒请S著(zhù)數據量越來(lái)越大,很多不大的公司都需要處理相當多的數據,這些小公司沒(méi)有這么多機器可怎么辦呢?