大數據-特征定義
“數據,已經(jīng)滲透到當今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數據的挖掘和運用,預示著(zhù)新一波生產(chǎn)率增長(cháng)和消費者盈余浪潮的到來(lái)!边@句話(huà)是麥肯錫提出的表示大數據時(shí)代的到來(lái),是最早提出這一理論的人.
在業(yè)界最早是由IBM所提出的定義,它將大數據的特征歸納為4個(gè)“V”,也就是量Volume、多樣Variety、價(jià)值Value、速Velocity,也可以將其理解為四個(gè)層面:
一、量Volume:數據體量巨大。簡(jiǎn)單來(lái)講就是大數據的起始計量單位至少也得是P(1000個(gè)T)開(kāi)頭,個(gè)別的甚至達到Z(10億個(gè)T);
二、多樣Variety:數據類(lèi)型繁多。比如,圖片、地理位置、視頻、網(wǎng)絡(luò )日志信息等等。
三、價(jià)值Value:價(jià)值密度低,商業(yè)價(jià)值高。
四、速Velocity:處理速度快。這一點(diǎn)也是和傳統的數據挖掘技術(shù)有著(zhù)本質(zhì)的不同。
當然這些V并不能真正說(shuō)清楚大數據的所有特征。
"三分技術(shù),七分數據,得數據者得天下。"這句話(huà)是維克托·邁爾-舍恩伯格在《大數據時(shí)代》里所提到的.
這句話(huà)的正確性已經(jīng)不用去論證了!洞髷祿䲡r(shí)代》一書(shū)中舉了百般例證,都是為了說(shuō)明一個(gè)道理:在大數據時(shí)代已經(jīng)到來(lái)的時(shí)候要用大數據思維去發(fā)掘大數據的潛在價(jià)值。書(shū)中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價(jià)值,比如預測某地流感爆發(fā)的趨勢;Amazon如何利用用戶(hù)的購買(mǎi)和瀏覽歷史數據進(jìn)行有針對性的書(shū)籍購買(mǎi)推薦,以此有效提升銷(xiāo)售量;Farecast如何利用過(guò)去十年所有的航線(xiàn)機票價(jià)格打折數據,來(lái)預測用戶(hù)購買(mǎi)機票的時(shí)機是否合適。
那么,什么是大數據思維?維克托·邁爾-舍恩伯格認為有三點(diǎn):
一、需要全部數據樣本而不是抽樣;
二、關(guān)注效率而不是精確度;
三、關(guān)注相關(guān)性而不是因果關(guān)系。