大數據正在改變世界。但是,大多數大數據項目搞著(zhù)搞著(zhù)就黃了,很難成功。這是為什么呢?
企業(yè)正努力在產(chǎn)品中部署大數據,這一點(diǎn)是毋庸置疑的。但是,根據Gartner在2016年下半年發(fā)布的新聞稿:只有15%的企業(yè)將其大數據項目部署到生產(chǎn)中!盙artner在選詞時(shí)非常謹慎,這并不意味著(zhù)剩下的企業(yè)沒(méi)有實(shí)踐,或者數據科學(xué)家沒(méi)有發(fā)現使用大數據技術(shù)的優(yōu)勢,只是剩下的85%的項目并沒(méi)有真正投入生產(chǎn)。
問(wèn)題不在于缺少大數據分析或者是大量的數據科學(xué)實(shí)驗。真正的挑戰是缺乏大數據自動(dòng)化能力,以便將實(shí)驗版本從沙箱推入功能齊全的生產(chǎn)環(huán)境中。
大多數人認為分析生產(chǎn)就是調整集群。當然,可以編寫(xiě)一個(gè)sqoop腳本并將表格放入一次。但是,在不影響源系統的情況下多次實(shí)現則是一個(gè)挑戰。然后,必須確保構建的數據管道在由服務(wù)級別協(xié)議(SLA)設置的時(shí)間范圍內提供數據。此外,數據模型需要針對用戶(hù)當前正在使用的工具(如Tableau,Qlik等)進(jìn)行優(yōu)化,以達到用戶(hù)所期望的響應能力。
在Hadoop和Spark之上使用工具進(jìn)行大量的努力和改進(jìn)以對大型數據集進(jìn)行快速原型設計。但原型是一回事,創(chuàng )建每天運行而不發(fā)生故障的數據工作流程,或者在數據流作業(yè)失敗時(shí)自動(dòng)啟用恢復,又是另外一回事。
本文作者分析了五大大數據項目夭折最常見(jiàn)的技術(shù)原因:
1、無(wú)法快速加載數據以滿(mǎn)足SLA
雖然像sqoop這樣的工具支持數據讀取的并行化以從傳統數據源獲取數據到數據湖,但需要專(zhuān)家來(lái)使其正常工作。如何劃分數據?要運行多少個(gè)容器等問(wèn)題都需要專(zhuān)家給出合適的解決方案。如果無(wú)法正確處理并行數據的讀取,則一個(gè)小時(shí)就可完成的任務(wù)甚至需要10到20倍的時(shí)間,因為大多數人不知道如何正確調整。
2、不能逐步加載數據以滿(mǎn)足SLA
大多數企業(yè)并未將整個(gè)操作轉移到大數據環(huán)境中。他們從現有的操作系統移動(dòng)數據以執行新的分析或機器學(xué)習,這意味著(zhù)需要在新數據到達時(shí)繼續加載。問(wèn)題是這些環(huán)境不支持添加,刪除或插入的概念,這意味著(zhù)必須重新加載整個(gè)數據集(請參閱上面的第1點(diǎn)),否則必須圍繞一次更改捕獲問(wèn)題編寫(xiě)代碼。
3、不能以交互方式提供對數據報告的訪(fǎng)問(wèn)權限
想象一下,如果有1000位商業(yè)智能分析師,他們都不想使用您的數據模型,因為他們需要很長(cháng)時(shí)間才能查詢(xún)。這是Hadoop的一個(gè)經(jīng)典問(wèn)題,也是許多公司僅使用Hadoop進(jìn)行預處理和應用特定機器學(xué)習算法,但隨后將最終數據集移回傳統數據倉庫以供BI工具使用的原因。無(wú)論如何,這個(gè)過(guò)程又為成功完成大數據項目增加了難度。
4、不能從測試遷移到生產(chǎn)
許多企業(yè)能夠確定沙箱環(huán)境中數據科學(xué)家的新見(jiàn)解的潛力。一旦他們確定采納新的分析方法,就需要從沙盒轉移到生產(chǎn)環(huán)境。從開(kāi)發(fā)轉移到生產(chǎn)是一個(gè)完整的升降和換擋操作,通常是手動(dòng)完成的。雖然它在開(kāi)發(fā)集群上運行良好,但現在相同的數據管道必須在生產(chǎn)集群上重新優(yōu)化。這種調整往往需要大量的返工才能有效執行。如果開(kāi)發(fā)環(huán)境與生產(chǎn)環(huán)境有任何不同,則情況尤其復雜。
5、不能管理端到端的生產(chǎn)工作量
大多數企業(yè)都將注意力集中在工具上,因此他們的數據分析師和科學(xué)家可以更輕松地識別新的方法。但是,他們沒(méi)有投資類(lèi)似的工具來(lái)運行生產(chǎn)環(huán)境中的數據工作流程,因此不得不擔心啟動(dòng)、暫停和重新啟動(dòng)過(guò)程,還必須擔心確保作業(yè)的容錯性,處理通知以及協(xié)調多個(gè)工作流以避免“沖突”。
因為上述五大技術(shù)原因,導致很多大數據項目并沒(méi)有如期與我們見(jiàn)面。當然,如果你有更棒的見(jiàn)解,歡迎在評論區留言。