精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影

認證培訓,h3c認證體系,網(wǎng)絡(luò )工程師
豐沃創(chuàng  )新

企業(yè)如何選擇合適的大數據產(chǎn)品測試基準

  • 發(fā)布時(shí)間: 2017-12-3 9:43:51

隨著(zhù)開(kāi)源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技術(shù)的商用化,大數據管理技術(shù)得到了突飛猛進(jìn)的發(fā)展。一般來(lái)說(shuō),大數據具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多樣)[1]。TPC聯(lián)合主席、Cisco高級工程師Raghunath Nambiar進(jìn)一步認為大數據還面臨Value(價(jià)值)和Veracity(精確)的挑戰。如何客觀(guān)地比較不同數據管理系統,即大數據測試基準的選擇,成為一個(gè)重要的研究課題。

事務(wù)性能管理委員會(huì )(TPC)是目前最知名的數據管理系統評測基準標準化組織。在過(guò)去二十多年間,該機構發(fā)布了多款數據庫評測基準,如TPC-A、TPC-D、TPC-H和TPC-DS,在業(yè)界得到了廣泛應用[2]。BigBench和BigFrame是對TPC-DS進(jìn)行多樣化的數據擴充的測試基準。近年來(lái),Apache開(kāi)源社區針對Map/reduce架構開(kāi)發(fā)了多款性能測試用例,如TestDFSIO、teraSort。國內對大數據測試基準的研究起步較晚,尚未建立起權威的測試基準。目前由中國信息通信研究院牽頭,聯(lián)合中科院計算所及國內外知名公司和機構共同制定的大數據測試基準正在金羅密布的測試中[3]。

為了方便企業(yè)選擇合適的大數據測試基準,本文將在分析總結現有成果的基礎,進(jìn)一步討論大數據測試基準應該具有的要素;并以此為基礎,對比現有的大數據測試基準;然后重點(diǎn)討論TPC-DS測試基準。

大數據測試基準的選擇

企業(yè)在選擇大數據測試基準時(shí),首先應考慮基準與其自身業(yè)務(wù)的相關(guān)性。

與其自身業(yè)務(wù)的相關(guān)性

它主要描述測試基準設定的應用場(chǎng)景是否與企業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景類(lèi)似,如基于社交網(wǎng)絡(luò )應用的評測基準與銀行系統的應用場(chǎng)景就沒(méi)有什么相關(guān)性。不相關(guān)的基準,測試結果再好,也沒(méi)有實(shí)際意義。相關(guān)性還要考慮測試基準所采用的數據模型是否代表數據倉庫的發(fā)展方向,如基于星型模型的開(kāi)發(fā)要比基于傳統的關(guān)系模型開(kāi)發(fā)更加有效。

當然,一套行之有效的大數據測試基準包含許多其它要素。Jim Gray及金澈清等學(xué)者[4]已經(jīng)對度量選取、模擬數據生成器、工作負載設定、審計等要素進(jìn)行了詳細論述。除此之外,本文還認為測試基準的健壯性、SQL標準的兼容性和通用性/可移植性也是重要的要素。

模擬數據生成要具有真實(shí)性

它描述了測試基準是否仿真真實(shí)應用場(chǎng)景,所產(chǎn)生的模擬數據是否與真實(shí)數據相似。

工作負載的設定具有可擴展性

它描述該評測基準是否適用于不同規模的計算機系統,許多評測基準會(huì )使用標度因子來(lái)決定模擬數據的規模,通過(guò)調整標度因子來(lái)得到不同規模的工作負載。

度量的選取的可理解性

它衡量該評測基準是否易于為用戶(hù)理解,不易為用戶(hù)理解的基準的可信程度也較低。

客觀(guān)性與公正性

眾所周知,在競技比賽中,一個(gè)人不能既是運動(dòng)員又是裁判員。測試基準好比競技比賽中的裁判員,應該由中立的第三方機構制定。事實(shí)也證明,在各個(gè)領(lǐng)域最受歡迎的測試基準都是有第三方機構設計的。過(guò)去20多年的經(jīng)歷證明TPC系列基準是數據庫領(lǐng)域最為廣泛接受的基準。除此之外,第三方機構的審計也是保證證評測結果的客觀(guān)性與公正性的重要手段。

健壯性

測試基準要足夠健壯,不能輕易被“hack”,這對測試結果的公平性非常重要。例如對TPC-H的前身TPC-D,通過(guò)物理化視圖,Oracle的性能比Micosoft的SQLServer高100倍,這些顯然是不公平的。因此TPC組織規定TPC-H測試中物理化視圖是不和法的。但是除非是專(zhuān)業(yè)人員,一般用戶(hù)很難判定測試過(guò)程中視圖有沒(méi)有被物理化。TPC-DS在健壯行方面要好很多,因為它的SQL本身比較復雜,也比較多,Hack起來(lái)相對困難,并且只hack幾個(gè)SQL對整體性能提高有限。

SQL標準兼容性

SQL是ANSI為統一各個(gè)數據庫廠(chǎng)商之間的編程差異定義的標準,已發(fā)布SQL86、SQL92、SQL99、SQL2003等版本。這些標準已經(jīng)被主流的商用(例如Oracle、DB2、SQL server)以及開(kāi)源的數據庫產(chǎn)品(例如MySQL、mSQL和PostgreSQL)的廣泛采用。對整個(gè)數據庫產(chǎn)業(yè)的發(fā)展起到了巨大的推動(dòng)作用。大數據是個(gè)新興的領(lǐng)域,它的發(fā)展不能完全拋棄原有的應用。如果不能全面支持SQL標準,現有系統的移植非常困難,學(xué)習曲線(xiàn)就會(huì )變長(cháng)。

通用性/可遷移性

通用性描述是否可在不同數據庫系統和架構上實(shí)現指定的評測基準。測試基準不應該規定實(shí)現的細節,而只需要定義測試規范。DBMS只要遵循規范得到正確的結果,就是合理的測試,無(wú)論其基于Map/Reduce、Spark還是其他的技術(shù),也不管其底層存儲是用HDFS、HBASE還是其他方式。

大數據測試基準對比

經(jīng)過(guò)30幾年的研究,傳統數據庫測試基準的研究已經(jīng)相當成熟,在各個(gè)領(lǐng)域出現了行之有效的測試基準。隨著(zhù)大數據應用的發(fā)展,大數據測試基準的研究最近幾年逐漸興起,但大都是在傳統的測試基準的基礎進(jìn)行裁剪、擴充、綜合。金澈清等學(xué)者[4]對數據庫基準的發(fā)展概述如圖1所示。

本文重點(diǎn)關(guān)注被列為大數據測試基準的相關(guān)基準、BigFrame[5]以及TPC-DS,對其它的基準本文不再贅述,有興趣的讀者請參閱文[4]。

Map/reduce性能測試

如文[4]中所述,MRBench、HiBench、TestDFSIO、Sort/teraSort只是針對Map/Reduce框架,目的是評測運行Map/Reduce框架的集群的性能。CALDA基準嘗試比較不同架構在數據管理方面的性能。這些測試過(guò)于簡(jiǎn)單,無(wú)法模擬復雜的應用,也不通用。

YCSB/YCSB++/LinkBench

這是一組針對網(wǎng)絡(luò )應用的測試基準。YCSB(Yahoo! Cloud Serving Benchmark)及其擴展YCSB++測試查詢(xún)回復的延時(shí)等云服務(wù)系統中云計算的特點(diǎn),如查詢(xún)回復的延時(shí)、縱向擴展和彈性加速比、并行性測試等。LinkBench是一個(gè)基于社交網(wǎng)絡(luò )應用的評測基準。它仿真Facebook公司的圖數據管理應用,包括數據特性、工作負載以及度量等。這些都是公司開(kāi)發(fā)的針對自己特定應用場(chǎng)景的測試基準,很難在整個(gè)行業(yè)內進(jìn)行推廣。

BigBench

BigBench是一款面向商品零售業(yè)的基準,它擴展了TPC-DS,綜合考慮多種數據模態(tài),增加了半結構化數據Web Log和非結構化數據Reviews。其負載的生成是TPC-DS定制化的版本。BigBench包含30個(gè)查詢(xún)。BigBench基本數據模型如圖2所示:

BigFrame

BigFrame是一個(gè)測試基準生成器[5],用戶(hù)可以根據自己的需求定制專(zhuān)有測試基準。在目前實(shí)現中,其關(guān)系模型與BigBench類(lèi)似,也是基于TPC-DS。同時(shí)它擴展了半結構化和非結構化的數據Tweets以及圖形化數據Followee/Follower。BigFrame基本數據模型如圖3所示:

如文[5]所述,大數據與決策支持系統(DSS)并不是完全獨立的,大數據也不能拋棄傳統。DSS系統中,只要數據量足夠大,都可以認為是大數據問(wèn)題。被化為大數據測試基準的BigBench和BigFrame的大部分內容都來(lái)自于TPC-DS,從這個(gè)意義上講,TPC-DS不但是一種結構數據的大數據測試基準,而且是其它大數據測試基準的基礎。

TPC-DS

TPC-DS測試基準是TPC組織推出的用于替代TPC-H的下一代決策支持系統測試基準。因此在討論TPC-DS之前,先介紹一下TPC-H。

TPC-H

TPC-H是一款面向商品零售業(yè)的決策支持系統測試基準,它定義了8張表,22個(gè)查詢(xún),遵循SQL92。TPC-H的數據模型如圖4所示。TPC-H基準的數據庫模式遵循第三范式,葉曉俊教授等學(xué)者[6]認為“它的數據表數據特征單一(如數據不傾斜) ,其數據維護功能僅僅限制了潛在的對索引的過(guò)度使用,而沒(méi)有測試DBMS 執行真實(shí)數據維護操作——數據提取、轉換和加載(ETL) 功能的能力”。同時(shí),新興的數據倉庫開(kāi)始采用新的模型,如星型模型、雪花模型。TPC-H已經(jīng)不能精準反映當今數據庫系統的真實(shí)性能。為此,TPC組織推出了新一代的面向決策應用的TPC-DS 基準。

TPC-DS

TPC-DS采用星型、雪花型等多維數據模式。它包含7張事實(shí)表,17張緯度表平均每張表含有18列。其工作負載包含99個(gè)SQL查詢(xún),覆蓋SQL99和2003的核心部分以及OLAP。這個(gè)測試集包含對大數據集的統計、報表生成、聯(lián)機查詢(xún)、數據挖掘等復雜應用,測試用的數據和值是有傾斜的,與真實(shí)數據一致?梢哉f(shuō)TPC-DS是與真實(shí)場(chǎng)景非常接近的一個(gè)測試集,也是難度較大的一個(gè)測試集。

TPC-DS的這個(gè)特點(diǎn)跟大數據的分析挖掘應用非常類(lèi)似。Hadoop等大數據分析技術(shù)也是對海量數據進(jìn)行大規模的數據分析和深度挖掘,也包含交互式聯(lián)機查詢(xún)和統計報表類(lèi)應用,同時(shí)大數據的數據質(zhì)量也較低,數據分布是真實(shí)而不均勻的。因此TPC-DS成為客觀(guān)衡量多個(gè)不同Hadoop版本以及SQL on Hadoop技術(shù)的最佳測試集。這個(gè)基準測試有以下幾個(gè)主要特點(diǎn):

一共99個(gè)測試案例,遵循SQL'99和SQL 2003的語(yǔ)法標準,SQL案例比較復雜

分析的數據量大,并且測試案例是在回答真實(shí)的商業(yè)問(wèn)題

測試案例中包含各種業(yè)務(wù)模型(如分析報告型,迭代式的聯(lián)機分析型,數據挖掘型等)

幾乎所有的測試案例都有很高的IO負載和CPU計算需求

葉曉俊等學(xué)者對這些查詢(xún)的分部總結如表1所示[6]。典型的Store_Sales的數據模型如圖5所示。這個(gè)基準測試的完整信息請參考http://www.tpc.org/tpcds/。

TPC-DS認證現狀

TPC-DS以其高標準、高要求得到大家的廣泛認知,理應得到廣泛的應用,但是到目前為止還沒(méi)有任何廠(chǎng)商得到TPC官方的認證。究其原因,本文認為:

傳統的數據庫廠(chǎng)商,DBMS系統比較成熟,SQL的支持也相當完善,但是其分布式、并行處理能力欠缺,導致其性能很差。所以傳統的廠(chǎng)商不愿意發(fā)布測試結果。

新型的計算模型如Map/Reduce、spark,具有較好的并行處理能力,但是SQL的兼容性比較差,如HiveSQL、SparkSQL只支持40個(gè)SQL,從而也無(wú)法發(fā)布TPC-DS測試報告。盡管如此,各廠(chǎng)商還是通過(guò)非TPC官方的途徑發(fā)布TPC-DS的部分測試結果,以展現其在性能方面的提升。由此可見(jiàn)大家對TPC-DS的程接受度。

在TPC-DS大數據測試方面,星環(huán)科技已經(jīng)走在世界的前列,據所知,星環(huán)科技是國內唯一、全球少數幾家公開(kāi)發(fā)布TPC-DS大數據測試結果的科技公司。其TPC-DS 500G的功能、性能及其兼容性測試已經(jīng)得到第三方機構——上海市計算機軟件評測實(shí)驗室的認證。

結束語(yǔ)

大數據評測基準用于公平、客觀(guān)地評測不同大數據庫產(chǎn)品/平臺的功能和性能,對人們選擇合適的大數據分析決策系統具有重要的參考價(jià)值。隨著(zhù)國內外各代表性的Hadoop發(fā)行版廠(chǎng)商以TPC-DS為標準測評產(chǎn)品,TPC-DS也就逐漸成為了業(yè)界公認的大數據系統測試基準。但是隨著(zhù)大數據應用在各行各業(yè)的發(fā)展,測試基準也需不斷與時(shí)俱進(jìn)。大數據測試基準仍然面臨著(zhù)諸多挑戰,還需要政府、學(xué)術(shù)界和工業(yè)界的緊密合作。

分享到QQ空間新浪微博人人網(wǎng)騰訊微博網(wǎng)易微博0
精品福利视频一区二区三区,免费A级毛片无码无遮挡,偷窥目拍性综合图区,亚洲欧洲无码AV电影在线观看,超清无码熟妇人妻AV在线电影