A
異常檢測(Anomaly detection) – 在數據集中搜索與預期模式或行為不匹配的數據項。除了“Anomalies”,用來(lái)表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通?商峁╆P(guān)鍵的可執行信息
應用(Application) – 實(shí)現某種特定功能的計算機軟件
大數據科學(xué)家(Big Data Scientist) – 能夠設計大數據算法使得大數據變得有用的人
商業(yè)智能(Business Intelligence) – 是一系列理論、方法學(xué)和過(guò)程,使得數據更容易被理解
聚類(lèi)分析(Clustering analysis) – 它是將相似的對象聚合在一起,每類(lèi)相似的對象組合成一個(gè)聚類(lèi)(也叫作簇)的過(guò)程。這種分析方法的目的在于分析數據間的差異和相似性
計算機產(chǎn)生的數據(Computer generated data) – 如日志文件這類(lèi)由計算機生成的數據
D
數據庫(Database) – 一個(gè)以某種特定的技術(shù)來(lái)存儲數據集合的倉庫
數據清洗(Data cleansing) – 對數據進(jìn)行重新審查和校驗的過(guò)程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性
數據集市(Data marketplace) – 進(jìn)行數據集買(mǎi)賣(mài)的在線(xiàn)交易場(chǎng)所
數據虛擬化(Data virtualization) – 數據整合的過(guò)程,以此獲得更多的數據信息,這個(gè)過(guò)程通常會(huì )引入其他技術(shù),例如數據庫,應用程序,文件系統,網(wǎng)頁(yè)技術(shù),大數據技術(shù)等等
文件存貯數據庫(Document Store Databases) – 又稱(chēng)為文檔數據庫(document-oriented database), 為存儲、管理、恢復文檔數據而專(zhuān)門(mén)設計的數據庫,這類(lèi)文檔數據也稱(chēng)為半結構化數據
提取-轉換-加載(ETL: Extract, Transform and Load) – 是一種用于數據庫或者數據倉庫的處理過(guò)程。即從各種不同的數據源提取(E)數據,并轉換(T)成能滿(mǎn)足業(yè)務(wù)需要的數據,最后將其加載(L)到數據庫
G
H
內存數據庫(IMDB: In-memory) – 一種數據庫管理系統,與普通數據庫管理系統不同之處在于,它用主存來(lái)存儲數據,而非硬盤(pán)。其特點(diǎn)在于能高速地進(jìn)行數據的處理和存取。
K
遺留系統(Legacy system) – 是一種舊的應用程序,或是舊的技術(shù),或是舊的計算系統,現在已經(jīng)不再支持了。
M
MapReduce – 是處理大規模數據的一種軟件框架(Map: 映射,Reduce: 歸納)。
元數據(Metadata) – 被稱(chēng)為描述數據的數據,即描述數據數據屬性(數據是什么)的信息。
N
NoSQL – 顧名思義,就是“不使用SQL”的數據庫。這類(lèi)數據庫泛指傳統關(guān)系型數據庫以外的其他類(lèi)型的數據庫。這類(lèi)數據庫有更強的一致性,能處理超大規模和高并發(fā)的數據。
操作型數據庫(Operational Databases) – 這類(lèi)數據庫可以完成一個(gè)組織機構的常規操作,對商業(yè)運營(yíng)非常重要,一般使用在線(xiàn)事務(wù)處理,允許用戶(hù)訪(fǎng)問(wèn) 、收集、檢索公司內部的具體信息。
P
預測分析(Predictive analysis) – 大數據分析方法中最有價(jià)值的一種分析方法,這種方法有助于預測個(gè)人未來(lái)(近期)的行為,例如某人很可能會(huì )買(mǎi)某些商品,可能會(huì )訪(fǎng)問(wèn)某些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過(guò)使用各種不同的數據集,例如歷史數據,事務(wù)數據,社交數據,或者客戶(hù)的個(gè)人信息數據,來(lái)識別風(fēng)險和機遇
數字化自我(Quantified Self) – 使用應用程序跟蹤用戶(hù)一天的一舉一動(dòng),從而更好地理解其相關(guān)的行為
回歸分析(Regression analysis) – 確定兩個(gè)變量間的依賴(lài)關(guān)系。這種方法假設兩個(gè)變量之間存在單向的因果關(guān)系(譯者注:自變量,因變量,二者不可互換)
路徑分析(Routing analysis) – 針對某種運輸方法通過(guò)使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達到降低燃料費用,提高效率的目的
信號分析(Signal analysis) – 指通過(guò)度量隨時(shí)間或空間變化的物理量來(lái)分析產(chǎn)品的性能。特別是使用傳感器數據。
軟件即服務(wù)(SaaS: Software-as-a-Service) – 基于Web的通過(guò)瀏覽器使用的一種應用軟件
T
交易數據(Transactional data) – 隨時(shí)間變化的動(dòng)態(tài)數據
V
可視化(Visualization) – 只有正確的可視化,原始數據才可被投入使用。這里的“可視化”并非普通的圖型或餅圖,可視化指是的復雜的圖表,圖表中包含大量的數據信息,但可以被很容易地理解和閱讀。
X
Z
Z字節 (ZB: Zettabytes) – 約等于1000 EB (Exabytes), 約等于1百萬(wàn) TB。據預測,到2016年全球范圍內每天網(wǎng)絡(luò )上通過(guò)的信息大約能達到1 ZB。