從Hadoop2.6開(kāi)始,HDFS更好的支持了這種冷熱數據的分離存儲,我們可以按HDFS路徑指定其存儲策略,目前HDFS支持的存儲策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們著(zhù)重介紹SSD相關(guān)的存儲策略,具體如下:
All_SSD - 用于將所有副本存儲在SSD中
One_SSD - 用于將其中一個(gè)副本存儲在SSD中。剩余的副本存儲在DISK中
Lazy_Persist - 用于在內存中寫(xiě)入單個(gè)副本的塊。該副本首先寫(xiě)入RAM_DISK,然后在DISK中延續
創(chuàng )建文件或目錄時(shí),其存儲策略未指定?梢允褂谩癶dfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。
1. 如果文件或目錄特定于存儲策略,則返回。
2. 對于未指定的文件或目錄,如果是根目錄,則返回默認存儲策略。否則,返回其父級的有效存儲策略。
我們在實(shí)踐過(guò)程中,因為有一部分實(shí)時(shí)分析的需求,一部分是歷史數據的保存,歷史數據很少參與計算,只需偶爾查詢(xún)會(huì )用到。那么對于歷史數據來(lái)說(shuō),我們可以使用一批計算能力較弱,而硬盤(pán)較多、容量較大的SATA盤(pán),而實(shí)時(shí)分析的場(chǎng)景,需要高性能的計算力和硬盤(pán)吞吐能力,我們選用SSD硬盤(pán)來(lái)支撐,此外HDFS還提供了內存存儲類(lèi)型,但我們的內存還是有限,暫未使用到。實(shí)際上,我們的每臺服務(wù)器的12塊硬盤(pán)slot中有3個(gè)是SSD,其余9個(gè)是SATA。我們實(shí)踐結果表明,使用這種策略的效果比以前好了4倍以上。
要使用存儲策略,我們需要在在每個(gè)數據節點(diǎn)上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類(lèi)型進(jìn)行標記。例如:
1. 使用[DISK]file:///dfs/dn來(lái)標識這個(gè)存儲位置為普通硬盤(pán)
2. 使用[SSD]file:/// dfs/dn來(lái)標識這個(gè)存儲位置為SSD硬盤(pán)
此外,默認情況下的存儲格式為DISK。
下面介紹設置存儲策略命令:
hdfsstoragepolicies -setStoragePolicy -path -policy
相應的獲取存儲策略命令為:
hdfs storagepolicies -getStoragePolicy -path
總結下:我們可以在一個(gè)限定的Hadoop集群中進(jìn)行設置不同的磁盤(pán)使用不同的存儲策略,還可以利用API將數據存儲到不同的存儲層。HDFS設計的詳細存儲類(lèi)型和存儲策略如下表,有興趣的同學(xué)可以看看:
注:HDFS新加的ARCHIVE存儲類(lèi)型, 它是一種支持PB級的高容量存儲但很少的 計算能力,用于歸檔數據使用,從上圖可以看出冷數據適合使用archive存儲類(lèi)型