這篇文章將為大家詳細講解有關HDFS中機架感知策略的示例分析,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

專注于為中小企業(yè)提供成都網站建設、成都網站制作服務,電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業(yè)灣里免費做網站提供優(yōu)質的服務。我們立足成都,凝聚了一批互聯(lián)網行業(yè)人才,有力地推動了上千企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網站建設實現(xiàn)規(guī)模擴充和轉變。
通常來說大型的Hadoop集群是以機架的形式來組織的他們分布在不同的機架上面,同一個機架節(jié)點往往通過同一個網絡交換機連接,在網絡寬帶方面比跨機架通信有較大優(yōu)勢。但是如果某一個文件數(shù)據(jù)庫同時存儲在同一個機架上面時,可能由于各種故障原因,導致文件不可用。HDFS采用機架感知策略來改進數(shù)據(jù)的可靠性、可用性和網絡寬度的利用率。
通過機架感知的過程,NameNode可以確定每一個 DataNode所屬的機架id。一個簡單但沒有優(yōu)化的策略就是將副本存放在不同的機架上,這樣可以防止當整個機架失效時數(shù)據(jù)的丟失,并且允許讀數(shù)據(jù)的時候充分利用多個機架的帶寬。這種策略設置可以將副本均勻分布在集群中,有利于當組件失效的情況下的均勻負載。
也就是說,HDFS系統(tǒng)的機架感知策略的優(yōu)勢是防止由于某個機架失效導致數(shù)據(jù)丟失,并且允許讀取數(shù)據(jù)時充分利用多個機架的帶寬。HDFS會盡量讓讀取任務去讀取距離客戶端最近的副本數(shù)據(jù)來減少整體帶寬消耗,從而實現(xiàn)降低整體的帶寬延時。
對于副本距離的計算公式,HDFS采用如下約定:
Distance(Rack 1/D1 Rack1/D1)=0 //同一臺服務器的距離為0
Distance(Rack 1/D1 Rack1/D3)=2 //通機架不同服務器的距離為2
Distance(Rack 1/D1 Rack2/D1)=4 //不同機架服務器距離為4
通常而言,一個Rack共享一個電源,一條網線,一個交換機,HDFS備份通常在同一個Rack上存儲一份,在另外一個Rack上存儲兩份(另外:HDFS以block為單位,備份也要以block為單位)
通過機架感知,處于工作狀態(tài)的HDFS總是設法確保數(shù)據(jù)塊的三個副本(或者更多)中至少有兩個在同一機架,至少有一個處在不同機架
而HDFS為每一個block存三份的話,那么client如何來寫入呢?
當client 寫文件創(chuàng)建新block之后,Name node會為這個block 創(chuàng)建一整個HDFS cluster 里獨有的ID,并且決定哪些Data node來存儲這個block的所有備份。被選擇到的Data node會組成一個隊列,client 向隊列的第一個Data node 寫入,第一個Data node除了把數(shù)據(jù)存在自己的硬盤上以外,還要把數(shù)據(jù)傳給隊列里的下一個Data node,直到最后一個Data node接到數(shù)據(jù)完畢
關于“HDFS中機架感知策略的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
當前題目:HDFS中機架感知策略的示例分析
分享URL:http://chinadenli.net/article34/goehse.html
成都網站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網站建設、關鍵詞優(yōu)化、App設計、電子商務、網站維護、網站制作
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)