這篇文章主要介紹了hive中merge小文件的示例分析,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

成都創(chuàng)新互聯(lián)公司公司2013年成立,我們提供高端網(wǎng)站建設(shè)、微信小程序定制開發(fā)、電商視覺設(shè)計、成都APP應(yīng)用開發(fā)及網(wǎng)絡(luò)營銷搜索優(yōu)化服務(wù),在傳統(tǒng)互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)發(fā)展的背景下,我們堅守著用標(biāo)準(zhǔn)的設(shè)計方案與技術(shù)開發(fā)實力作基礎(chǔ),以企業(yè)及品牌的互聯(lián)網(wǎng)商業(yè)目標(biāo)為核心,為客戶打造具商業(yè)價值與用戶體驗的互聯(lián)網(wǎng)+產(chǎn)品。
當(dāng)Hive輸入由很多個小文件組成,由于每個小文件都會啟動一個map任務(wù),如果文件過小,以至于map任務(wù)啟動和初始化的時間大于邏輯處理的時間,會造成資源浪費,甚至OOM。
為此,當(dāng)我們啟動一個任務(wù),發(fā)現(xiàn)輸入數(shù)據(jù)量小但任務(wù)數(shù)量多時,需要注意在Map前端進(jìn)行輸入合并
當(dāng)然,在我們向一個表寫數(shù)據(jù)時,也需要注意輸出文件大小
1. Map輸入合并小文件
對應(yīng)參數(shù):
set mapred.max.split.size=256000000; #每個Map最大輸入大小
set mapred.min.split.size.per.node=100000000; #一個節(jié)點上split的至少的大小
set mapred.min.split.size.per.rack=100000000; #一個交換機(jī)下split的至少的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #執(zhí)行Map前進(jìn)行小文件合并
在開啟了org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一個data node節(jié)點上多個小文件會進(jìn)行合并,合并文件數(shù)由mapred.max.split.size限制的大小決定。
mapred.min.split.size.per.node決定了多個data node上的文件是否需要合并~
mapred.min.split.size.per.rack決定了多個交換機(jī)上的文件是否需要合并~
2.輸出合并
set hive.merge.mapfiles = true #在Map-only的任務(wù)結(jié)束時合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任務(wù)結(jié)束時合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #當(dāng)輸出文件的平均大小小于該值時,啟動一個獨立的map-reduce任務(wù)進(jìn)行文件merge
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“hive中merge小文件的示例分析”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!
分享名稱:hive中merge小文件的示例分析
分享URL:http://chinadenli.net/article36/goeopg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、動態(tài)網(wǎng)站、網(wǎng)站建設(shè)、定制開發(fā)、微信公眾號、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)