本篇內(nèi)容主要講解“ Hive中的分區(qū)和桶是什么意思”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“ Hive中的分區(qū)和桶是什么意思”吧!
建網(wǎng)站原本是網(wǎng)站策劃師、網(wǎng)絡(luò)程序員、網(wǎng)頁設(shè)計師等,應(yīng)用各種網(wǎng)絡(luò)程序開發(fā)技術(shù)和網(wǎng)頁設(shè)計技術(shù)配合操作的協(xié)同工作。創(chuàng)新互聯(lián)建站專業(yè)提供成都網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè),網(wǎng)頁設(shè)計,網(wǎng)站制作(企業(yè)站、響應(yīng)式網(wǎng)站建設(shè)、電商門戶網(wǎng)站)等服務(wù),從網(wǎng)站深度策劃、搜索引擎友好度優(yōu)化到用戶體驗的提升,我們力求做到極致!
hive中的分區(qū)和桶
Hive 把表組織成“分區(qū)” Partition。 這是一種根據(jù)“分區(qū)列”(Partition column,如日期)的值對表進行粗略劃分的機制,使用分區(qū)可以加快數(shù)據(jù)分片(Slice)的查詢速度
表和分區(qū)可以進一步分為“桶”(Bucket)它會為數(shù)據(jù)提供額外的結(jié)果以獲得更高效率的查詢處理,例如,通過根據(jù)用戶ID來劃分桶,我們可以早所有用戶集合的隨機樣本上快速計算基于用戶的查詢。
下面以日志文件進行考慮,日志文件中的每條記錄包含一個分區(qū),我們一般根據(jù)日期來進行分區(qū),同一天的記錄會放在相同的區(qū)中。
分區(qū)是在創(chuàng)建表的時候用partition by 子句定義的,該子句需要定義列的列表
桶的話,可以把該表分成規(guī)定的幾個部分,每個部分是根據(jù)制定的列取模來決定的 下面我們就是根據(jù)ts來對4取模決定桶的
如下:
在我們把數(shù)據(jù)加載到分區(qū)表的時候,要顯示的指定分區(qū)值,比如我們在目錄下面有一個文件 20140418GB.txt 里面有內(nèi)容
我們將該數(shù)據(jù)加載到表logs中
現(xiàn)在來查看HDFS結(jié)構(gòu)和里面的數(shù)據(jù)
我們在eclipse中查看
但是奇怪的是,進去里面的目錄我們可以看到
這里并沒有出現(xiàn)分桶,然后我們進行數(shù)據(jù)查找,以分桶的形式
結(jié)果如下
這個結(jié)果包括了所有三個文件中,符合要求的記錄
我曾單獨的使用過分桶,實驗顯示,如果單獨分桶那么將會看見所分桶的各片,但是分區(qū)和分桶一起來的話,卻只能看見分區(qū)的目錄
我們是不是可以這樣理解,當分區(qū)和分桶一起來時,分好的區(qū)是主流,我們可以看到分區(qū)中的目錄,但是分的桶,我們不再看見,結(jié)構(gòu)存在,只是不顯示
而我們進行查找時,就可以用上了
到此,相信大家對“ Hive中的分區(qū)和桶是什么意思”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學習!
網(wǎng)頁題目:Hive中的分區(qū)和桶是什么意思
本文鏈接:http://chinadenli.net/article18/pghddp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、企業(yè)建站、手機網(wǎng)站建設(shè)、微信公眾號、網(wǎng)站內(nèi)鏈、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)