欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

成都創(chuàng)新互聯(lián)專注于企業(yè)成都營銷網(wǎng)站建設(shè)、網(wǎng)站重做改版、長樂網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5建站、商城網(wǎng)站定制開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù),價格優(yōu)惠性價比高,為長樂等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

Apache Hudi填補(bǔ)了在DFS上處理數(shù)據(jù)的巨大空白,并可以和一些大數(shù)據(jù)技術(shù)很好地共存。然而,將Hudi與一些相關(guān)系統(tǒng)進(jìn)行對比,來了解Hudi如何適應(yīng)當(dāng)前的大數(shù)據(jù)生態(tài)系統(tǒng),并知曉這些系統(tǒng)在設(shè)計中做的不同權(quán)衡仍將非常有用。

Kudu

Apache Kudu是一個與Hudi具有相似目標(biāo)的存儲系統(tǒng),該系統(tǒng)通過對 upserts支持來對PB級數(shù)據(jù)進(jìn)行實(shí)時分析。一個關(guān)鍵的區(qū)別是Kudu還試圖充當(dāng)OLTP工作負(fù)載的數(shù)據(jù)存儲,而Hudi并不希望這樣做。因此,Kudu不支持增量拉取(截至2017年初),而Hudi支持增量處理。

Kudu與分布式文件系統(tǒng)抽象和HDFS完全不同,它自己的一組存儲服務(wù)器通過RAFT相互通信。與之不同的是,Hudi旨在與底層Hadoop兼容的文件系統(tǒng)(HDFS,S3或Ceph)一起使用,并且沒有自己的存儲服務(wù)器群,而是依靠Apache Spark來完成繁重的工作。因此,Hudi可以像其他Spark作業(yè)一樣輕松擴(kuò)展,而Kudu則需要硬件和運(yùn)營支持,特別是HBase或Vertica等數(shù)據(jù)存儲系統(tǒng)。到目前為止,我們還沒有做任何直接的基準(zhǔn)測試來比較Kudu和Hudi。但是,如果我們要使用CERN,我們預(yù)期Hudi在攝取parquet文件上有更卓越的性能。

Hive事務(wù)

Hive事務(wù)/ACID是另一項類似的工作,它試圖在ORC文件格式之上的實(shí)現(xiàn) 讀取時合并的存儲層??梢岳斫猓斯δ芘cHive以及LLAP之類的其他工作緊密相關(guān)。Hive事務(wù)不提供Hudi提供的讀取優(yōu)化存儲選項或增量拉取。在實(shí)現(xiàn)選擇方面,Hudi充分利用了類似Spark的處理框架的功能,而Hive事務(wù)特性則在用戶或Hive Metastore啟動的Hive任務(wù)/查詢的下實(shí)現(xiàn)。根據(jù)我們的生產(chǎn)經(jīng)驗(yàn),與其他方法相比,將Hudi作為庫嵌入到現(xiàn)有的Spark管道中要容易得多,并且操作不會太繁瑣。Hudi還設(shè)計用于與Presto/Spark等非Hive引擎合作,并計劃引入除parquet以外的文件格式。

HBase

盡管HBase最終是OLTP工作負(fù)載的鍵值存儲層,但由于與Hadoop的相似性,用戶通常傾向于將HBase與分析相關(guān)聯(lián)。鑒于HBase經(jīng)過嚴(yán)格的寫優(yōu)化,它支持開箱即用的亞秒級更新,Hive-on-HBase允許用戶查詢該數(shù)據(jù)。但是,就分析工作負(fù)載的實(shí)際性能而言,Parquet/ORC之類的混合列式存儲格式可以輕松超越HBase,因?yàn)檫@些工作負(fù)載主要是讀取繁重的工作。Hudi彌補(bǔ)了更快的數(shù)據(jù)與分析存儲格式之間的差距。從運(yùn)營的角度來看,與管理分析使用的HBase region服務(wù)器集群相比,為用戶提供可更快給出數(shù)據(jù)的庫更具可擴(kuò)展性。最終,HBase不像Hudi這樣重點(diǎn)支持 提交時間增量拉取之類的增量處理原語。

流式處理

一個普遍的問題:"Hudi與流處理系統(tǒng)有何關(guān)系?",我們將嘗試回答。簡而言之,Hudi可以與當(dāng)今的批處理( 寫時復(fù)制存儲)和流處理( 讀時合并存儲)作業(yè)集成,以將計算結(jié)果存儲在Hadoop中。對于Spark應(yīng)用程序,這可以通過將Hudi庫與Spark/Spark流式DAG直接集成來實(shí)現(xiàn)。在非Spark處理系統(tǒng)(例如Flink、Hive)情況下,可以在相應(yīng)的系統(tǒng)中進(jìn)行處理,然后通過Kafka主題/DFS中間文件將其發(fā)送到Hudi表中。從概念上講,數(shù)據(jù)處理管道僅由三個部分組成:輸入, 處理輸出,用戶最終針對輸出運(yùn)行查詢以便使用管道的結(jié)果。Hudi可以充當(dāng)將數(shù)據(jù)存儲在DFS上的輸入或輸出。Hudi在給定流處理管道上的適用性最終歸結(jié)為你的查詢在Presto/SparkSQL/Hive的適用性。

更高級的用例圍繞增量處理的概念展開,甚至在 處理引擎內(nèi)部也使用Hudi來加速典型的批處理管道。例如:Hudi可用作DAG內(nèi)的狀態(tài)存儲(類似Flink使用的[rocksDB(https://ci.apache.org/projects/flink/flink-docs-release-1.2/ops/state_backends.html#the-rocksdbstatebackend))。這是路線圖上的一個項目并將最終以Beam Runner的形式呈現(xiàn)。

Iceberg & Delta

對于與Iceberg和Delta的對比,可以看如下對比圖(2019年9月之前由Qubole技術(shù)博客提供)。

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較

Hudi社區(qū)并不想通過官方文檔方式來比較與同為數(shù)據(jù)湖開源框架Iceberg和Delta的區(qū)別,因?yàn)檫@可能會讓開發(fā)者覺得Hudi立場不中立,為保持更為中立的立場,社區(qū)更愿意將此比較交給開發(fā)者,讓他們?nèi)ミx擇適合自己的框架。

關(guān)于如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。

本文題目:如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較
轉(zhuǎn)載來源:http://chinadenli.net/article18/giijdp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)頁設(shè)計公司網(wǎng)站設(shè)計公司、關(guān)鍵詞優(yōu)化品牌網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)