如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較，針對這個問題，這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

成都創(chuàng)新互聯(lián)專注于企業(yè)成都營銷網(wǎng)站建設(shè)、網(wǎng)站重做改版、長樂網(wǎng)站定制設(shè)計、自適應(yīng)品牌網(wǎng)站建設(shè)、HTML5建站、商城網(wǎng)站定制開發(fā)、集團(tuán)公司官網(wǎng)建設(shè)、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應(yīng)式網(wǎng)頁設(shè)計等建站業(yè)務(wù)，價格優(yōu)惠性價比高，為長樂等各大城市提供網(wǎng)站開發(fā)制作服務(wù)。

Apache Hudi填補(bǔ)了在DFS上處理數(shù)據(jù)的巨大空白，并可以和一些大數(shù)據(jù)技術(shù)很好地共存。然而，將Hudi與一些相關(guān)系統(tǒng)進(jìn)行對比，來了解Hudi如何適應(yīng)當(dāng)前的大數(shù)據(jù)生態(tài)系統(tǒng)，并知曉這些系統(tǒng)在設(shè)計中做的不同權(quán)衡仍將非常有用。

Kudu

Apache Kudu是一個與Hudi具有相似目標(biāo)的存儲系統(tǒng)，該系統(tǒng)通過對 upserts支持來對PB級數(shù)據(jù)進(jìn)行實(shí)時分析。一個關(guān)鍵的區(qū)別是Kudu還試圖充當(dāng)OLTP工作負(fù)載的數(shù)據(jù)存儲，而Hudi并不希望這樣做。因此，Kudu不支持增量拉取(截至2017年初)，而Hudi支持增量處理。

Kudu與分布式文件系統(tǒng)抽象和HDFS完全不同，它自己的一組存儲服務(wù)器通過RAFT相互通信。與之不同的是，Hudi旨在與底層Hadoop兼容的文件系統(tǒng)(HDFS，S3或Ceph)一起使用，并且沒有自己的存儲服務(wù)器群，而是依靠Apache Spark來完成繁重的工作。因此，Hudi可以像其他Spark作業(yè)一樣輕松擴(kuò)展，而Kudu則需要硬件和運(yùn)營支持，特別是HBase或Vertica等數(shù)據(jù)存儲系統(tǒng)。到目前為止，我們還沒有做任何直接的基準(zhǔn)測試來比較Kudu和Hudi。但是，如果我們要使用CERN，我們預(yù)期Hudi在攝取parquet文件上有更卓越的性能。

Hive事務(wù)

Hive事務(wù)/ACID是另一項類似的工作，它試圖在ORC文件格式之上的實(shí)現(xiàn) 讀取時合并的存儲層?？梢岳斫猓斯δ芘cHive以及LLAP之類的其他工作緊密相關(guān)。Hive事務(wù)不提供Hudi提供的讀取優(yōu)化存儲選項或增量拉取。在實(shí)現(xiàn)選擇方面，Hudi充分利用了類似Spark的處理框架的功能，而Hive事務(wù)特性則在用戶或Hive Metastore啟動的Hive任務(wù)/查詢的下實(shí)現(xiàn)。根據(jù)我們的生產(chǎn)經(jīng)驗(yàn)，與其他方法相比，將Hudi作為庫嵌入到現(xiàn)有的Spark管道中要容易得多，并且操作不會太繁瑣。Hudi還設(shè)計用于與Presto/Spark等非Hive引擎合作，并計劃引入除parquet以外的文件格式。

HBase

盡管HBase最終是OLTP工作負(fù)載的鍵值存儲層，但由于與Hadoop的相似性，用戶通常傾向于將HBase與分析相關(guān)聯(lián)。鑒于HBase經(jīng)過嚴(yán)格的寫優(yōu)化，它支持開箱即用的亞秒級更新，Hive-on-HBase允許用戶查詢該數(shù)據(jù)。但是，就分析工作負(fù)載的實(shí)際性能而言，Parquet/ORC之類的混合列式存儲格式可以輕松超越HBase，因?yàn)檫@些工作負(fù)載主要是讀取繁重的工作。Hudi彌補(bǔ)了更快的數(shù)據(jù)與分析存儲格式之間的差距。從運(yùn)營的角度來看，與管理分析使用的HBase region服務(wù)器集群相比，為用戶提供可更快給出數(shù)據(jù)的庫更具可擴(kuò)展性。最終，HBase不像Hudi這樣重點(diǎn)支持 提交時間、 增量拉取之類的增量處理原語。

流式處理

一個普遍的問題："Hudi與流處理系統(tǒng)有何關(guān)系？"，我們將嘗試回答。簡而言之，Hudi可以與當(dāng)今的批處理( 寫時復(fù)制存儲)和流處理( 讀時合并存儲)作業(yè)集成，以將計算結(jié)果存儲在Hadoop中。對于Spark應(yīng)用程序，這可以通過將Hudi庫與Spark/Spark流式DAG直接集成來實(shí)現(xiàn)。在非Spark處理系統(tǒng)(例如Flink、Hive)情況下，可以在相應(yīng)的系統(tǒng)中進(jìn)行處理，然后通過Kafka主題/DFS中間文件將其發(fā)送到Hudi表中。從概念上講，數(shù)據(jù)處理管道僅由三個部分組成：輸入， 處理， 輸出，用戶最終針對輸出運(yùn)行查詢以便使用管道的結(jié)果。Hudi可以充當(dāng)將數(shù)據(jù)存儲在DFS上的輸入或輸出。Hudi在給定流處理管道上的適用性最終歸結(jié)為你的查詢在Presto/SparkSQL/Hive的適用性。

更高級的用例圍繞增量處理的概念展開，甚至在 處理引擎內(nèi)部也使用Hudi來加速典型的批處理管道。例如：Hudi可用作DAG內(nèi)的狀態(tài)存儲(類似Flink使用的[rocksDB(https://ci.apache.org/projects/flink/flink-docs-release-1.2/ops/state_backends.html#the-rocksdbstatebackend))。這是路線圖上的一個項目并將最終以Beam Runner的形式呈現(xiàn)。

Iceberg & Delta

對于與Iceberg和Delta的對比，可以看如下對比圖（2019年9月之前由Qubole技術(shù)博客提供）。

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較

Hudi社區(qū)并不想通過官方文檔方式來比較與同為數(shù)據(jù)湖開源框架Iceberg和Delta的區(qū)別，因?yàn)檫@可能會讓開發(fā)者覺得Hudi立場不中立，為保持更為中立的立場，社區(qū)更愿意將此比較交給開發(fā)者，讓他們?nèi)ミx擇適合自己的框架。

關(guān)于如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較問題的解答就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。

本文題目：如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較
轉(zhuǎn)載來源：http://chinadenli.net/article18/giijdp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)頁設(shè)計公司、網(wǎng)站設(shè)計公司、關(guān)鍵詞優(yōu)化、品牌網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)、品牌網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何進(jìn)行ApacheHudi與其他類似系統(tǒng)的比較

Kudu

Hive事務(wù)

HBase

流式處理

Iceberg & Delta