欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

基于CDP7.1.3的Spark3.0有什么特性

這篇文章主要介紹了基于CDP7.1.3的Spark3.0有什么特性,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

公司主營業(yè)務:成都網站建設、成都網站設計、移動網站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出定南免費做網站回饋大家。

Cloudera正式宣布發(fā)布CDS3,基于Apache Spark 3.0.1,參考:

https://spark.apache.org/news/spark-3-0-1-released.html

這是一個正式版本,可以生產系統(tǒng)中使用。而且這個版本受Cloudera Support支持。

以下是Spark3的關鍵新特性:

1.Spark3的TPC-DS性能進一步提升;

2.語言支持

  a)Scala version is upgraded to 2.12

  b)JDK11 is fully supported.

 c)Python3.6+ is supported. Python 2 and Python 3 prior to version 3.6 are deprecated

3.Adaptive execution of Spark SQL

  a)對于AQE而言,最重要的問題就是什么時候去重新計算優(yōu)化執(zhí)行計劃。Spark任務的算子如果管道排列,依次并行執(zhí)行。然而,shuffle或者broadcast exchange會打斷算子的排列執(zhí)行,我們稱其為物化點(Materialization Points),并且用"Query Stages"來代表那些被物化點所分割的小片段。每個Query Stage會產出中間結果,當且僅當該stage及其并行的所有stage都執(zhí)行完成后,下游的Query Stage才能被執(zhí)行。所以當上游部分stage執(zhí)行完成,partitions的統(tǒng)計數(shù)據(jù)也獲取到了,并且下游還未開始執(zhí)行,這就給AQE提供了reoptimization的機會。在查詢開始時,生成完了執(zhí)行計劃,AQE框架首先會找到并執(zhí)行那些不存在上游的stages。一旦這些stage有一個或多個完成,AQE框架就會將其在physical plan中標記為完成,并根據(jù)已完成的stages提供的執(zhí)行數(shù)據(jù)來更新整個logical plan。基于這些新產出的統(tǒng)計數(shù)據(jù),AQE框架會執(zhí)行optimizer,根據(jù)一系列的優(yōu)化規(guī)則來進行優(yōu)化;AQE框架還會執(zhí)行生成普通physical plan的optimizer以及自適應執(zhí)行專屬的優(yōu)化規(guī)則,例如分區(qū)合并、數(shù)據(jù)傾斜處理等。于是,我們就獲得了最新優(yōu)化過的執(zhí)行計劃和一些已經執(zhí)行完成的stages,至此為一次循環(huán)。接著我們只需要繼續(xù)重復上面的步驟,直到整個query都跑完。

基于CDP7.1.3的Spark3.0有什么特性

基于CDP7.1.3的Spark3.0有什么特性

4.Dynamic Partition Pruning (DPP)

  a)Spark 3.0引入了動態(tài)分區(qū)裁剪功能,這是SQL分析工作負載的一項重大性能改進。DPP背后的想法是將維度表上的篩選器集直接應用到事實表上,以便跳過掃描不需要的分區(qū)。DPP的優(yōu)化是在邏輯計劃優(yōu)化和物理計劃上實現(xiàn)的。它大大增強了許多TPC-DS查詢的速度,并且可以很好的適應星型模型,而無需對表進行反范式化(Denormalization)。

基于CDP7.1.3的Spark3.0有什么特性

5.Binary files data source

  a)Spark 3.0支持二進制文件數(shù)據(jù)源。它可以讀取二進制文件,并將每個文件轉換為包含文件原始內容和元數(shù)據(jù)的一行。

6.DataSource V2 Improvements

  a)Pluggable catalog integration

  b)改進謂詞下推功能,可通過減少數(shù)據(jù)加載來加快查詢速度

7.YARN Features

  a)Spark 3.0可以自動在YARN集群上發(fā)現(xiàn)GPU,并將任務調度到指定的GPU節(jié)點。

8.Kafka connector delegation token (0.10+)

  a)對應用只需要配置Spark的參數(shù)就可以完成認證登錄,而不是非需要使用JAAS配置登錄。

該試驗版本不支持以下組件:

  • Hive Warehouse Connector

  • Kudu

  • HBase Connector

  • Oozie

  • Livy

  • Zeppelin

參考文檔:

https://docs.cloudera.com/cdp-private-cloud-base/7.1.3/cds-3/topics/spark-spark-3-overview.html

下載地址:

http://archive.cloudera.com/p/spark3/3.0.7110.0/csd/SPARK3_ON_YARN-3.0.1.3.0.7110.0-81.jarhttps://archive.cloudera.com/p/spark3/3.0.7110.0/csd/LIVY_FOR_SPARK3-0.6.0.3.0.7110.0-81.jarhttp://archive.cloudera.com/p/spark3/3.0.7110.0/parcels/

感謝你能夠認真閱讀完這篇文章,希望小編分享的“基于CDP7.1.3的Spark3.0有什么特性”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關知識等著你來學習!

網站名稱:基于CDP7.1.3的Spark3.0有什么特性
轉載來源:http://chinadenli.net/article16/isgigg.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站網站改版外貿網站建設商城網站App開發(fā)網站營銷

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網站托管運營