1.Spark的核心概念是RDD (resilient distributed dataset),指的是一個 只讀的,可分區(qū)的分布式數(shù)據(jù)集,這個數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計算間重用。
成都網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計、成都網(wǎng)站建設(shè)、微信開發(fā)、成都小程序開發(fā)、集團成都企業(yè)網(wǎng)站定制等服務(wù)項目。核心團隊均擁有互聯(lián)網(wǎng)行業(yè)多年經(jīng)驗,服務(wù)眾多知名企業(yè)客戶;涵蓋的客戶類型包括:成都雨棚定制等眾多領(lǐng)域,積累了大量豐富的經(jīng)驗,同時也獲得了客戶的一致贊許!
2.RDD在抽象上來說是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個分區(qū),每個分區(qū)分布在集群中的不同Worker節(jié)點上,從而讓RDD中的數(shù)據(jù)可以被并行操作。(分布式數(shù)據(jù)集)
3.RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創(chuàng)建;有時也可以通過RDD的本地創(chuàng)建轉(zhuǎn)換而來。
4.傳統(tǒng)的MapReduce雖然具有自動容錯、平衡負載和可拓展性的優(yōu)點,但是其最大缺點是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計算式要進行大量的磁盤IO操作。RDD正是解決這一缺點的抽象方法。RDD最重要的特性就是,提供了容錯性,可以自動從節(jié)點失敗中恢復(fù)過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計算該partition。這一切對使用者是透明的。RDD的lineage特性。
5.RDD的數(shù)據(jù)默認情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤。(彈性)
RDD在Spark中的地位和作用
1)為什么會有Spark?因為傳統(tǒng)的并行計算模型無法有效的解決迭代計算(iterative)和交互式計算(interactive);而Spark的使命便是解決這兩個問題,這也是他存在的價值和理由。
2)Spark如何解決迭代計算?其主要實現(xiàn)思想就是RDD,把所有計算的數(shù)據(jù)保存在分布式的內(nèi)存中。迭代計算通常情況下都是對同一個數(shù)據(jù)集做反復(fù)的迭代計算,數(shù)據(jù)在內(nèi)存中將大大提升IO操作。這也是Spark涉及的核心:內(nèi)存計算。
3)Spark如何實現(xiàn)交互式計算?因為Spark是用scala語言實現(xiàn)的,Spark和scala能夠緊密的集成,所以Spark可以完美的運用scala的解釋器,使得其中的scala可以向操作本地集合對象一樣輕松操作分布式數(shù)據(jù)集。
4)Spark和RDD的關(guān)系?可以理解為:RDD是一種具有容錯性基于內(nèi)存的集群計算抽象方法,Spark則是這個抽象方法的實現(xiàn)。
結(jié)語
感謝您的觀看,如有不足之處,歡迎批評指正。
如果有對大數(shù)據(jù)感興趣的小伙伴或者是從事大數(shù)據(jù)的老司機可以加群:
658558542
歡迎大家交流分享,學(xué)習(xí)交流,共同進步。(里面還有大量的免費資料,幫助大家在成為大數(shù)據(jù)工程師,乃至架構(gòu)師的路上披荊斬棘?。?/p>
最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己,祝福大家在往后的工作與面試中一切順利。
名稱欄目:解析RDD在Spark中的地位
URL標(biāo)題:http://chinadenli.net/article2/giodic.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、移動網(wǎng)站建設(shè)、標(biāo)簽優(yōu)化、手機網(wǎng)站建設(shè)、云服務(wù)器、品牌網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)