欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Hadoop與Spark哪個(gè)更好

本篇內(nèi)容介紹了“Hadoop與Spark哪個(gè)更好”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

創(chuàng)新互聯(lián)公司是一家專業(yè)提供大竹企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司、H5高端網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為大竹眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

 Hadoop框架的主要模塊包括如下:

  • Hadoop Common

  • Hadoop分布式文件系統(tǒng)(HDFS)

  • Hadoop YARN

  • Hadoop MapReduce


雖然上述四個(gè)模塊構(gòu)成了Hadoop的核心,不過還有其他幾個(gè)模塊。這些模塊包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop,它們進(jìn)一步增強(qiáng)和擴(kuò)展了Hadoop的功能。

Spark確實(shí)速度很快(最多比Hadoop MapReduce快100倍)。Spark還可以執(zhí)行批量處理,然而它真正擅長的是處理流工作負(fù)載、交互式查詢和機(jī)器學(xué)習(xí)。

相比MapReduce基于磁盤的批量處理引擎,Spark賴以成名之處是其數(shù)據(jù)實(shí)時(shí)處理功能。Spark與Hadoop及其模塊兼容。實(shí)際上,在Hadoop的項(xiàng)目頁面上,Spark就被列為是一個(gè)模塊。

Spark有自己的頁面,因?yàn)殡m然它可以通過YARN(另一種資源協(xié)調(diào)者)在Hadoop集群中運(yùn)行,但是它也有一種獨(dú)立模式。它可以作為 Hadoop模塊來運(yùn)行,也可以作為獨(dú)立解決方案來運(yùn)行。

MapReduce和Spark的主要區(qū)別在于,MapReduce使用持久存儲(chǔ),而Spark使用彈性分布式數(shù)據(jù)集(RDDS)。

性能
Spark之所以如此快速,原因在于它在內(nèi)存中處理一切數(shù)據(jù)。沒錯(cuò),它還可以使用磁盤來處理未全部裝入到內(nèi)存中的數(shù)據(jù)。
Spark的內(nèi)存處理為來自多個(gè)來源的數(shù)據(jù)提供了近乎實(shí)時(shí)分析的功能:營銷活動(dòng)、機(jī)器學(xué)習(xí)、物聯(lián)網(wǎng)傳感器、日志監(jiān)控、安全分析和社交媒體網(wǎng)站。另 外,MapReduce使用批量處理,其實(shí)從來就不是為驚人的速度設(shè)計(jì)的。它的初衷是不斷收集來自網(wǎng)站的信息,不需要這些數(shù)據(jù)具有實(shí)時(shí)性或近乎實(shí)時(shí)性。

易用性
支持Scala(原生語言)、Java、Python和Spark SQL。Spark SQL非常類似于SQL 92,所以幾乎不需要經(jīng)歷一番學(xué)習(xí),馬上可以上手。
Spark還有一種交互模式,那樣開發(fā)人員和用戶都可以獲得查詢和其他操作的即時(shí)反饋。MapReduce沒有交互模式,不過有了Hive和Pig等附加模塊,采用者使用MapReduce來得容易一點(diǎn)。

成本
“Spark已證明在數(shù)據(jù)多達(dá)PB的情況下也輕松自如。它被用于在數(shù)量只有十分之一的機(jī)器上,對(duì)100TB數(shù)據(jù)進(jìn)行排序的速度比Hadoop MapReduce快3倍?!边@一成績(jī)讓Spark成為2014年Daytona GraySort基準(zhǔn)。

兼容性
MapReduce和Spark相互兼容;MapReduce通過JDBC和ODC兼容諸多數(shù)據(jù)源、文件格式和商業(yè)智能工具,Spark具有與MapReduce同樣的兼容性。

數(shù)據(jù)處理
MapReduce是一種批量處理引擎。MapReduce以順序步驟來操作,先從集群讀取數(shù)據(jù),然后對(duì)數(shù)據(jù)執(zhí)行操作,將結(jié)果寫回到集群,從集群讀 取更新后的數(shù)據(jù),執(zhí)行下一個(gè)數(shù)據(jù)操作,將那些結(jié)果寫回到結(jié)果,依次類推。Spark執(zhí)行類似的操作,不過是在內(nèi)存中一步執(zhí)行。它從集群讀取數(shù)據(jù)后,對(duì)數(shù)據(jù) 執(zhí)行操作,然后寫回到集群。

Spark還包括自己的圖形計(jì)算庫GraphX。GraphX讓用戶可以查看與圖形和集合同樣的數(shù)據(jù)。用戶還可以使用彈性分布式數(shù)據(jù)集(RDD),改變和聯(lián)合圖形,容錯(cuò)部分作了討論。

容錯(cuò)
至于容錯(cuò),MapReduce和Spark從兩個(gè)不同的方向來解決問題。MapReduce使用TaskTracker節(jié)點(diǎn),它為 JobTracker節(jié)點(diǎn)提供了心跳(heartbeat)。如果沒有心跳,那么JobTracker節(jié)點(diǎn)重新調(diào)度所有將執(zhí)行的操作和正在進(jìn)行的操作,交 給另一個(gè)TaskTracker節(jié)點(diǎn)。這種方法在提供容錯(cuò)性方面很有效,可是會(huì)大大延長某些操作(即便只有一個(gè)故障)的完成時(shí)間。

Spark使用彈性分布式數(shù)據(jù)集(RDD),它們是容錯(cuò)集合,里面的數(shù)據(jù)元素可執(zhí)行并行操作。RDD可以引用外部存儲(chǔ)系統(tǒng)中的數(shù)據(jù)集,比如共享式文件系統(tǒng)、HDFS、HBase,或者提供Hadoop InputFormat的任何數(shù)據(jù)源。Spark可以用Hadoop支持的任何存儲(chǔ)源創(chuàng)建RDD,包括本地文件系統(tǒng),或前面所列的其中一種文件系統(tǒng)。

RDD擁有五個(gè)主要屬性:

  • 分區(qū)列表

  • 計(jì)算每個(gè)分片的函數(shù)

  • 依賴其他RDD的項(xiàng)目列表

  • 面向鍵值RDD的分區(qū)程序(比如說RDD是散列分區(qū)),這是可選屬性

  • 計(jì)算每個(gè)分片的首選位置的列表(比如HDFS文件的數(shù)據(jù)塊位置),這是可選屬性


RDD可能具有持久性,以便將數(shù)據(jù)集緩存在內(nèi)存中。這樣一來,以后的操作大大加快,最多達(dá)10倍。Spark的緩存具有容錯(cuò)性,原因在于如果RDD的任何分區(qū)丟失,就會(huì)使用原始轉(zhuǎn)換,自動(dòng)重新計(jì)算。

可擴(kuò)展性

按照定義,MapReduce和Spark都可以使用HDFS來擴(kuò)展。那么,Hadoop集群能變得多大呢?

據(jù)稱雅虎有一套42000個(gè)節(jié)點(diǎn)組成的Hadoop集群,可以說擴(kuò)展無極限。最大的已知Spark集群是8000個(gè)節(jié)點(diǎn),不過隨著大數(shù)據(jù)增多,預(yù)計(jì)集群規(guī)模也會(huì)隨之變大,以便繼續(xù)滿足吞吐量方面的預(yù)期。
安全
Hadoop支持Kerberos身份驗(yàn)證,這管理起來有麻煩。然而,第三方廠商讓企業(yè)組織能夠充分利用活動(dòng)目錄Kerberos和LDAP用于身份驗(yàn)證。同樣那些第三方廠商還為傳輸中數(shù)據(jù)和靜態(tài)數(shù)據(jù)提供數(shù)據(jù)加密。
Hadoop分布式文件系統(tǒng)支持訪問控制列表(ACL)和傳統(tǒng)的文件權(quán)限模式。Hadoop為任務(wù)提交中的用戶控制提供了服務(wù)級(jí)授權(quán)(Service Level Authorization),這確??蛻魮碛姓_的權(quán)限。
Spark的安全性弱一點(diǎn),目前只支持通過共享密鑰(密碼驗(yàn)證)的身份驗(yàn)證。Spark在安全方面帶來的好處是,如果你在HDFS上運(yùn)行Spark,它可以使用HDFS ACL和文件級(jí)權(quán)限。此外,Spark可以在YARN上運(yùn)行,因而能夠使用Kerberos身份驗(yàn)證。

“Hadoop與Spark哪個(gè)更好”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

網(wǎng)頁名稱:Hadoop與Spark哪個(gè)更好
當(dāng)前URL:http://chinadenli.net/article6/jgjeig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站、網(wǎng)頁設(shè)計(jì)公司、網(wǎng)站設(shè)計(jì)公司、小程序開發(fā)、響應(yīng)式網(wǎng)站、微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)
精品香蕉国产一区二区三区| 91超频在线视频中文字幕| 亚洲一区二区三区av高清| 国产中文字幕一区二区| 色婷婷人妻av毛片一区二区三区| 成人免费观看视频免费| 99久久精品视频一区二区| 国产一区麻豆水好多高潮| 高清欧美大片免费在线观看| 91精品视频全国免费| 日韩精品在线观看一区| 麻豆印象传媒在线观看| 国产一区国产二区在线视频| 黑人巨大精品欧美一区二区区| 国产精品白丝久久av| 久久99青青精品免费观看| 亚洲午夜福利不卡片在线| 日韩精品少妇人妻一区二区| 麻豆国产精品一区二区三区| 国产又猛又大又长又粗| 久久亚洲精品成人国产| 欧美做爰猛烈叫床大尺度| 国产成人精品99在线观看| 永久福利盒子日韩日韩| 亚洲中文字幕在线综合视频| 中日韩免费一区二区三区| 日本道播放一区二区三区| 欧美人禽色视频免费看| 午夜视频成人在线观看| 黑丝国产精品一区二区| 熟女中文字幕一区二区三区| 国产精品一区二区有码| 亚洲综合精品天堂夜夜| 亚洲男女性生活免费视频| 草草草草在线观看视频| 欧美日韩三区在线观看| 91日韩在线观看你懂的| 国产原创激情一区二区三区| 亚洲最新的黄色录像在线| 亚洲一区二区三区中文久久| 亚洲午夜av久久久精品|