欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

探尋流式計算

一、靜態(tài)數(shù)據(jù)和流數(shù)據(jù)

靜態(tài)數(shù)據(jù):為了支持決策分析而構(gòu)建的數(shù)據(jù)倉庫系統(tǒng),其中存放的大量歷史數(shù)據(jù)就是靜態(tài)數(shù)據(jù)。

專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計、做網(wǎng)站服務(wù),電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業(yè)郊區(qū)免費做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了數(shù)千家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實現(xiàn)規(guī)模擴充和轉(zhuǎn)變。

流數(shù)據(jù):以大量、快速、時變的流形式持續(xù)到達的數(shù)據(jù)。(例如:實時產(chǎn)生的日志、用戶實時交易信息)

流數(shù)據(jù)具有以下特點:

(1)、數(shù)據(jù)快速持續(xù)到達,潛在大小也許是無窮無盡的。 (2)、數(shù)據(jù)來源眾多,格式復(fù)雜。 (3)、數(shù)據(jù)量大,但是不十分關(guān)注存儲,一旦經(jīng)過處理,要么被丟棄,要么被歸檔存儲(存儲于數(shù)據(jù)倉庫)。 (4)、注重數(shù)據(jù)的整體價值,不過分關(guān)注個別數(shù)據(jù)。 (5)、數(shù)據(jù)順序顛倒,或者不完整,系統(tǒng)無法控制將要處理的新到達的數(shù)據(jù)元素的順序。

在傳統(tǒng)的數(shù)據(jù)處理流程中,總是先收集數(shù)據(jù),然后將數(shù)據(jù)放到DB中。然后對DB中的數(shù)據(jù)進行處理。

流計算:為了實現(xiàn)數(shù)據(jù)的時效性,實時消費獲取的數(shù)據(jù)。

二、批量計算和流計算

批量計算:充裕時間處理靜態(tài)數(shù)據(jù),如Hadoop。實時性要求不高。

流計算:實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實時分析處理,獲得有價值的信息(實時、多數(shù)據(jù)結(jié)構(gòu)、海量)。

流計算秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低,如用戶點擊流。因此,當(dāng)事件出現(xiàn)時就應(yīng)該立即進行處理,而不是緩存起來進行批量處理。流數(shù)據(jù)數(shù)據(jù)格式復(fù)雜、來源眾多、數(shù)據(jù)量巨大,不適合采用批量計算,必須采用實時計算,響應(yīng)時間為秒級,實時性要求高。批量計算關(guān)注吞吐量,流計算關(guān)注實時性。

流計算的特點:

1、實時(realtime)且***(unbounded)的數(shù)據(jù)流。流計算面對計算的 是實時且流式的,流數(shù)據(jù)是按照時間發(fā)生順序地被流計算訂閱和消費。且由于數(shù)據(jù)發(fā)生的持續(xù)性,數(shù)據(jù)流將長久且持續(xù)地集成進入流計算系統(tǒng)。例如,對于網(wǎng)站的訪問點擊日志流,只要網(wǎng)站不關(guān)閉其點擊日志流將一直不停產(chǎn)生并進入流計算系統(tǒng)。因此,對于流系統(tǒng)而言,數(shù)據(jù)是實時且不終止(***)的。

2、持續(xù)(continuos)且高效的計算。流計算是一種”事件觸發(fā)”的計算模式,觸發(fā)源就是上述的***流式數(shù)據(jù)。一旦有新的流數(shù)據(jù)進入流計算,流計算立刻發(fā)起并進行一次計算任務(wù),因此整個流計算是持續(xù)進行的計算。

3、流式(streaming)且實時的數(shù)據(jù)集成。流數(shù)據(jù)觸發(fā)一次流計算的計算結(jié)果,可以被直接寫入目的數(shù)據(jù)存儲,例如將計算后的報表數(shù)據(jù)直接寫入RDS進行報表展示。因此流數(shù)據(jù)的計算結(jié)果可以類似流式數(shù)據(jù)一樣持續(xù)寫入目的數(shù)據(jù)存儲。

三、流計算框架

為了及時處理流數(shù)據(jù),就需要一個低延遲、可擴展、高可靠的處理引擎。對于一個流計算系統(tǒng)來說,它應(yīng)達到如下需求:

  • 高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)。

  • 海量式:支持TB級甚至是PB級的數(shù)據(jù)規(guī)模。

  • 實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別。

  • 分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴展。

  • 易用性:能夠快速進行開發(fā)和部署。

  • 可靠性:能可靠地處理流數(shù)據(jù)。

目前有三類常見的流計算框架和平臺:商業(yè)級的流計算平臺、開源流計算框架、公司為支持自身業(yè)務(wù)開發(fā)的流計算框架。

(1)商業(yè)級: InfoSphere Streams(IBM)和StreamBase(IBM)。

(2)開源流計算框架,代表如下:Storm(Twitter)、 S4(Yahoo)。

(3)公司為支持自身業(yè)務(wù)開發(fā)的流計算框架:Puma(Facebook)、Dstream(百度)、銀河流數(shù)據(jù)處理平臺(淘寶)。

四、流計算框架Storm

Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架,隨著流計算的應(yīng)用日趨廣泛, Storm的知名度和作用日益提高。接下來介紹Storm的核心組件以及性能對比。

Storm的核心組件

  • Nimbus:即Storm的Master,負(fù)責(zé)資源分配和任務(wù)調(diào)度。一個Storm集群只有一個Nimbus。

  • Supervisor:即Storm的Slave,負(fù)責(zé)接收Nimbus分配的任務(wù),管理所有Worker,一個Supervisor節(jié)點中包含多個Worker進程。

  • Worker:工作進程,每個工作進程中都有多個Task。

  • Task:任務(wù),在 Storm 集群中每個 Spout 和 Bolt 都由若干個任務(wù)(tasks)來執(zhí)行。每個任務(wù)都與一個執(zhí)行線程相對應(yīng)。

  • Topology:計算拓?fù)?,Storm 的拓?fù)涫菍崟r計算應(yīng)用邏輯的封裝,它的作用與 MapReduce 的任務(wù)(Job)很相似,區(qū)別在于 MapReduce 的一個 Job 在得到結(jié)果之后總會結(jié)束,而拓?fù)鋾恢痹诩褐羞\行,直到你手動去終止它。拓?fù)溥€可以理解成由一系列通過數(shù)據(jù)流(Stream Grouping)相互關(guān)聯(lián)的 Spout 和 Bolt 組成的的拓?fù)浣Y(jié)構(gòu)。

  • Stream:數(shù)據(jù)流(Streams)是 Storm 中最核心的抽象概念。一個數(shù)據(jù)流指的是在分布式環(huán)境中并行創(chuàng)建、處理的一組元組(tuple)的***序列。數(shù)據(jù)流可以由一種能夠表述數(shù)據(jù)流中元組的域(fields)的模式來定義。

  • Spout:數(shù)據(jù)源(Spout)是拓?fù)渲袛?shù)據(jù)流的來源。一般 Spout 會從一個外部的數(shù)據(jù)源讀取元組然后將他們發(fā)送到拓?fù)渲?。根?jù)需求的不同,Spout 既可以定義為可靠的數(shù)據(jù)源,也可以定義為不可靠的數(shù)據(jù)源。一個可靠的 Spout能夠在它發(fā)送的元組處理失敗時重新發(fā)送該元組,以確保所有的元組都能得到正確的處理;相對應(yīng)的,不可靠的 Spout 就不會在元組發(fā)送之后對元組進行任何其他的處理。一個 Spout可以發(fā)送多個數(shù)據(jù)流。

  • Bolt:拓?fù)渲兴械臄?shù)據(jù)處理均是由 Bolt 完成的。通過數(shù)據(jù)過濾(filtering)、函數(shù)處理(functions)、聚合(aggregations)、聯(lián)結(jié)(joins)、數(shù)據(jù)庫交互等功能,Bolt 幾乎能夠完成任何一種數(shù)據(jù)處理需求。一個 Bolt 可以實現(xiàn)簡單的數(shù)據(jù)流轉(zhuǎn)換,而更復(fù)雜的數(shù)據(jù)流變換通常需要使用多個 Bolt 并通過多個步驟完成。

  • Stream grouping:為拓?fù)渲械拿總€ Bolt 的確定輸入數(shù)據(jù)流是定義一個拓?fù)涞闹匾h(huán)節(jié)。數(shù)據(jù)流分組定義了在 Bolt 的不同任務(wù)(tasks)中劃分?jǐn)?shù)據(jù)流的方式。在 Storm 中有八種內(nèi)置的數(shù)據(jù)流分組方式。

  • Reliability:可靠性。Storm 可以通過拓?fù)鋪泶_保每個發(fā)送的元組都能得到正確處理。通過跟蹤由 Spout 發(fā)出的每個元組構(gòu)成的元組樹可以確定元組是否已經(jīng)完成處理。每個拓?fù)涠加幸粋€“消息延時”參數(shù),如果 Storm 在延時時間內(nèi)沒有檢測到元組是否處理完成,就會將該元組標(biāo)記為處理失敗,并會在稍后重新發(fā)送該元組。??

探尋流式計算

(圖1:Storm核心組件)鄭州不孕不育醫(yī)院哪好:http://wapyyk.39.net/zz3/zonghe/1d427.html

探尋流式計算

(圖2:Storm編程模型)

主流計算引擎的對比

目前比較流行的實時處理引擎有 Storm,Spark Streaming,F(xiàn)link。每個引擎都有各自的特點和應(yīng)用場景。 下表是對這三個引擎的簡單對比。

探尋流式計算

(圖3:主流引擎性能對比)

總結(jié):流計算的出現(xiàn)拓寬了我們應(yīng)對復(fù)雜實時計算需求能力。Storm作為流計算的利器,極大方便了我們的應(yīng)用。流計算引擎還在不斷發(fā)展,基于Storm和Flink開發(fā)的JStorm,Blink等計算引擎在性能各方面都有極大的提高。流計算值得我們繼續(xù)關(guān)注。http://www.360doc.com/showweb/0/0/860282418.aspx

網(wǎng)頁標(biāo)題:探尋流式計算
URL分享:http://chinadenli.net/article14/pooige.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、企業(yè)建站、微信公眾號、App開發(fā)、域名注冊、營銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)