flinkgo語言,flink基本概念

flink 使用什么語言開發(fā)的

　方法：

成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比三沙網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式三沙網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們，業(yè)務(wù)覆蓋三沙地區(qū)。費(fèi)用合理售后完善，10年實(shí)體公司更值得信賴。

1:Redhat系統(tǒng)或者Fedora或者CentOs的Linux發(fā)行版,那么在Linux終端輸入命令回車:

su - root

這樣就可以切換到root權(quán)限了

2:Ubuntu系統(tǒng),在Linux終端輸入命令回車:

sudo su - root

然后這樣也可以切換到root權(quán)限了.

大數(shù)據(jù)和編程，有什么關(guān)系？

Java是一門編程語言，實(shí)現(xiàn)同一個(gè)需求有上百種編程語言可以完成，Java之于大數(shù)據(jù)，就是一種工具罷了。

大數(shù)據(jù)就是一個(gè)行業(yè)，實(shí)現(xiàn)同一個(gè)需求同樣有多種工具可以選擇，狹義一點(diǎn)以技術(shù)的角度講，各類框架有Hadoop，spark，storm，flink等，就這類技術(shù)生態(tài)圈來講，還有各種中間件如flume，kafka，sqoop等等，這些框架以及工具大多數(shù)是用Java編寫而成，但提供諸如Java，scala，Python，R等各種語言API供編程。

所以，大數(shù)據(jù)的實(shí)習(xí)需要用到Java，但是Java并不是大數(shù)據(jù)。

大數(shù)據(jù)和Java有什么關(guān)系呀？

1. 大數(shù)據(jù)組件使用Java開發(fā)，不用自己管理垃圾回收

目前有很多大數(shù)據(jù)開源項(xiàng)目都是使用Java來開發(fā)，比如Hadoop、Hive、Flink、HBase等等，使用Java開發(fā)有一個(gè)好處就是不用自己去管理程序?qū)ο蟮膬?nèi)存釋放，極大的提升項(xiàng)目的快速開發(fā)性。

在C++語言中，每當(dāng)你創(chuàng)建了一個(gè)對(duì)象指針，你都需要在項(xiàng)目結(jié)束或者程序退出的時(shí)候，自己去一個(gè)一個(gè)的釋放你創(chuàng)建的指針，稍微有點(diǎn)不注意，可能就會(huì)造成泄漏。對(duì)于成千上萬行代碼，有時(shí)候程序員因?yàn)榇中模苋菀拙蜁?huì)忘記釋放指針，結(jié)果就會(huì)導(dǎo)致內(nèi)存泄漏。

而在Java中，由于Java虛擬機(jī)自動(dòng)幫助我們?nèi)メ尫艧o用(對(duì)象引用不可達(dá))的對(duì)象，內(nèi)部也會(huì)根據(jù)堆內(nèi)進(jìn)行分代垃圾回收，同時(shí)有多種垃圾回收器可供選擇，這極大的幫助了程序員更好的開發(fā)項(xiàng)目。所以很多大數(shù)據(jù)組件選擇Java進(jìn)行開發(fā)。

2. 目前使用Java開發(fā)的人數(shù)非常多，便于大數(shù)據(jù)項(xiàng)目推廣

大數(shù)據(jù)開源項(xiàng)目使用Java開發(fā)的另外一個(gè)原因，就是目前在全球使用Java語言的人數(shù)最多，Java編程語言流行度非常高。在推廣大數(shù)據(jù)開源項(xiàng)目時(shí)，可以更好地讓其他同學(xué)了解。下面是2019年9月TIOBE編程語言排行榜：

Java以16.661%排在第一，C語言緊隨其后。比例越高，代表編程語言在程序員中越流行，從而代表語言的使用人數(shù)也越多。

程序員在學(xué)習(xí)大數(shù)據(jù)組件時(shí)，肯定要對(duì)組件進(jìn)行深入研究。研究的過程中，肯定少不了看項(xiàng)目的源代碼。如果大數(shù)據(jù)組件選擇一門非常冷門的編程語言來進(jìn)行開發(fā)，估計(jì)很多程序員在看到源碼時(shí)，就不想研究這門大數(shù)據(jù)組件了。選擇Java語言開發(fā)，讓更多的程序員不會(huì)因?yàn)檎Z言的不熟悉性，而放棄對(duì)這么大數(shù)據(jù)組件的研究。

Java和大數(shù)據(jù)有什么關(guān)系？

簡(jiǎn)單的說Java語言是做大數(shù)據(jù)研發(fā)的工具之一，不少早期做大數(shù)據(jù)平臺(tái)開發(fā)的程序員都是做Java開發(fā)出身，而且Hadoop平臺(tái)本身就是采用Java語言開發(fā)的，所以很多做大數(shù)據(jù)開發(fā)的程序員第一個(gè)排序?qū)嶒?yàn)都是使用Java語言開發(fā)的。所以，Java是早期做大數(shù)據(jù)開發(fā)的基礎(chǔ)之一。

大數(shù)據(jù)確切的說，它并不能算一門具體的技術(shù)，而是一種概念，一種大的技術(shù)范疇。大數(shù)據(jù)主要是用來處理，分析，存儲(chǔ)海量數(shù)據(jù)，對(duì)這些大量的數(shù)據(jù)進(jìn)行加工處理等操作。大數(shù)據(jù)領(lǐng)域里面涉及到Hadoop，hive，flink，hbase，java等各種具體的技術(shù)，看清楚，在這里Java也可以為大數(shù)據(jù)的實(shí)現(xiàn)提供服務(wù)哦。所以可以說，Java可以幫助我們實(shí)現(xiàn)大數(shù)據(jù)的開發(fā)，Java就像是一個(gè)“建筑工人"，它可以把各種數(shù)據(jù)原料整合在一起，構(gòu)建出大數(shù)據(jù)這么一個(gè)環(huán)境。

通常情況下，我們說的大數(shù)據(jù)，是指基于Hadoop的大數(shù)據(jù)生態(tài)，在這個(gè)生態(tài)中，有很多很多的產(chǎn)品，每個(gè)產(chǎn)品負(fù)責(zé)解決大數(shù)據(jù)整體方案中的一個(gè)問題，如Hadoop自身包含MapReduce,Yarn,HDFS等，MapReduce 負(fù)責(zé)批處理計(jì)算，HDFS負(fù)責(zé)的分布式存儲(chǔ)，YARN負(fù)責(zé)資源管理，其他如HBASE負(fù)責(zé)數(shù)據(jù)存儲(chǔ)，等等。這些大數(shù)據(jù)生態(tài)中的不同產(chǎn)品，大部分都是由Java開發(fā)的，所以說它們與Java密不可分。

由于軟件自身由Java開發(fā)，因此基本這些大數(shù)據(jù)產(chǎn)品做開發(fā)，Java語言就是首選，因?yàn)檫@些產(chǎn)品基本都提供Java語言的編程接口API。

還有一些產(chǎn)品，雖然不是用Java語言開發(fā)，但是使用了基于JVM的語言，如Spark是由Scala語言開發(fā)的，而Scala是基于JVM的，這就意味著可以進(jìn)行Scala與Java的混合開發(fā)，同樣離不開Java。

大數(shù)據(jù)框架的編寫支持很多開發(fā)語言，但是Java在大數(shù)據(jù)開發(fā)方面有很大的優(yōu)勢(shì)，目前流行的大數(shù)據(jù)Hadoop框架，很多部分都是用開源的Java語言編寫，因此Java在大數(shù)據(jù)方面有很大優(yōu)勢(shì)。在大數(shù)據(jù)的中，也許別的你可能不在意，但是Hadoop想必你是注意到了的吧，大數(shù)據(jù)中不得不學(xué)的重要內(nèi)容。

轉(zhuǎn)載：阿里巴巴為什么選擇Apache Flink？

本文主要整理自阿里巴巴計(jì)算平臺(tái)事業(yè)部資深技術(shù)專家莫問在云棲大會(huì)的演講。

合抱之木，生于毫末

隨著人工智能時(shí)代的降臨，數(shù)據(jù)量的爆發(fā)，在典型的大數(shù)據(jù)的業(yè)務(wù)場(chǎng)景下數(shù)據(jù)業(yè)務(wù)最通用的做法是：選用批處理的技術(shù)處理全量數(shù)據(jù)，采用流式計(jì)算處理實(shí)時(shí)增量數(shù)據(jù)。在絕大多數(shù)的業(yè)務(wù)場(chǎng)景之下，用戶的業(yè)務(wù)邏輯在批處理和流處理之中往往是相同的。但是，用戶用于批處理和流處理的兩套計(jì)算引擎是不同的。

因此，用戶通常需要寫兩套代碼。毫無疑問，這帶來了一些額外的負(fù)擔(dān)和成本。阿里巴巴的商品數(shù)據(jù)處理就經(jīng)常需要面對(duì)增量和全量兩套不同的業(yè)務(wù)流程問題，所以阿里就在想，我們能不能有一套統(tǒng)一的大數(shù)據(jù)引擎技術(shù)，用戶只需要根據(jù)自己的業(yè)務(wù)邏輯開發(fā)一套代碼。這樣在各種不同的場(chǎng)景下，不管是全量數(shù)據(jù)還是增量數(shù)據(jù)，亦或者實(shí)時(shí)處理，一套方案即可全部支持，這就是阿里選擇Flink的背景和初衷。

目前開源大數(shù)據(jù)計(jì)算引擎有很多選擇，流計(jì)算如Storm,Samza,Flink,Kafka Stream等，批處理如Spark,Hive,Pig,Flink等。而同時(shí)支持流處理和批處理的計(jì)算引擎，只有兩種選擇：一個(gè)是Apache Spark，一個(gè)是Apache Flink。

從技術(shù)，生態(tài)等各方面的綜合考慮。首先，Spark的技術(shù)理念是基于批來模擬流的計(jì)算。而Flink則完全相反，它采用的是基于流計(jì)算來模擬批計(jì)算。

從技術(shù)發(fā)展方向看，用批來模擬流有一定的技術(shù)局限性，并且這個(gè)局限性可能很難突破。而Flink基于流來模擬批，在技術(shù)上有更好的擴(kuò)展性。從長遠(yuǎn)來看，阿里決定用Flink做一個(gè)統(tǒng)一的、通用的大數(shù)據(jù)引擎作為未來的選型。

Flink是一個(gè)低延遲、高吞吐、統(tǒng)一的大數(shù)據(jù)計(jì)算引擎。在阿里巴巴的生產(chǎn)環(huán)境中，F(xiàn)link的計(jì)算平臺(tái)可以實(shí)現(xiàn)毫秒級(jí)的延遲情況下，每秒鐘處理上億次的消息或者事件。同時(shí)Flink提供了一個(gè)Exactly-once的一致性語義。保證了數(shù)據(jù)的正確性。這樣就使得Flink大數(shù)據(jù)引擎可以提供金融級(jí)的數(shù)據(jù)處理能力。

Flink在阿里的現(xiàn)狀

基于Apache Flink在阿里巴巴搭建的平臺(tái)于2016年正式上線，并從阿里巴巴的搜索和推薦這兩大場(chǎng)景開始實(shí)現(xiàn)。目前阿里巴巴所有的業(yè)務(wù)，包括阿里巴巴所有子公司都采用了基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)。同時(shí)Flink計(jì)算平臺(tái)運(yùn)行在開源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調(diào)度，以 HDFS作為數(shù)據(jù)存儲(chǔ)。因此，F(xiàn)link可以和開源大數(shù)據(jù)軟件Hadoop無縫對(duì)接。

目前，這套基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)不僅服務(wù)于阿里巴巴集團(tuán)內(nèi)部，而且通過阿里云的云產(chǎn)品API向整個(gè)開發(fā)者生態(tài)提供基于Flink的云產(chǎn)品支持。

Flink在阿里巴巴的大規(guī)模應(yīng)用，表現(xiàn)如何？

規(guī)模：一個(gè)系統(tǒng)是否成熟，規(guī)模是重要指標(biāo)，F(xiàn)link最初上線阿里巴巴只有數(shù)百臺(tái)服務(wù)器，目前規(guī)模已達(dá)上萬臺(tái)，此等規(guī)模在全球范圍內(nèi)也是屈指可數(shù)；

狀態(tài)數(shù)據(jù)：基于Flink，內(nèi)部積累起來的狀態(tài)數(shù)據(jù)已經(jīng)是PB級(jí)別規(guī)模；

Events：如今每天在Flink的計(jì)算平臺(tái)上，處理的數(shù)據(jù)已經(jīng)超過萬億條；

PS：在峰值期間可以承擔(dān)每秒超過4.72億次的訪問，最典型的應(yīng)用場(chǎng)景是阿里巴巴雙11大屏；

Flink的發(fā)展之路

接下來從開源技術(shù)的角度，來談一談Apache Flink是如何誕生的，它是如何成長的？以及在成長的這個(gè)關(guān)鍵的時(shí)間點(diǎn)阿里是如何進(jìn)入的？并對(duì)它做出了那些貢獻(xiàn)和支持？

Flink誕生于歐洲的一個(gè)大數(shù)據(jù)研究項(xiàng)目StratoSphere。該項(xiàng)目是柏林工業(yè)大學(xué)的一個(gè)研究性項(xiàng)目。早期，F(xiàn)link是做Batch計(jì)算的，但是在2014年，StratoSphere里面的核心成員孵化出Flink，同年將Flink捐贈(zèng)Apache，并在后來成為Apache的頂級(jí)大數(shù)據(jù)項(xiàng)目，同時(shí)Flink計(jì)算的主流方向被定位為Streaming，即用流式計(jì)算來做所有大數(shù)據(jù)的計(jì)算，這就是Flink技術(shù)誕生的背景。

2014年Flink作為主攻流計(jì)算的大數(shù)據(jù)引擎開始在開源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。區(qū)別于Storm,Spark Streaming以及其他流式計(jì)算引擎的是：它不僅是一個(gè)高吞吐、低延遲的計(jì)算引擎，同時(shí)還提供很多高級(jí)的功能。比如它提供了有狀態(tài)的計(jì)算，支持狀態(tài)管理，支持強(qiáng)一致性的數(shù)據(jù)語義以及支持Event Time,WaterMark對(duì)消息亂序的處理。

Flink核心概念以及基本理念

Flink最區(qū)別于其他流計(jì)算引擎的，其實(shí)就是狀態(tài)管理。

什么是狀態(tài)？例如開發(fā)一套流計(jì)算的系統(tǒng)或者任務(wù)做數(shù)據(jù)處理，可能經(jīng)常要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，如Sum,Count,Min,Max,這些值是需要存儲(chǔ)的。因?yàn)橐粩喔拢@些值或者變量就可以理解為一種狀態(tài)。如果數(shù)據(jù)源是在讀取Kafka,RocketMQ，可能要記錄讀取到什么位置，并記錄Offset，這些Offset變量都是要計(jì)算的狀態(tài)。

Flink提供了內(nèi)置的狀態(tài)管理，可以把這些狀態(tài)存儲(chǔ)在Flink內(nèi)部，而不需要把它存儲(chǔ)在外部系統(tǒng)。這樣做的好處是第一降低了計(jì)算引擎對(duì)外部系統(tǒng)的依賴以及部署，使運(yùn)維更加簡(jiǎn)單；第二，對(duì)性能帶來了極大的提升：如果通過外部去訪問，如Redis,HBase它一定是通過網(wǎng)絡(luò)及RPC。如果通過Flink內(nèi)部去訪問，它只通過自身的進(jìn)程去訪問這些變量。同時(shí)Flink會(huì)定期將這些狀態(tài)做Checkpoint持久化，把Checkpoint存儲(chǔ)到一個(gè)分布式的持久化系統(tǒng)中，比如HDFS。這樣的話，當(dāng)Flink的任務(wù)出現(xiàn)任何故障時(shí)，它都會(huì)從最近的一次Checkpoint將整個(gè)流的狀態(tài)進(jìn)行恢復(fù)，然后繼續(xù)運(yùn)行它的流處理。對(duì)用戶沒有任何數(shù)據(jù)上的影響。

Flink是如何做到在Checkpoint恢復(fù)過程中沒有任何數(shù)據(jù)的丟失和數(shù)據(jù)的冗余？來保證精準(zhǔn)計(jì)算的？

這其中原因是Flink利用了一套非常經(jīng)典的Chandy-Lamport算法，它的核心思想是把這個(gè)流計(jì)算看成一個(gè)流式的拓?fù)洌ㄆ趶倪@個(gè)拓?fù)涞念^部Source點(diǎn)開始插入特殊的Barries，從上游開始不斷的向下游廣播這個(gè)Barries。每一個(gè)節(jié)點(diǎn)收到所有的Barries,會(huì)將State做一次Snapshot，當(dāng)每個(gè)節(jié)點(diǎn)都做完Snapshot之后，整個(gè)拓?fù)渚退阃暾淖鐾炅艘淮蜟heckpoint。接下來不管出現(xiàn)任何故障，都會(huì)從最近的Checkpoint進(jìn)行恢復(fù)。

Flink利用這套經(jīng)典的算法，保證了強(qiáng)一致性的語義。這也是Flink與其他無狀態(tài)流計(jì)算引擎的核心區(qū)別。

下面介紹Flink是如何解決亂序問題的。比如星球大戰(zhàn)的播放順序，如果按照上映的時(shí)間觀看，可能會(huì)發(fā)現(xiàn)故事在跳躍。

在流計(jì)算中，與這個(gè)例子是非常類似的。所有消息到來的時(shí)間，和它真正發(fā)生在源頭，在線系統(tǒng)Log當(dāng)中的時(shí)間是不一致的。在流處理當(dāng)中，希望是按消息真正發(fā)生在源頭的順序進(jìn)行處理，不希望是真正到達(dá)程序里的時(shí)間來處理。Flink提供了Event Time和WaterMark的一些先進(jìn)技術(shù)來解決亂序的問題。使得用戶可以有序的處理這個(gè)消息。這是Flink一個(gè)很重要的特點(diǎn)。

接下來要介紹的是Flink啟動(dòng)時(shí)的核心理念和核心概念，這是Flink發(fā)展的第一個(gè)階段；第二個(gè)階段時(shí)間是2015年和2017年，這個(gè)階段也是Flink發(fā)展以及阿里巴巴介入的時(shí)間。故事源于2015年年中，我們?cè)谒阉魇聵I(yè)部的一次調(diào)研。當(dāng)時(shí)阿里有自己的批處理技術(shù)和流計(jì)算技術(shù)，有自研的，也有開源的。但是，為了思考下一代大數(shù)據(jù)引擎的方向以及未來趨勢(shì)，我們做了很多新技術(shù)的調(diào)研。

結(jié)合大量調(diào)研結(jié)果，我們最后得出的結(jié)論是：解決通用大數(shù)據(jù)計(jì)算需求，批流融合的計(jì)算引擎，才是大數(shù)據(jù)技術(shù)的發(fā)展方向，并且最終我們選擇了Flink。

但2015年的Flink還不夠成熟，不管是規(guī)模還是穩(wěn)定性尚未經(jīng)歷實(shí)踐。最后我們決定在阿里內(nèi)部建立一個(gè)Flink分支，對(duì)Flink做大量的修改和完善，讓其適應(yīng)阿里巴巴這種超大規(guī)模的業(yè)務(wù)場(chǎng)景。在這個(gè)過程當(dāng)中，我們團(tuán)隊(duì)不僅對(duì)Flink在性能和穩(wěn)定性上做出了很多改進(jìn)和優(yōu)化，同時(shí)在核心架構(gòu)和功能上也進(jìn)行了大量創(chuàng)新和改進(jìn)，并將其貢獻(xiàn)給社區(qū)，例如：Flink新的分布式架構(gòu)，增量Checkpoint機(jī)制,基于Credit-based的網(wǎng)絡(luò)流控機(jī)制和Streaming SQL等。

阿里巴巴對(duì)Flink社區(qū)的貢獻(xiàn)

我們舉兩個(gè)設(shè)計(jì)案例，第一個(gè)是阿里巴巴重構(gòu)了Flink的分布式架構(gòu)，將Flink的Job調(diào)度和資源管理做了一個(gè)清晰的分層和解耦。這樣做的首要好處是Flink可以原生的跑在各種不同的開源資源管理器上。經(jīng)過這套分布式架構(gòu)的改進(jìn)，F(xiàn)link可以原生地跑在Hadoop Yarn和Kubernetes這兩個(gè)最常見的資源管理系統(tǒng)之上。同時(shí)將Flink的任務(wù)調(diào)度從集中式調(diào)度改為了分布式調(diào)度，這樣Flink就可以支持更大規(guī)模的集群，以及得到更好的資源隔離。

另一個(gè)是實(shí)現(xiàn)了增量的Checkpoint機(jī)制，因?yàn)镕link提供了有狀態(tài)的計(jì)算和定期的Checkpoint機(jī)制，如果內(nèi)部的數(shù)據(jù)越來越多，不停地做Checkpoint,Checkpoint會(huì)越來越大，最后可能導(dǎo)致做不出來。提供了增量的Checkpoint后，F(xiàn)link會(huì)自動(dòng)地發(fā)現(xiàn)哪些數(shù)據(jù)是增量變化，哪些數(shù)據(jù)是被修改了。同時(shí)只將這些修改的數(shù)據(jù)進(jìn)行持久化。這樣Checkpoint不會(huì)隨著時(shí)間的運(yùn)行而越來越難做，整個(gè)系統(tǒng)的性能會(huì)非常地平穩(wěn)，這也是我們貢獻(xiàn)給社區(qū)的一個(gè)很重大的特性。

經(jīng)過2015年到2017年對(duì)Flink Streaming的能力完善，F(xiàn)link社區(qū)也逐漸成熟起來。Flink也成為在Streaming領(lǐng)域最主流的計(jì)算引擎。因?yàn)镕link最早期想做一個(gè)流批統(tǒng)一的大數(shù)據(jù)引擎，2018年已經(jīng)啟動(dòng)這項(xiàng)工作，為了實(shí)現(xiàn)這個(gè)目標(biāo)，阿里巴巴提出了新的統(tǒng)一API架構(gòu)，統(tǒng)一SQL解決方案，同時(shí)流計(jì)算的各種功能得到完善后，我們認(rèn)為批計(jì)算也需要各種各樣的完善。無論在任務(wù)調(diào)度層，還是在數(shù)據(jù)Shuffle層，在容錯(cuò)性，易用性上，都需要完善很多工作。

篇幅原因，下面主要和大家分享兩點(diǎn)：

● 統(tǒng)一 API Stack

● 統(tǒng)一 SQL方案

先來看下目前Flink API Stack的一個(gè)現(xiàn)狀，調(diào)研過Flink或者使用過Flink的開發(fā)者應(yīng)該知道。Flink有2套基礎(chǔ)的API，一套是DataStream，一套是DataSet。DataStream API是針對(duì)流式處理的用戶提供，DataSet API是針對(duì)批處理用戶提供，但是這兩套API的執(zhí)行路徑是完全不一樣的，甚至需要生成不同的Task去執(zhí)行。所以這跟得到統(tǒng)一的API是有沖突的，而且這個(gè)也是不完善的，不是最終的解法。在Runtime之上首先是要有一個(gè)批流統(tǒng)一融合的基礎(chǔ)API層，我們希望可以統(tǒng)一API層。

因此，我們?cè)谛录軜?gòu)中將采用一個(gè)DAG（有限無環(huán)圖）API，作為一個(gè)批流統(tǒng)一的API層。對(duì)于這個(gè)有限無環(huán)圖，批計(jì)算和流計(jì)算不需要涇渭分明的表達(dá)出來。只需要讓開發(fā)者在不同的節(jié)點(diǎn)，不同的邊上定義不同的屬性，來規(guī)劃數(shù)據(jù)是流屬性還是批屬性。整個(gè)拓?fù)涫强梢匀诤吓鹘y(tǒng)一的語義表達(dá)，整個(gè)計(jì)算無需區(qū)分是流計(jì)算還是批計(jì)算，只需要表達(dá)自己的需求。有了這套API后，F(xiàn)link的API Stack將得到統(tǒng)一。

除了統(tǒng)一的基礎(chǔ)API層和統(tǒng)一的API Stack外，同樣在上層統(tǒng)一SQL的解決方案。流和批的SQL，可以認(rèn)為流計(jì)算有數(shù)據(jù)源，批計(jì)算也有數(shù)據(jù)源，我們可以將這兩種源都模擬成數(shù)據(jù)表。可以認(rèn)為流數(shù)據(jù)的數(shù)據(jù)源是一張不斷更新的數(shù)據(jù)表，對(duì)于批處理的數(shù)據(jù)源可以認(rèn)為是一張相對(duì)靜止的表，沒有更新的數(shù)據(jù)表。整個(gè)數(shù)據(jù)處理可以當(dāng)做SQL的一個(gè)Query，最終產(chǎn)生的結(jié)果也可以模擬成一個(gè)結(jié)果表。

對(duì)于流計(jì)算而言，它的結(jié)果表是一張不斷更新的結(jié)果表。對(duì)于批處理而言，它的結(jié)果表是相當(dāng)于一次更新完成的結(jié)果表。從整個(gè)SOL語義上表達(dá)，流和批是可以統(tǒng)一的。此外，不管是流式SQL，還是批處理SQL，都可以用同一個(gè)Query來表達(dá)復(fù)用。這樣以來流批都可以用同一個(gè)Query優(yōu)化或者解析。甚至很多流和批的算子都是可以復(fù)用的。

Flink的未來方向

首先，阿里巴巴還是要立足于Flink的本質(zhì)，去做一個(gè)全能的統(tǒng)一大數(shù)據(jù)計(jì)算引擎。將它在生態(tài)和場(chǎng)景上進(jìn)行落地。目前Flink已經(jīng)是一個(gè)主流的流計(jì)算引擎，很多互聯(lián)網(wǎng)公司已經(jīng)達(dá)成了共識(shí)：Flink是大數(shù)據(jù)的未來，是最好的流計(jì)算引擎。下一步很重要的工作是讓Flink在批計(jì)算上有所突破。在更多的場(chǎng)景下落地，成為一種主流的批計(jì)算引擎。然后進(jìn)一步在流和批之間進(jìn)行無縫的切換，流和批的界限越來越模糊。用Flink,在一個(gè)計(jì)算中，既可以有流計(jì)算，又可以有批計(jì)算。

第二個(gè)方向就是Flink的生態(tài)上有更多語言的支持，不僅僅是Java，Scala語言，甚至是機(jī)器學(xué)習(xí)下用的Python，Go語言。未來我們希望能用更多豐富的語言來開發(fā)Flink計(jì)算的任務(wù)，來描述計(jì)算邏輯，并和更多的生態(tài)進(jìn)行對(duì)接。

最后不得不說AI，因?yàn)楝F(xiàn)在很多大數(shù)據(jù)計(jì)算的需求和數(shù)據(jù)量都是在支持很火爆的AI場(chǎng)景，所以在Flink流批生態(tài)完善的基礎(chǔ)上，將繼續(xù)往上走，完善上層Flink的Machine Learning算法庫，同時(shí)Flink往上層也會(huì)向成熟的機(jī)器學(xué)習(xí)，深度學(xué)習(xí)去集成。比如可以做Tensorflow On Flink, 讓大數(shù)據(jù)的ETL數(shù)據(jù)處理和機(jī)器學(xué)習(xí)的Feature計(jì)算和特征計(jì)算，訓(xùn)練的計(jì)算等進(jìn)行集成，讓開發(fā)者能夠同時(shí)享受到多種生態(tài)給大家?guī)淼暮锰帯?/p>

現(xiàn)在學(xué)習(xí)互聯(lián)網(wǎng)技術(shù)怎么樣？

互聯(lián)網(wǎng)行業(yè)有很多技術(shù)方向可以選擇，在從事互聯(lián)網(wǎng)行業(yè)之前，首先你需要明白自己的技術(shù)興趣和自身情況，選擇一個(gè)適合自己的技術(shù)方向后，然后再去深入的學(xué)習(xí)你選擇的技術(shù)方向的相關(guān)技術(shù)。每一個(gè)互聯(lián)網(wǎng)技術(shù)方向都包含了很多底層技術(shù)。下面我主要來說說大數(shù)據(jù)、后端開發(fā)、機(jī)器學(xué)習(xí)算法主要有哪些技術(shù)學(xué)習(xí)：

大數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)所涉及到相關(guān)技術(shù)主要是和數(shù)據(jù)相關(guān)，在數(shù)據(jù)量非常大的情況下，怎么存儲(chǔ)這些數(shù)據(jù)，怎么通過分布式計(jì)算減低計(jì)算的時(shí)間，以及如何實(shí)施地對(duì)這些數(shù)據(jù)計(jì)算從而產(chǎn)出實(shí)時(shí)指標(biāo)。

大數(shù)據(jù)存儲(chǔ)方面的技術(shù)，你可以學(xué)習(xí)HadoopHDFS分布式文件系統(tǒng)，如何將非常大的數(shù)據(jù)文件，分布式的存儲(chǔ)在不同的機(jī)器上面，同時(shí)如何滿足CAP理論中的AP。在NoSQL數(shù)據(jù)庫中，你可以學(xué)習(xí)HBase列式數(shù)據(jù)庫、圖數(shù)據(jù)庫(Neo4j、JanusGraph)、mongodb等。

離線方面的技術(shù)，你可以學(xué)習(xí)HadoopMapReduce計(jì)算框架、Hive、Spark計(jì)算框架。如果你對(duì)數(shù)據(jù)倉庫感興趣，你還可以去了解數(shù)倉相關(guān)的建模知識(shí)、如何結(jié)合業(yè)務(wù)去構(gòu)建模型等等。

實(shí)時(shí)計(jì)算方向的技術(shù)，你可以去學(xué)習(xí)Storm、SparkStreaming、Flink計(jì)算框架。實(shí)時(shí)計(jì)算的ExactlyOnce或者AtLeastOnce的語義含義，如何實(shí)現(xiàn)狀態(tài)的計(jì)算和存儲(chǔ)等等。

每一個(gè)大數(shù)據(jù)方向，都有很多技術(shù)可以學(xué)習(xí)，你不僅要學(xué)會(huì)這些技術(shù)的使用，還要學(xué)會(huì)它們底層原理的實(shí)現(xiàn)，以后你在大數(shù)據(jù)技術(shù)架構(gòu)方面，可以更加的得得心應(yīng)手。

后臺(tái)開發(fā)相關(guān)技術(shù)

后臺(tái)開發(fā)技術(shù)，更多的是在后臺(tái)處理前端的請(qǐng)求邏輯，前端可以將相關(guān)請(qǐng)求參數(shù)通過HTTP連接傳入到后端，后端接收到請(qǐng)求參數(shù)，進(jìn)行業(yè)務(wù)邏輯處理，然后存儲(chǔ)到數(shù)據(jù)庫等等。

后臺(tái)開發(fā)技術(shù)，所涉及到的技術(shù)很多，在語言方面，你可以去學(xué)習(xí)Java語言、C++語言、Go語言，去學(xué)習(xí)這些語言的底層原理和使用語法。

在數(shù)據(jù)庫存儲(chǔ)方面，你可以去學(xué)習(xí)Mysql、Redis等數(shù)據(jù)庫的使用和原理。在服務(wù)接口開發(fā)方面，你可以去學(xué)習(xí)Dubbo服務(wù)框架。

在后端開發(fā)服務(wù)層方面，你可以去學(xué)習(xí)Sping、SpringBoot、Mybatis、微服務(wù)等等。后端開發(fā)涉及到的技術(shù)真的是太多，任何一門技術(shù)，都需要你用心學(xué)很久才能真正掌握。

機(jī)器學(xué)習(xí)算法相關(guān)技術(shù)

機(jī)器學(xué)習(xí)算法方面，你可以學(xué)習(xí)機(jī)器學(xué)習(xí)基礎(chǔ)的相關(guān)算法，比如線性回歸、K-means、SVM、決策樹、PCA等相關(guān)算法，這些算法怎么實(shí)現(xiàn)的，使用到的場(chǎng)景有哪些。無監(jiān)督算法、半監(jiān)督算法、有監(jiān)督算法之間的區(qū)別，為什么要這么劃分。

當(dāng)你對(duì)機(jī)器學(xué)習(xí)一些比較基礎(chǔ)的算法的都掌握時(shí)，下一步你可以去了解一些更深?yuàn)W的算法，人工神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)，深度學(xué)習(xí)算法、實(shí)時(shí)推薦算法、特征工程等等。你學(xué)習(xí)這些算法技術(shù)的目的不僅僅是學(xué)習(xí)，你可以思考通過這些算法能夠?yàn)楣窘鉀Q哪方面的問題，能給公司帶來哪些收益等。

機(jī)器學(xué)習(xí)算法方面，你可以偏向研究學(xué)習(xí)，那你的目的更多的是發(fā)表相關(guān)論文，提升自己在全球?qū)W者的影響力以及為工業(yè)實(shí)踐化作鋪墊。你也可以偏向機(jī)器學(xué)習(xí)算法應(yīng)用方面，怎么通過機(jī)器學(xué)習(xí)算法，解決公司面臨的問題，從而更好地為公司帶來經(jīng)濟(jì)收益。機(jī)器學(xué)習(xí)的技術(shù)，你一生都學(xué)不完。

總結(jié)

互聯(lián)網(wǎng)有很多技術(shù)方向，而每一個(gè)技術(shù)方向都有很多技術(shù)需要學(xué)習(xí)。你在進(jìn)入互聯(lián)網(wǎng)行業(yè)之前，必須要選擇一個(gè)自己想從事的方向。技術(shù)的學(xué)習(xí)不在于多，而在于深，當(dāng)你對(duì)很多技術(shù)底層的原理都有很深入的了解時(shí)，你會(huì)發(fā)現(xiàn)，其實(shí)大部分技術(shù)底層原理，都有很多相似的地方。這樣你再去擴(kuò)展自己的技術(shù)廣度，會(huì)更加容易。

分享文章：flinkgo語言,flink基本概念
轉(zhuǎn)載來于：http://chinadenli.net/article40/hsheho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供全網(wǎng)營銷推廣、微信小程序、云服務(wù)器、營銷型網(wǎng)站建設(shè)、小程序開發(fā)、響應(yīng)式網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容