MaxCompute是什么意思,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供臨潁網(wǎng)站建設(shè)、臨潁做網(wǎng)站、臨潁網(wǎng)站設(shè)計(jì)、臨潁網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、臨潁企業(yè)網(wǎng)站模板建站服務(wù),10年臨潁做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。
很多剛初次接觸MaxCompute的用戶,面對(duì)繁多的產(chǎn)品文檔內(nèi)容以及社區(qū)文章,往往很難快速、全面了解MaxCompute產(chǎn)品全貌。同時(shí),很多擁有大數(shù)據(jù)開發(fā)經(jīng)驗(yàn)的開發(fā)者,也希望能夠結(jié)合自身的背景知識(shí),將MaxCompute產(chǎn)品能力與開源項(xiàng)目、商業(yè)軟件之間建立某種關(guān)聯(lián)和映射,以快速尋找或判斷MaxCompute是否滿足自身的需要,并結(jié)合相關(guān)經(jīng)驗(yàn)更輕松地學(xué)習(xí)和使用產(chǎn)品。
這里將站在一個(gè)更宏觀的視角來分主題地介紹MaxCompute產(chǎn)品,以期讀者能夠通過本文快速獲取對(duì)MaxCompute產(chǎn)品的認(rèn)識(shí)。
概念篇
產(chǎn)品名稱:大數(shù)據(jù)計(jì)算服務(wù)(英文名:MaxCompute)
產(chǎn)品說明:MaxCompute(原ODPS)是一項(xiàng)大數(shù)據(jù)計(jì)算服務(wù),它能提供快速、完全托管的PB級(jí)數(shù)據(jù)倉庫解決方案,使您可以經(jīng)濟(jì)并高效的分析處理海量數(shù)據(jù)。
產(chǎn)品說明的前半部分,將MaxCompute定義為大數(shù)據(jù)計(jì)算服務(wù),可以理解為它的功能定位于支持大數(shù)據(jù)計(jì)算,同時(shí)是一款基于云的服務(wù)化的產(chǎn)品。后半部分,說明了它的適用場(chǎng)景:大規(guī)模數(shù)據(jù)倉庫、海量數(shù)據(jù)處理、分析。
單從這里還不能了解到大數(shù)據(jù)計(jì)算服務(wù)提供了哪些的計(jì)算能力,具備怎樣的服務(wù)化?產(chǎn)品定義中出現(xiàn)了數(shù)據(jù)倉庫字眼,我們能夠了解到MaxCompute能夠處理較大規(guī)模(這里提到了PB級(jí)別)結(jié)構(gòu)化數(shù)據(jù)。而“海量數(shù)據(jù)處理”除了數(shù)據(jù)規(guī)模大之外,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理有待驗(yàn)證,同時(shí)”分析”是否在常見的SQL分析能力之外,提供了其他復(fù)雜分析的能力。
帶著這樣的問題,我們繼續(xù)開始介紹,希望在后面的內(nèi)容中能夠清晰地回答這些問題。
架構(gòu)篇
在介紹功能前,先提綱挈領(lǐng)從產(chǎn)品整體邏輯結(jié)構(gòu)開始,讓讀者有個(gè)全貌了解。
MaxCompute提供了云原生、多租戶的服務(wù)架構(gòu),在底層大規(guī)模計(jì)算、存儲(chǔ)資源之上預(yù)先構(gòu)建好了MaxCompute計(jì)算服務(wù)、服務(wù)接口,提供了配套的安全管控手段和開發(fā)工具管理工具,產(chǎn)品開箱即用。
用戶可以在阿里云控制臺(tái),在幾分鐘內(nèi)完成服務(wù)開通并創(chuàng)建MaxCompute項(xiàng)目,無需進(jìn)行底層資源開通、軟件部署、基礎(chǔ)設(shè)施運(yùn)維,系統(tǒng)自動(dòng)進(jìn)行(由阿里云專業(yè)團(tuán)隊(duì))版本升級(jí)、問題修復(fù)。
功能篇
數(shù)據(jù)存儲(chǔ)
支持大規(guī)模計(jì)算存儲(chǔ),適用于TB以上規(guī)模的存儲(chǔ)及計(jì)算需求,最大可達(dá)EB級(jí)別。同一個(gè)MaxCompute項(xiàng)目支持企業(yè)從創(chuàng)業(yè)團(tuán)隊(duì)發(fā)展到獨(dú)角獸的數(shù)據(jù)規(guī)模需求;
數(shù)據(jù)分布式存儲(chǔ),多副本冗余,數(shù)據(jù)存儲(chǔ)對(duì)外僅開放表的操作接口,不提供文件系統(tǒng)訪問接口
自研數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),表數(shù)據(jù)列式存儲(chǔ),默認(rèn)高度壓縮,后續(xù)將提供兼容ORC的Ali-ORC存儲(chǔ)格式
支持外表,將存儲(chǔ)在OSS對(duì)象存儲(chǔ)、OTS表格存儲(chǔ)的數(shù)據(jù)映射為二維表
支持Partition、Bucket的分區(qū)、分桶存儲(chǔ)
更底層不是HDFS,是阿里自研的盤古文件系統(tǒng),但可借助HDFS理解對(duì)應(yīng)的表之下文件的體系結(jié)構(gòu)、任務(wù)并發(fā)機(jī)制
使用時(shí),存儲(chǔ)與計(jì)算解耦,不需要僅僅為了存儲(chǔ)擴(kuò)大不必要的計(jì)算資源
多種計(jì)算模型
需要說明的是,傳統(tǒng)數(shù)據(jù)倉庫場(chǎng)景下,實(shí)踐中有大部分的數(shù)據(jù)分析需求可以通過SQL+UDF來完成。但隨著企業(yè)對(duì)數(shù)據(jù)價(jià)值的重視以及更多不同的角色開始使用數(shù)據(jù)時(shí),企業(yè)也會(huì)要求有更豐富的計(jì)算功能來滿足不同場(chǎng)景、不同用戶的需求。
MaxCompute不僅僅提供SQL數(shù)據(jù)分析語言,它在統(tǒng)一的數(shù)據(jù)存儲(chǔ)和權(quán)限體系之上,支持了多種計(jì)算類型。
MaxCompute SQL:
TPC-DS 100% 支持,同時(shí)語法高度兼容Hive,有Hive背景開發(fā)者直接上手,特別在大數(shù)據(jù)規(guī)模下性能強(qiáng)大。
完全自主開發(fā)的compiler,語言功能開發(fā)更靈活,迭代快,語法語義檢查更加靈活高效
基于代價(jià)的優(yōu)化器,更智能,更強(qiáng)大,更適合復(fù)雜的查詢
基于LLVM的代碼生成,讓執(zhí)行過程更高效
支持復(fù)雜數(shù)據(jù)類型(array,map,struct)
支持Java、Python語言的UDF/UDAF/UDTF
語法:Values、CTE、SEMIJOIN、FROM倒裝、Subquery Operations、Set Operations(UNION /INTERSECT /MINUS)、SELECT TRANSFORM 、User Defined Type、GROUPING SET(CUBE/rollup/GROUPING SET)、腳本運(yùn)行模式、參數(shù)化視圖
支持外表(外部數(shù)據(jù)源+StorageHandler 支持非結(jié)構(gòu)化數(shù)據(jù))
MapReduce:
支持MapReduce編程接口(提供優(yōu)化增強(qiáng)的MaxCompute MapReduce,也提供高度兼容Hadoop的MapReduce版本)
不暴露文件系統(tǒng),輸入輸出都是表
通過MaxCompute客戶端工具、Dataworks提交作業(yè)
MaxCompute Graph圖模型:
MaxCompute Graph是一套面向迭代的圖計(jì)算處理框架。圖計(jì)算作業(yè)使用圖進(jìn)行建模,圖由點(diǎn)(Vertex)和邊(Edge)組成,點(diǎn)和邊包含權(quán)值(Value)。
通過迭代對(duì)圖進(jìn)行編輯、演化,最終求解出結(jié)果
典型應(yīng)用有:PageRank,單源最短距離算法,K-均值聚類算法等
使用MaxCompute Graph提供的接口Java SDK編寫圖計(jì)算程序并通過MaxCompute客戶端工具通過jar命令提交任務(wù)
PyODPS:
用熟悉的Python利用MaxCompute大規(guī)模計(jì)算能力處理MaxCompute數(shù)據(jù)。
PyODPS是MaxCompute 的 Python SDK,同時(shí)也提供 DataFrame 框架,提供類似 pandas 的語法,能利用 MaxCompute 強(qiáng)大的處理能力來處理超大規(guī)模數(shù)據(jù)。
PyODPS 提供了對(duì) ODPS 對(duì)象比如 表 、資源 、函數(shù) 等的訪問。
支持通過 run_sql/execute_sql 的方式來提交 SQL。
支持通過 open_writer 和 open_reader 或者原生 tunnel API 的方式來上傳下載數(shù)據(jù)
PyODPS 提供了 DataFrame API,它提供了類似 pandas 的接口,能充分利用 MaxCompute 的計(jì)算能力進(jìn)行DataFrame的計(jì)算。
PyODPS DataFrame 提供了很多 pandas-like 的接口,但擴(kuò)展了它的語法,比如增加了 MapReduce API 來擴(kuò)展以適應(yīng)大數(shù)據(jù)環(huán)境。
利用map 、apply 、map_reduce 等方便在客戶端寫函數(shù)、調(diào)用函數(shù)的方法,用戶可在這些函數(shù)里調(diào)用三方庫,如pandas、scipy、scikit-learn、nltk
Spark:
MaxCompute提供了Spark on MaxCompute的解決方案,使MaxCompute提供的兼容開源的Spark計(jì)算服務(wù),讓它在統(tǒng)一的計(jì)算資源和數(shù)據(jù)集權(quán)限體系之上,提供Spark計(jì)算框架,支持用戶以熟悉的開發(fā)使用方式提交運(yùn)行Spark作業(yè)。
支持原生多版本Spark作業(yè):Spark1.x/Spark2.x作業(yè)都可運(yùn)行;
開源系統(tǒng)的使用體驗(yàn):Spark-submit提交方式(暫不支持spark-shell/spark-sql的交互式),提供原生的Spark WebUI供用戶查看;
通過訪問OSS、OTS、database等外部數(shù)據(jù)源,實(shí)現(xiàn)更復(fù)雜的ETL處理,支持對(duì)OSS非結(jié)構(gòu)化進(jìn)行處理;
使用Spark面向MaxCompute內(nèi)外部數(shù)據(jù)開展機(jī)器學(xué)習(xí),擴(kuò)展應(yīng)用場(chǎng)景;
交互式分析(Lightning)
MaxCompute產(chǎn)品的交互式查詢服務(wù),特性如下:
兼容PostgreSQL:兼容PostgreSQL協(xié)議的JDBC/ODBC接口,所有支持PostgreSQL數(shù)據(jù)庫的工具或應(yīng)用使用默認(rèn)驅(qū)動(dòng)都可以輕松地連接到MaxCompute項(xiàng)目。支持主流BI及SQL客戶端工具的連接訪問,如Tableau、帆軟BI、Navicat、SQL Workbench/J等。
顯著提升的查詢性能:提升了一定數(shù)據(jù)規(guī)模下的查詢性能,查詢結(jié)果秒級(jí)可見,支持BI分析、Ad-hoc、在線服務(wù)等場(chǎng)景;
機(jī)器學(xué)習(xí):
MaxCompute內(nèi)建支持的上百種機(jī)器學(xué)習(xí)算法,目前MaxCompute的機(jī)器學(xué)習(xí)能力由PAI產(chǎn)品進(jìn)行統(tǒng)一提供服務(wù),同時(shí)PAI提供了深度學(xué)習(xí)框架、Notebook開發(fā)環(huán)境、GPU計(jì)算資源、模型在線部署的彈性預(yù)測(cè)服務(wù)。PAI產(chǎn)品與MaxCompute在項(xiàng)目和數(shù)據(jù)方面無縫集成。
對(duì)比篇
為便于讀者,特別是有開源社區(qū)經(jīng)驗(yàn)的讀者快速建立對(duì)MaxCompute主要功能的了解,這里做簡(jiǎn)單地映射說明。
項(xiàng)目
MaxCompute產(chǎn)品
對(duì)開源社區(qū)的一些比較說明
SQL
MaxCompute SQL
阿里自研SQL引擎,語法兼容Hive,功能和性能更優(yōu)
MapReduce
MaxCompute MR
阿里自研,類似并支持Hadoop MapReduce,MaxCompute Open MR做了優(yōu)化和提升
交互式
MaxCompute Lightning
Serverless的交互式查詢服務(wù),功能類似開源生態(tài)的Presto、Hawk等
Spark
Spark on MaxCompute
支持原生Spark運(yùn)行在MaxCompute上,類似Spark on Yarn形態(tài)
機(jī)器學(xué)習(xí)
PAI
不同于開源社區(qū)的算法庫,PAI有更豐富的算法,超大規(guī)模處理能力,更是覆蓋了ML/DL全流程需求的平臺(tái)服務(wù)。
存儲(chǔ)
Pangu
阿里自研分布式存儲(chǔ)服務(wù),類似HDFS。MaxCompute對(duì)外目前只暴露表接口,不能直接訪問文件系統(tǒng)。
資源調(diào)度
Fuxi
阿里自研的資源調(diào)度系統(tǒng),類似Yarn。
數(shù)據(jù)上傳下載
Tunnel
不暴露文件系統(tǒng),通過Tunnel進(jìn)行批量數(shù)據(jù)上傳下載。
流式接入
Datahub
MaxCompute配套的流式數(shù)據(jù)接入服務(wù),粗略地類似kafka,能夠通過簡(jiǎn)單配置歸檔topic數(shù)據(jù)到MaxCompute表
用戶接口
CLT/SDK
統(tǒng)一的命令行工具和JAVA/PYTHON SDK
開發(fā)&診斷
Dataworks/Studio/Logview
配套的數(shù)據(jù)同步、作業(yè)開發(fā)、工作流編排調(diào)度、作業(yè)運(yùn)維及診斷工具。開源社區(qū)常見的Sqoop、Kettle、Ozzie等實(shí)現(xiàn)數(shù)據(jù)同步和調(diào)度。
整體
不是孤立的功能,完整的企業(yè)服務(wù)
不需要多組件集成、調(diào)優(yōu)、定制,開箱即用。
問題篇
dataworks和MaxCompute之間的關(guān)系與區(qū)別?
這是2個(gè)產(chǎn)品,MaxCompute做數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析處理,Dataworks是集成了數(shù)據(jù)集成、數(shù)據(jù)開發(fā)調(diào)試、作業(yè)編排及運(yùn)維、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)API服務(wù)等等功能的大數(shù)據(jù)開發(fā)IDE套件。類似Spark和HUE的關(guān)系,不知道這個(gè)對(duì)比是否準(zhǔn)確。
想測(cè)試、體驗(yàn)MaxCompute,成本費(fèi)用高嗎?
不高,應(yīng)該說很低。MaxCompute提供了按作業(yè)付費(fèi)的模式,其中單個(gè)作業(yè)的費(fèi)用有和作業(yè)處理的數(shù)據(jù)大小密切相關(guān)。開通按量付費(fèi)服務(wù),并創(chuàng)建1項(xiàng)目。利用MaxCompute客戶端工具(ODPSCMD)或者在dataworks里,創(chuàng)建表并上傳測(cè)試數(shù)據(jù),就可以開始測(cè)試體驗(yàn)了。數(shù)據(jù)不大的話,10元錢可以用很長一段時(shí)間。
當(dāng)然,MaxCompute還有獨(dú)占資源的模式,出于費(fèi)用可控的考慮,也選擇了預(yù)付費(fèi)的模式。
另外,MaxCompute馬上推出”開發(fā)者版”,每個(gè)月為開發(fā)者贈(zèng)送一定的免費(fèi)額度用于開發(fā)、學(xué)習(xí)。
MaxCompute存儲(chǔ)目前只暴露表,能處理非結(jié)構(gòu)化數(shù)據(jù)嗎?
可以,非結(jié)構(gòu)化數(shù)據(jù)可以存放在OSS上,一種方式是通過外表方式,通過自定義Extractor來實(shí)現(xiàn)非結(jié)構(gòu)化處理為結(jié)構(gòu)化數(shù)據(jù)的邏輯。另外,也可以用Spark on MaxCompute對(duì)OSS進(jìn)行訪問,通過Spark程序?qū)?strong>OSS目錄下的文件進(jìn)行抽取轉(zhuǎn)換,結(jié)果寫入MaxCompute表。
支持哪些數(shù)據(jù)源接入到MaxCompute
通過Dataworks數(shù)據(jù)集成服務(wù)或者自己使用DataX,可以實(shí)現(xiàn)阿里云上的各種離線數(shù)據(jù)源如數(shù)據(jù)庫、HDFS、FTP等數(shù)據(jù)源的接入;
也可以用MaxCompute Tunnel工具/SDK,通過命令或SDK批量進(jìn)行數(shù)據(jù)上傳、下載;
流式數(shù)據(jù),可以利用MaxCompute提供的Flume/logstash插件,將流式數(shù)據(jù)寫入Datahub,然后歸檔到MaxCompute表;
支持阿里云SLS、DTS服務(wù)數(shù)據(jù)寫入MaxCompute表;
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。
當(dāng)前題目:MaxCompute是什么意思
文章地址:http://chinadenli.net/article32/gjoosc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、網(wǎng)頁設(shè)計(jì)公司、網(wǎng)站收錄、網(wǎng)站設(shè)計(jì)、品牌網(wǎng)站制作、做網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)