欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

第三批大數(shù)據(jù)產(chǎn)品能力認證情況綜述

9月1日,由工業(yè)和信息化部指導,中國信息通信研究院、中國通信標準化協(xié)會主辦,數(shù)據(jù)中心聯(lián)盟承辦的“2016可信云大會”在京隆重召開。在9月2日下午的大數(shù)據(jù)分論壇上,中國信息通信研究院技術與標準研究所大數(shù)據(jù)產(chǎn)品認證負責人姜春宇發(fā)表了題為《第三批大數(shù)據(jù)產(chǎn)品能力認證情況綜述》的演講。

成都創(chuàng)新互聯(lián)公司專注于企業(yè)成都全網(wǎng)營銷、網(wǎng)站重做改版、東鄉(xiāng)族網(wǎng)站定制設計、自適應品牌網(wǎng)站建設、H5技術、商城網(wǎng)站制作、集團公司官網(wǎng)建設、外貿(mào)網(wǎng)站制作、高端網(wǎng)站制作、響應式網(wǎng)頁設計等建站業(yè)務,價格優(yōu)惠性價比高,為東鄉(xiāng)族等各大城市提供網(wǎng)站開發(fā)制作服務。

中國信息通信研究院技術與標準研究所大數(shù)據(jù)產(chǎn)品認證負責人 姜春宇

以下是演講實錄:

今年是第二次站在這里,我們今年測評的節(jié)奏比較快一些,三四月份完成了一批,六七八又完成了第三期,今年還會完成第四期。大數(shù)據(jù)發(fā)展的節(jié)奏比較快,所以我們的認證和測算也是在不斷的摸索和前進的過程。我是來自中國信息通信研究院的姜春宇,很榮幸給大家介紹第三批大數(shù)據(jù)產(chǎn)品能力認證的情況。

主要兩個部分,一個是認證情況的介紹,第二部分是我們的總結和下一步的計劃。

首先,我們回顧一下大數(shù)據(jù)產(chǎn)品能力認證的歷程。去年6到8月份了第一批,是華為,移動,星環(huán),中興,ucloud5家企業(yè),今年Hadoop,,Spark數(shù)據(jù)基礎能力認證是6家企業(yè),現(xiàn)在是大數(shù)據(jù)基礎能力和性能專項6家企業(yè),第四批是數(shù)據(jù)庫基礎能力和性能認證,是今年年底。

這是第三批大數(shù)據(jù)產(chǎn)品能力認證的評測對象和指標,分為基礎能力,性能專項,基礎能力有七個維度,性能專項有四大任務。6到8月份我們看到了6家廠商參與了,其中國雙科技參與基礎能力認證,華為,華三,騰訊云,星環(huán),百分點等5家參與了商用版。

我們看基礎能力認證體系,三四月份公布過,這樣的變化不是特別大,以七大項,其中黃色的是可選,其它的是必測。第四批的評估體系有稍微的修改,但是不會太大,認證的流程,這邊是認證的流程,這邊是評審的流程。認證的話,首先是報名,其次是我們的審核材料,測試專家去現(xiàn)場審核,給出一個測試的結論,引入企業(yè)的互評,最后是對評審通過的一些企業(yè)和產(chǎn)品我們頒發(fā)通過的證書,具體的評審流程在右邊,基礎能力的審核方法從五個方面,包括軟件的版本。這是這批通過大數(shù)據(jù)產(chǎn)品能力認證的兩家產(chǎn)品,這是兩個廠商的完成情況,百分點完成了28項預測和10項選側,國雙也是一樣。今年第二批的時候我們會看到一些廠商還沒有完全完成選測,但是現(xiàn)在來看,這兩家的完成度都非常高,這說明我們的標準技術的牽引已經(jīng)起到了作用。

另外,我們觀察到,根據(jù)自己的業(yè)務的不同,廠商的產(chǎn)品呈現(xiàn)出一些特點,比如說百分點趨向數(shù)據(jù)流管理數(shù)據(jù)。國雙更偏向云計算,可視化數(shù)據(jù)流降低平臺的管理成本和門檻。數(shù)據(jù)管理的話,你會用到不同的數(shù)據(jù)架構,數(shù)據(jù)的管理非常重要。

非常重要的一點,流計算也是用戶用的比較多的。一些分析平臺,為機器學習,深度學習,分析平臺,這也是未來的方向。包括一些與云計算融合的趨勢,也是在加劇。市還有性能專項,有SQL,NOSQL,機器學習,MR任務。在SQL任務方面,我們選了5個query,是從負載的代表性上,報表任務,交互類任務,我們跟這些標準的廠商是一起選擇的,nosql,我們選擇HBase工具,也是因為測試周期有限,95%的讀,5%的寫,還有50%的讀和50%的寫,還有讀、更改、寫。MR任務,我們選了terasort,我們一直以來堅持的標準是1TB的數(shù)據(jù)量。機器學習我們選擇了Kmeans和貝葉斯。數(shù)據(jù)規(guī)模,下一步可以承載30TB的能力,是也17個維度表,7個事實表構成的,本次5嗯個語句,涉及了13個表,這是SQL任務。HBase是和去年一樣的,是2億條數(shù)據(jù),從十個客戶端,每個客戶端2億條數(shù)據(jù),這樣的話,大概一條數(shù)據(jù)是1KB的大小,十個客戶端接近2TB。terasrot是29TB,機器學習的負載是中科院的數(shù)據(jù)。

測試環(huán)境,去年是22臺戴爾R7300服務器,今年又買了10臺聯(lián)想R450服務器。審核方式與步驟,可以看到性能的測試比功能的測試要嚴格很多,因為涉及到的點比較多,也比較敏感。審核方法和步驟,測前檢查輸入檢查,過程檢查和結果檢查,文化留存。非常仔細和詳細的,我們爭取做到了在評審的時候,如果有質(zhì)疑,我們所有的結果都可以復寫的原則。

具體的審核,可以看到數(shù)據(jù)大小,表的檢查,表行的最高語句,表和列的內(nèi)容檢查,包括執(zhí)行語句要進行一些對比,我們要清空緩存。

參與本皮性能專項認證的產(chǎn)品是五間,新華三,騰訊,北京東方金信,星環(huán)和百分點。大家可以看到性能的部分測試結果,這是TPC-DS,執(zhí)行的時間量都在百秒內(nèi),可以看到,上下兩個圖可以看出來,第二個SQL47最優(yōu)和中位的差別很大,說明這個是比較難的,有的測的特別好,有的測的特別不好。還有一個是SQL71,它的標準差也是比較高的,說明大家在這塊也是差距比較大的。SQL82,53和84的標準方差較小,說明大家在這三個水平是比較接近的,而且這三個任務是相對來說沒那么費時的。

性能測試的YCSB分別模擬了寫入,并發(fā)寫,模擬了更新任務比較重的場景,模擬了度曲2數(shù)據(jù)再更改,再寫回的場景??梢钥匆幌?,這塊是誰的操作數(shù)越大,誰就越厲害,這不是時間維度來衡量的,剛才的是誰的時間越短越快,這塊美妙的操作數(shù),最優(yōu)的是175萬美妙的操作數(shù),獨占大比例的是148萬每秒的操作數(shù),讀寫各半的是164萬,最后一個是7萬??梢钥吹阶顑?yōu)的往往在百萬級別的。標準方差也可以看到,厲害的有非常厲害的,不厲害的有特別差的。這塊應該是以后參測廠家應該注意的。這塊可能大家有的不太熟悉,做的不太好。

這塊是YCSB執(zhí)行的單位,可以看到執(zhí)行的難以程度,總體來說,寫是最簡單的,因為它的任務是比較單一的,讀的話,還有95%是讀,還有5%的更新。5%的各半稍微難一點,這兩個是相當?shù)?,最慢的是read wand wwrite,我對比了一下,它總歸寫了2億條數(shù)據(jù),但是modify像寫了2億,下面還有1億,它的操作數(shù)比別的多,所以他操作的慢,所以這也解釋通。所以總體來看,寫是最簡單的,最容易的,中間這兩個都差不多,第二個和第三個是差不多50分鐘左右,最后一個是80分鐘??梢钥吹結CSB的耗時也是非常厲害的,在小時級別以上。這是對廠商參加測評的時候負荷是非常大的。

看看機器學習,Kmeans是最優(yōu)是272,中位是913,標準方差是572,這塊大家的水平差距特別大,貝葉斯最優(yōu)是46,它的差別相對小一些,因為執(zhí)行時間是比較少的,標準方差也比較低。這塊我們未來會增加它的難度,因為數(shù)據(jù)量小的話,大家的差別看不出來。

terasort比較有意思,去年是13.6TB最后執(zhí)行時間是在8000多秒,2個小時多一點。這邊是32個節(jié)點,等于說節(jié)點數(shù)擴了一倍多一點點,數(shù)據(jù)規(guī)模也是差不多它的兩倍多一點點。發(fā)現(xiàn)去年的15臺結點算下來151703,畫到圖上簡單來看,并沒有呈現(xiàn)一個完全線性的擴展,或者是一個線性可比性。而有兩種解釋,一種是本身terasort或者是Hadoop數(shù)據(jù)擴展就不會出現(xiàn)線性的擴展。另外,最年的最優(yōu)的測試沒有去年測試好。

terasort最優(yōu)是10083左右,中位值是3小時,這說明這個測試對大家的考驗還是比較大的,因為準方差差不多是1434,一個周期是十個小時,一個測試是一次就3個小時,一天也沒有多少時間。整個測試的周期,我們七天的時間還是非常的緊張的。

總結和下一步的計劃。

性能方面有一些優(yōu)化的思路。硬件的調(diào)優(yōu),操作系統(tǒng)的調(diào)優(yōu),數(shù)據(jù)的分布均勻不均勻,代碼的應用調(diào)優(yōu),核心目標是用盡所有的物理資源,不能讓它閑著。關于Spark,這次SQL和機器學習大部分廠商都采用了Spark,關于Spark,我們調(diào)優(yōu)也有一些總結,就是壓縮和分布數(shù)據(jù),包括資源參數(shù),主要是包括CPU,內(nèi)存比例的關系,這塊需要大家常常去摸索,得出一些經(jīng)驗值。很重要的是要通過資源的監(jiān)控不停的反饋這次調(diào)優(yōu)的參數(shù)比例是不是合理,這跟算法的調(diào)優(yōu)都很像。

Hadoop也是主要是壓縮任務自數(shù)據(jù),還有資源參數(shù)的調(diào)優(yōu)。HBase涉及到壓縮,讀寫的優(yōu)化的策略,還有按選擇合適的線程數(shù)。

還有性能的評測總結,跟去年一樣,我們在統(tǒng)一的平臺,統(tǒng)一的測試數(shù)據(jù),統(tǒng)一的測試供給,統(tǒng)一的測試周期,統(tǒng)一的測試規(guī)則,很多東西你能調(diào),別人也能調(diào),你不能調(diào),別人也不能調(diào),大家的規(guī)則是一樣的。在我們這就是統(tǒng)一的規(guī)則,大家能調(diào)的就都調(diào),不能調(diào)的就都不能調(diào)。大家看到我們評測的應是統(tǒng)一的思路??疾斓慕Y果一個是產(chǎn)品本身的性能,有穩(wěn)定性,包括它的易部署性,包括易運維性,還有組建本身的性能。還有是考察參測團隊綜合使用大數(shù)據(jù)平臺的能力,包括你環(huán)境部署與集群規(guī)劃,測試工具的使用,多任務調(diào)優(yōu)的能力,包括怎么安排你的測試的進度,先測哪些,后測哪些。最后是集群的故障處理和運行維護。在我們的測試中很多集群出現(xiàn)了宕機,因為你是在測性能的極限值??梢钥闯隹疾斓氖钱a(chǎn)品和調(diào)優(yōu)團隊整個的能力。所以考察上是比較全面,綜合。

我們再總結一下困難和特點,首先是任務重,周期緊,我們看到七天的測試周期里,包括措施系統(tǒng)的安裝,平臺的安裝,數(shù)據(jù)的生成,包括我們審核其它的舉證,我們看到terasort中位執(zhí)行時間是3小時,HBase任務中位執(zhí)行時間是29,54,50,39分鐘,另外是覆蓋性,覆蓋了業(yè)務系統(tǒng)里面的典型的一些任務。

第二,我們從來沒在國內(nèi)或者是國外看到類似的32臺集群規(guī)模的配置,使用上BT的數(shù)據(jù)規(guī)模的公開的業(yè)界的測試。所以我們處于業(yè)界比較領先的認證。我們審核的這些取證的這些圖,測試過程是非常的嚴格,我們寧可多減一些,寧可多省一些。另外,評審也是的嚴格,行業(yè)客戶和業(yè)界專家傾聽、質(zhì)疑、答辯。

我們做陳鶴的評測和任何的認證都是存在不足的,我們也承認還有一些局限性的地方,比如說我們現(xiàn)在做的是單向機制,卻說對混合負載的情況。因為你不可能單跑SQL的任務,肯定是多種場景混跑,這些事情我們是缺少的。另外,我們承認現(xiàn)場人員的前期準備,平時的積累和現(xiàn)場的發(fā)揮對測試結果有一定的影響,就像高考一樣,肯定是有一些臨場發(fā)揮和機會在里面的。

另外也和企業(yè)的投入資源有關系,有的企業(yè)可能人不多,但是全部砸到這個項目上,有的且可能厲害的人很多,但是沒有派出來,這都是有可能的。

再一個,由于數(shù)據(jù)生成的限制,我們采用的工具大多數(shù)是開源的工具,我們一直以來都想做場景化的,行業(yè)化的嘗試,這塊我們未來會逐步跟廠商和客戶再去進一步的推進場景化的。

還有周期的限制,我們無法進一步的對穩(wěn)定性作出考量,一個系統(tǒng)在一個月高負載下的情況。另外是機器學習的數(shù)據(jù)量略小。

下一步我們的計劃,我們會引入一些數(shù)據(jù)流可視化,統(tǒng)一考慮權限管理,還有數(shù)據(jù)管理功能,流計算。還有性能,支持跟SQL更緊密兼容性。我們一直以來是想以任務為導向,尋找行業(yè)的性能評測,我們現(xiàn)在已經(jīng)在做評測的標準,第四批會加入MPP數(shù)據(jù)庫的評測。這是下一步的計劃。

認證報名馬上要啟動第四批了,10月8日到12月31日會做第四批基礎能力和性能專項。包括Hadoop與MPP數(shù)據(jù)庫產(chǎn)品??傊?,這是我們一直會堅持做下去的事情,我們也希望成為中國的比較權威,或者是比較領先的大數(shù)據(jù)技術產(chǎn)品的評測機構。也會以此為我們的愿景,一直踐行這些事情,幫助大家選型也罷,評估不同的開源技術,這是我們的愿景。

未來的規(guī)劃,Hadoop和Spark已經(jīng)做了,MPP下一批也有了,數(shù)據(jù)管理的功能,我們會慢慢的在這些平臺上見到。還有一些BI和算法。這是我們的愿景規(guī)劃圖。今天我的分享就到此結束。謝謝。

當前標題:第三批大數(shù)據(jù)產(chǎn)品能力認證情況綜述
本文地址:http://chinadenli.net/article26/sohsjg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供面包屑導航、營銷型網(wǎng)站建設、網(wǎng)站建設、網(wǎng)站設計公司、關鍵詞優(yōu)化、外貿(mào)網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名