欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

深度學(xué)習(xí)“深度”有什么意義?

深度學(xué)習(xí)的”深度”, 早幾年討論的挺多的,身邊有不同的理解:深度=更大規(guī)模的網(wǎng)絡(luò),也有認(rèn)為:深度=更抽象的特征,近年來物理上也有人側(cè)面顯示:深度=玻璃相轉(zhuǎn)變,如果后者的觀點成立,那么僅僅引入GPU甚至FPGA硬件的目的只是加快, 沒有算法的幫助(調(diào)參也算一種算法,后面會解釋)是不會加深的!(注:等號表示強關(guān)系,不表示等價)

吐魯番ssl適用于網(wǎng)站、小程序/APP、API接口等需要進行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為成都創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:18982081108(備注:SSL證書合作)期待與您的合作!

度量”深“

這個”深“同復(fù)雜度的聯(lián)系是很緊密的。神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,我們可以使用層數(shù),神經(jīng)元數(shù)目,或者連接權(quán)重數(shù)目作為度量。相對的,數(shù)據(jù)本身的復(fù)雜度,我們用帶標(biāo)簽的數(shù)據(jù)的比例和不帶標(biāo)簽的數(shù)據(jù)的比例來衡量。

深度=規(guī)模網(wǎng)絡(luò)復(fù)雜性同分類誤差之間的聯(lián)系

70-90年代關(guān)于神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)結(jié)論可謂多如牛毛,基本上很多討論了規(guī)模和泛化之間的關(guān)系,尤其是分類問題,關(guān)于分類的訓(xùn)練誤差和測試誤差(泛化能力),基本上歸結(jié)為幾個基本要求和限制:

模型要多復(fù)雜: 增加復(fù)雜度總是能擬合好訓(xùn)練樣本,而要獲得良好的泛化能力,普遍認(rèn)為復(fù)雜度應(yīng)該為訓(xùn)練數(shù)據(jù)數(shù)目的某種冪次,才能有較好的泛化能力。而且冪次要求小于1,若不然,每增加一個訓(xùn)練樣本,都必須要擴充網(wǎng)絡(luò),這種模型沒有任何實際意義。謝天謝地,神經(jīng)網(wǎng)絡(luò)可以滿足這個要求,參考文獻3。 要多少訓(xùn)練數(shù)據(jù):如果網(wǎng)絡(luò)節(jié)點數(shù)為 N,連接權(quán)重數(shù)為W,那么泛化誤差小于任意指定值ε 的一個合理的要求便是: 訓(xùn)練數(shù)據(jù)的數(shù)目 >(W/ε)Log(N/ε),這說明復(fù)雜的模型需要更多的訓(xùn)練以獲得優(yōu)秀的泛化能力!事實上,不斷提高數(shù)據(jù)量,多層感知器模型也能達到目前深度學(xué)習(xí)的水平(參考文獻2),認(rèn)為深度學(xué)習(xí)=普通多層神經(jīng)網(wǎng)絡(luò),的確有現(xiàn)實的理由。 奧卡姆剃刀疑惑:理論上,帶一層隱藏層的核基神經(jīng)網(wǎng)絡(luò)可以將任意數(shù)據(jù)擬合好(理解為級數(shù)展開,每個項就是一個隱藏神經(jīng)元),那么提高復(fù)雜度的作用是啥?無法爭辯的事實是,數(shù)據(jù)量足夠高以后,簡單的分類器都能給出優(yōu)秀的結(jié)果。關(guān)于這一點從相變角度能解釋為何需要實際工程需要一個“過度復(fù)雜的網(wǎng)絡(luò)”,而不是一個大小“剛剛好的”網(wǎng)絡(luò)。 復(fù)雜的代價:一個基本的定理測試誤差 >= 訓(xùn)練誤差 + 模型復(fù)雜度,過度復(fù)雜的代價便是過擬合。防止過擬合的方法沒有通論,業(yè)界通稱“黑魔法”。

上面4點告訴我們的表象是,針對靜態(tài)非時序分類問題,我們貌似可以不要高大上的算法,只要數(shù)據(jù)量足夠,網(wǎng)絡(luò)足夠復(fù)雜,機器夠大,速度夠快,懂點“黑魔法”,在現(xiàn)在的工業(yè)界的數(shù)據(jù)量和模型通常都是用億來衡量其規(guī)模的時代,此乃現(xiàn)世王道。

深度=更多抽象特征?一連串問題來了,何為特征?何為好的特征?深度學(xué)習(xí)的特征為何被稱為抽象的?多層和抽象的關(guān)系是啥?

特征=函數(shù)展開的基函數(shù)?數(shù)學(xué)上將基函數(shù)理解成特征是可以的,當(dāng)然不必要完備,也不必要正交。比如下圖,圖片特征提取,稀疏編碼就是在一堆特征當(dāng)中尋找最少且擬合最好的特征組,前提假設(shè)是圖片都可以被分解為這些特征的線性疊加。然而前提要求分解仍然是線性的,使得機器上好計算,但是實際問題需要的特征通常是不同類型的組合,強行線性組合就像是吃正宗粵菜的時候來個山東煎餅果子一樣。(圖取自吳恩達的slide)

特征=低維流形嵌入

產(chǎn)生成千上萬個沒經(jīng)驗證的特征總是容易的,但去除冗余特征,也就是去掉那些添不添加都不影響結(jié)果的特征,就需要相當(dāng)?shù)募记伞R环N便是通過低維流形去尋找最重要的結(jié)構(gòu),這種方法可以利用多層自編碼去逐層壓縮維度,也可以用傳統(tǒng)多層神經(jīng)網(wǎng)絡(luò)+Isomap類似的方法一步到位地壓縮維度,然后不斷調(diào)整使得嵌入低維的數(shù)據(jù)點“互相分離的最遠”。由于數(shù)據(jù)點靠的近表示相似,故此這種方法能將數(shù)據(jù)本身的平移旋轉(zhuǎn)按順序嵌入到每塊低維子流形當(dāng)中。反過來說,如果訓(xùn)練數(shù)據(jù)已經(jīng)包含有其本身的旋轉(zhuǎn)平移,其低維子流形將會被填充得“更加的豐滿”(如綠色的圓圈,因為手寫數(shù)字1無論如何寫都是“ |” 的某種旋轉(zhuǎn)拉伸),其低維的邊界就更容易被發(fā)現(xiàn)。然而這種方法是假設(shè)數(shù)據(jù)的可解釋性隱藏在其低維流形結(jié)構(gòu)上,難免讓人費解,而且不同標(biāo)簽的嵌入子流形能否被充分分離也是非常困難的事情。(參考G.E.Hinton 06年 nature, Y LeCun,etc)

特征=數(shù)據(jù)拓?fù)?/strong>?似乎研究訓(xùn)練數(shù)據(jù)本身復(fù)雜性的不多,都強調(diào)模型對數(shù)據(jù)的解釋能力。實際上,不論任何數(shù)據(jù),任何奇怪的類型,拓?fù)涠际潜热嗽O(shè)模型更泛的工具。不少人直觀認(rèn)為拓?fù)鋵W(xué)的概括性過強,用作特征沒法表示數(shù)據(jù)的內(nèi)稟結(jié)構(gòu)。其實不然,目前比較火的,如代數(shù)拓?fù)淅锩嬗袀€Persistent homology,其對數(shù)據(jù)主要特征如此敏感,甚至可以用來當(dāng)作蛋白質(zhì)結(jié)構(gòu)的拓?fù)渲讣y,有數(shù)學(xué)家通過這些指紋,甚至發(fā)現(xiàn)一些蛋白數(shù)據(jù)庫的結(jié)構(gòu)錯誤。(參考文獻4,5) 是特征提升“深度”,還是“深度”提升特征

深度=玻璃相轉(zhuǎn)變?何為玻璃相?它對泛化誤差的影響是啥?

,作為區(qū)分兩種狀態(tài)的詞,有個非常現(xiàn)實和直觀的影響便是,外部條件不變的話,從一種相跨到另一種相是有很大難度的!比如水在低溫會結(jié)冰,同樣條件,讓水不結(jié)冰的概率,雖然按照玻爾茲曼分布來看并非為零,過冷水便是一例。但這種狀態(tài)是非常不穩(wěn)定的,一旦擾動很快就變成冰,不可能回到液體。 相變過程=搜索能量最小點,這是一個粗淺的理解,在給定條件下(比如溫度T),相變就是從能量高的狀態(tài)(低溫水)找到能量低的狀態(tài)(冰)。但是該過程不是直線式的下陂過程,期間要翻過一些很小的山頭,描述這些小山頭的阻礙我們用一個正的能量壘ΔE

來表示。其阻礙時間按照阿倫尼烏斯的觀點,正比于N*E^(ΔE/T),指數(shù)型的拖延。前面的參數(shù)N用來形容山頭的多寡。 玻璃相。假設(shè)這些小山頭不是一個,而是體系自由度的指數(shù),雖然每個山頭的高度不高,累計的阻礙仍然非常可觀,甚至嚴(yán)重影響你尋找最小能量態(tài)的可能性,進入這種像踩到瀝青的區(qū)域,我們用玻璃相來形容。如下圖,比如蛋白質(zhì)折疊的能量漏斗模型(能量landscape),從計算機模擬上來看,穿過玻璃轉(zhuǎn)變區(qū)(glass transition)進入能量最小值是最消耗時間的一個區(qū)域。這個過程硬件提速固然重要,但是并行加速是線性的提高,只解決空間復(fù)雜,不解決時間復(fù)雜!玻璃區(qū)域是包含有時間復(fù)雜的,一旦規(guī)模巨大后,沒有算法技巧,尋找能量最低點,在這種非凸的模型上,基本無望。

玻璃世界的山頭類型,這里的山頭不僅包括語義上的山,也包括低谷。數(shù)學(xué)上嚴(yán)格描述應(yīng)該理解為梯度為零的點,梯度為零的點有兩種,鞍點和極值點。梯度下降法中,鞍點總是可以找到出路的,到了極小點就無望了。物理上,鞍點數(shù)目可能會隨著能量不斷下降而慢慢轉(zhuǎn)換成極小點,如下圖便是Lennard-Jones液固轉(zhuǎn)變的模擬計算(文獻7),y軸描述鞍點數(shù)目,系統(tǒng)還沒到達最小能量(變成固體)就被包圍在一堆極小值附近了,這時候采用梯度下降搜索萬億年都是徒勞的。然而這也告訴我們一個希望,沒必要擔(dān)心局部極小,因為一旦到了真正的局部極小,也非常接近最小值了,畢竟大部分區(qū)域都是被鞍點割據(jù)著。

智能是非凸的過程!這是一個非常老的觀點,按照早期的計算能力來看,可想而知地不受歡迎。任何訓(xùn)練都是在最小化某個損失函數(shù)L(W)

或叫能量函數(shù)也可。Y LeCun(文獻6)等人近來研究的觀點顯示,多層卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)雖然是非凸的,但是阻礙其通向最優(yōu)點的山頭屬鞍點居多,是鞍點意味著總是可以找到出路。但是小index的鞍點阻礙能力甚高,而且隨機矩陣?yán)碚摵湍M顯示,神經(jīng)網(wǎng)絡(luò)在一定能量以上的某個區(qū)域全都是這類鞍點,非常類似物理上的Lennard-Jones液固轉(zhuǎn)變過程,這也能理解為何訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)會慢慢開始黏在一個區(qū)域不動,這個區(qū)域的鞍點山頭阻礙都十分可怕(參考8)。(下圖y軸描述鞍點數(shù),橫軸就是損失函數(shù),第4張圖說明能量高到一定程度,鞍點都會消失)

深度=跨越玻璃相?這里要給個問號,畢竟目前理論都不是在真實工業(yè)界的模型下計算出來的,像是一個猜測想法是既然訓(xùn)練存在玻璃阻礙,為何不一開始就把系統(tǒng)初始化到鞍點盡量少的區(qū)域可惜在高維空間判斷鞍點少的區(qū)域是個十分復(fù)雜的問題。但是我們可以降低維度去判斷,比如引入少量外部控制變量—序參數(shù)(權(quán)重的平方和,類似SVM中的間隔,輸入層的偏置,無標(biāo)簽/有標(biāo)簽數(shù)據(jù)數(shù)目等),然后約束這些序參數(shù),按照某種權(quán)重平均掉這些鞍點Wi的貢獻(重要性抽樣說明這約等于將所有W積掉)。由于鞍點多的地方貢獻相對大,序參數(shù)調(diào)整不好會導(dǎo)致平均結(jié)果同其它區(qū)域有明顯不同,因此可以用來判斷相區(qū)。如下圖,log(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標(biāo)簽樣本的數(shù)目,α表示有標(biāo)簽樣本數(shù)。不同顏色的線是不同偏置,藍色線的偏置最小。不論那條顏色的線,增大無標(biāo)簽的樣本原則上可以降低誤差,但是理論上存在“相區(qū)”,如藍色線的上半支和下半支,中間不穩(wěn)定,難以逗留長時間,會存在一支相的誤差一直無法下降。它卡住了!

預(yù)訓(xùn)練能加深!有了控制變量我們可以通過調(diào)整這些值,將損失函數(shù)拖到感興趣的區(qū)域,從而回避相的影響,這個拖動過程由一個日本人今年的研究表明(文獻9),就是無標(biāo)簽的預(yù)訓(xùn)練!如下圖,預(yù)訓(xùn)練越多,有標(biāo)簽的調(diào)優(yōu)能越早找到最小值區(qū)域!(log(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標(biāo)簽樣本的數(shù)目,α表示有標(biāo)簽樣本數(shù),預(yù)訓(xùn)練是RBM之流,激活函數(shù)是ReLu)

不止有預(yù)訓(xùn)練?雖然相的觀點仍然說明這只是一個初始化“黑魔法”而已。但這個步驟確確實實在削弱玻璃相區(qū)的阻礙。因此本人也有個臆測,加大規(guī)模,加大樣本,提取深層特征的深度學(xué)習(xí)是跨越相一個表面技巧而已!或許我們能找到一種跨越或者回避相區(qū)的通用方法,一旦達到此目的,由此獲得的特征或者才是真正的內(nèi)稟表示。

當(dāng)前標(biāo)題:深度學(xué)習(xí)“深度”有什么意義?
標(biāo)題來源:http://chinadenli.net/article36/sdpopg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作定制開發(fā)做網(wǎng)站網(wǎng)站設(shè)計公司App開發(fā)網(wǎng)頁設(shè)計公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)