2023-11-11 分類(lèi): 網(wǎng)站建設(shè)
模型已更新!
經(jīng)過(guò)數(shù)十年的基礎(chǔ)研究,視覺(jué)識(shí)別領(lǐng)域迎來(lái)了大規(guī)模視覺(jué)表示學(xué)習(xí)的新時(shí)代。 預(yù)訓(xùn)練的大規(guī)模視覺(jué)模型已成為特征學(xué)習(xí)和視覺(jué)應(yīng)用的基本工具。 視覺(jué)表示學(xué)習(xí)系統(tǒng)的性能在很大程度上受三個(gè)主要因素的影響:模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)、用于訓(xùn)練網(wǎng)絡(luò)的方法和訓(xùn)練數(shù)據(jù)。 每個(gè)因素的改進(jìn)都有助于模型整體性能的提高。
神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的創(chuàng)新一直在表示學(xué)習(xí)領(lǐng)域發(fā)揮著重要作用。 創(chuàng)新互聯(lián)架構(gòu)()對(duì)計(jì)算機(jī)視覺(jué)研究產(chǎn)生了重大影響,使得在各種視覺(jué)識(shí)別任務(wù)中使用通用特征學(xué)習(xí)方法成為可能,而無(wú)需依賴(lài)人工實(shí)現(xiàn)的特征工程。 近年來(lái),最初為自然語(yǔ)言處理而開(kāi)發(fā)的架構(gòu)因其對(duì)不同規(guī)模的模型和數(shù)據(jù)集的適用性而開(kāi)始廣泛應(yīng)用于其他深度學(xué)習(xí)領(lǐng)域。
架構(gòu)的出現(xiàn)使傳統(tǒng)架構(gòu)現(xiàn)代化,表明純卷積模型也可以適應(yīng)模型和數(shù)據(jù)集的規(guī)模變化。 然而,探索神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)空間的最常用方法仍然是監(jiān)督學(xué)習(xí)的性能基準(zhǔn)測(cè)試。
另一種思路是將視覺(jué)表示學(xué)習(xí)的重點(diǎn)從標(biāo)記監(jiān)督學(xué)習(xí)轉(zhuǎn)移到自我監(jiān)督預(yù)訓(xùn)練。 自監(jiān)督算法將掩碼語(yǔ)言建模引入視覺(jué)領(lǐng)域,并迅速成為視覺(jué)表示學(xué)習(xí)的流行方法。 然而,自我監(jiān)督學(xué)習(xí)通常使用專(zhuān)為監(jiān)督學(xué)習(xí)設(shè)計(jì)的架構(gòu),并假設(shè)該架構(gòu)是固定的。 例如,掩碼自動(dòng)編碼器 (MAE) 使用視覺(jué)架構(gòu)。
一種方法是將這些架構(gòu)與自我監(jiān)督學(xué)習(xí)框架相結(jié)合,但面臨一些特定問(wèn)題。 例如,當(dāng)與 MAE 結(jié)合時(shí)會(huì)出現(xiàn)一個(gè)問(wèn)題:MAE 具有針對(duì)序列處理能力優(yōu)化的特定編碼器-解碼器設(shè)計(jì),這使得計(jì)算密集型編碼器專(zhuān)注于那些可見(jiàn)的,從而降低預(yù)訓(xùn)練成本。 但這種設(shè)計(jì)可能與使用密集滑動(dòng)窗口的標(biāo)準(zhǔn)設(shè)計(jì)不兼容。 此外,如果不考慮架構(gòu)與訓(xùn)練目標(biāo)之間的關(guān)系seo優(yōu)化,是否可以實(shí)現(xiàn)最佳性能尚不清楚。 事實(shí)上,已經(jīng)表明使用基于掩碼的自監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練是困難的,并且實(shí)驗(yàn)證據(jù)表明 ,并且可能在特征學(xué)習(xí)中發(fā)散,影響最終表示的質(zhì)量。
為此,來(lái)自 Meta 和紐約大學(xué)的研究人員(包括一位作者劉莊和一位作者謝賽寧)提出在同一框架下共同設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)和掩碼自動(dòng)編碼器。 這樣做的目的是讓基于mask的自監(jiān)督學(xué)習(xí)能夠擬合模型并得到媲美的結(jié)果。
論文地址:
在設(shè)計(jì)掩碼自動(dòng)編碼器時(shí),該研究將掩碼輸入視為稀疏集,并使用稀疏卷積來(lái)處理可見(jiàn)部分。 這個(gè)想法的靈感來(lái)自于在處理大規(guī)模 3D 點(diǎn)云時(shí)使用稀疏卷積。 具體來(lái)說(shuō),該研究提出實(shí)現(xiàn)稀疏卷積,然后在微調(diào)時(shí),可以將權(quán)重轉(zhuǎn)換回標(biāo)準(zhǔn)的密集網(wǎng)絡(luò)層,無(wú)需特殊處理。 為了進(jìn)一步提高預(yù)訓(xùn)練效率,本研究將解碼器替換為單個(gè)解碼器網(wǎng)站制作,使整個(gè)設(shè)計(jì)完全卷積。 研究人員觀察到,加入這些變化后:學(xué)習(xí)到的特征是有用的,提高了基線結(jié)果,但微調(diào)后的性能仍然不如基礎(chǔ)模型。
然后,該研究分析了不同訓(xùn)練配置的特征空間。 當(dāng)直接對(duì)屏蔽輸入進(jìn)行訓(xùn)練時(shí),我們發(fā)現(xiàn) MLp 層中存在潛在的特征崩潰 ( ) 問(wèn)題。 為了解決這個(gè)問(wèn)題,本研究提出添加一個(gè)全局響應(yīng)歸一化層 ( ) 來(lái)增強(qiáng)通道之間的特征競(jìng)爭(zhēng)。 當(dāng)使用屏蔽自動(dòng)編碼器對(duì)模型進(jìn)行預(yù)訓(xùn)練時(shí),這種改進(jìn)最為有效,這表明在監(jiān)督學(xué)習(xí)中重用固定架構(gòu)設(shè)計(jì)可能不是最佳選擇。
基于以上改進(jìn),本研究提出了 V2,它在與掩碼自動(dòng)編碼器結(jié)合時(shí)表現(xiàn)出更好的性能。 同時(shí),研究人員發(fā)現(xiàn),V2 在各種下游任務(wù)上比 pure 有顯著的性能提升輕量php框架,包括 上的分類(lèi)任務(wù)、COCO 上的目標(biāo)檢測(cè)和 上的語(yǔ)義分割。
方法介紹
全卷積屏蔽自動(dòng)編碼器
本研究中提出的方法在概念上很簡(jiǎn)單,并且以完全卷積的方式運(yùn)行。 學(xué)習(xí)信號(hào)是通過(guò)以高掩蔽率隨機(jī)掩蔽原始視覺(jué)輸入,然后讓模型從其余部分預(yù)測(cè)缺失部分來(lái)生成的。 整體框架如下圖所示。
該框架由一個(gè)基于稀疏卷積的編碼器和一個(gè)輕量級(jí)解碼器組成,其中自動(dòng)編碼器的結(jié)構(gòu)是不對(duì)稱(chēng)的。 編碼器僅使用可見(jiàn)像素,而解碼器使用編碼像素和掩碼來(lái)重建圖像。 同時(shí),loss只在區(qū)域計(jì)算。
全局響應(yīng)標(biāo)準(zhǔn)化
大腦中有許多促進(jìn)神經(jīng)元多樣性的機(jī)制。 例如,側(cè)抑制可以幫助增強(qiáng)激活神經(jīng)元的反應(yīng),增加單個(gè)神經(jīng)元對(duì)刺激的對(duì)比度和選擇性,同時(shí)還增加神經(jīng)元群體之間反應(yīng)的多樣性。 在深度學(xué)習(xí)中,這種形式的橫向抑制可以通過(guò)響應(yīng)歸一化 ( ) 來(lái)實(shí)現(xiàn)。 該研究引入了一個(gè)新的響應(yīng)歸一化層輕量php框架,稱(chēng)為全局響應(yīng)歸一化 (GRN),旨在提高跨通道的對(duì)比度和選擇性。 GRN 單元包括三個(gè)步驟:1)全局特征聚合,2)特征歸一化,以及 3)特征校準(zhǔn)。 如下圖所示,可以將GRN層合并到原始?jí)K中。
研究人員根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),在應(yīng)用GRN時(shí),不需要,可以刪除。 使用這種新的塊設(shè)計(jì),該研究創(chuàng)建了各種具有不同效率和容量的模型,他們將其稱(chēng)為 V2 模型系列,從輕量級(jí) (Atto) 到計(jì)算密集型 (Huge)。
為了評(píng)估 GRN 的效果,該研究使用該框架來(lái)預(yù)訓(xùn)練 V2。 從下圖 3 的可視化和圖 4 的余弦距離分析可以看出,V2 有效地緩解了特征崩潰問(wèn)題。 余弦距離值一直很高,說(shuō)明可以通過(guò)網(wǎng)絡(luò)層傳輸保持特征多樣性。 這類(lèi)似于使用 MAE 預(yù)訓(xùn)練的 ViT 模型。 這表明在相似的掩碼圖像預(yù)訓(xùn)練框架下,V2 的學(xué)習(xí)行為與 ViT 相似。
該研究進(jìn)一步評(píng)估了微調(diào)性能,結(jié)果如下表所示。
當(dāng)配備 GRN 時(shí),預(yù)訓(xùn)練模型可以顯著優(yōu)于使用 300 訓(xùn)練的監(jiān)督模型。GRN 通過(guò)增強(qiáng)特征多樣性來(lái)提高表示質(zhì)量,這對(duì)于基于掩碼的預(yù)訓(xùn)練至關(guān)重要,而 V1 模型中不存在。 值得注意的是,這種改進(jìn)是在沒(méi)有增加額外參數(shù)開(kāi)銷(xiāo)的情況下實(shí)現(xiàn)的,也沒(méi)有增加 .
最后,該研究還檢驗(yàn)了 GRN 在預(yù)訓(xùn)練和微調(diào)中的重要性。 如下表2(f)所示,無(wú)論是從fine-中移除GRN還是在fine-過(guò)程中加入新初始化的GRN,性能都明顯下降,這說(shuō)明GRN在預(yù)訓(xùn)練和微調(diào)中的重要性。
本文標(biāo)題:輕量php框架模型更新了!大規(guī)模視覺(jué)表征學(xué)習(xí)的新時(shí)代來(lái)了php框架教程
轉(zhuǎn)載注明:http://chinadenli.net/news3/293753.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、網(wǎng)站導(dǎo)航、做網(wǎng)站、App設(shè)計(jì)、云服務(wù)器、定制開(kāi)發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容