欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Transformer的原理及與RNNencoder-decoder比較是怎樣的

今天給大家介紹一下Transformer的原理及與RNN encoder-decoder比較是怎樣的。文章的內(nèi)容小編覺得不錯(cuò),現(xiàn)在給大家分享一下,覺得有需要的朋友可以了解一下,希望對(duì)大家有所幫助,下面跟著小編的思路一起來(lái)閱讀吧。

10年積累的成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有天山免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

1、與RNN encoder-decoder比較

  • 靠attention機(jī)制,不使用rnn和cnn,并行度高

  • 通過(guò)attention,抓長(zhǎng)距離依賴關(guān)系比rnn強(qiáng)

  • transformer的特征抽取能力比RNN系列模型好,seq2seq最大的問題將encoder端的所有信息壓縮到一個(gè)固定長(zhǎng)度的張量中。

Transformer的原理及與RNN encoder-decoder比較是怎樣的

2. Transformer認(rèn)識(shí)

    1) RNN(LSTM, GRU)訓(xùn)練時(shí)迭代,串行的,需等當(dāng)前詞處理完,再處理下一個(gè)詞。Transformer的訓(xùn)練(encoder,decoder)是并行的,所有詞是同時(shí)訓(xùn)練 ,增加了計(jì)算效率。

Transformer的原理及與RNN encoder-decoder比較是怎樣的    

    2) Transformer模型由Encoder和Decoder組成。

Transformer的原理及與RNN encoder-decoder比較是怎樣的 Transformer的原理及與RNN encoder-decoder比較是怎樣的 

3. positional encoding

    1)self-attention無(wú)RNN中的位置信息,在embedding input后加上positional.

    2)位置編碼采用二進(jìn)制表示浪費(fèi)空間,滿足三個(gè)條件即可,它應(yīng)該為每個(gè)字輸出唯一的編碼;不同長(zhǎng)度的句子之間,任何兩個(gè)字之間的差值應(yīng)該保持一致;它的值應(yīng)該是有界的。sin, cos是連續(xù)且可導(dǎo)。

3)公式:Transformer的原理及與RNN encoder-decoder比較是怎樣的

    1)殘差網(wǎng)絡(luò):b` = b + a,    b = (attention or feed farward)(a)

    2)歸一化:與RNN搭配的是Layer Normalization, Transformer用LN

    3)  BN和LN的區(qū)別,BN在batch層對(duì)同一個(gè)dimention做normalization, 均值為0,方差為1;LN不考慮batch層,不同dimention的均值mean為0,方差為1.

5. mask

    1) padding mask

Transformer的原理及與RNN encoder-decoder比較是怎樣的

在softmax時(shí)對(duì)0也會(huì)進(jìn)行運(yùn)算,exp(0)=1, 這樣讓無(wú)效的部分參與了運(yùn)算,會(huì)產(chǎn)生隱患,所以需做一個(gè)mask操作,讓無(wú)效區(qū)域不參與運(yùn)算,一般讓無(wú)效區(qū)域加一個(gè)很大的負(fù)數(shù)偏置。

Tips: 我們通常使用 mini-batch 來(lái)計(jì)算,也就是一次計(jì)算多句話,即x的維度是 [batch_size, seq_length],seq_length是句長(zhǎng),而一個(gè) mini-batch 是由多個(gè)不等長(zhǎng)的句子組成的,我們需要按照這個(gè) mini-batch 中最大的句長(zhǎng)對(duì)剩余的句子進(jìn)行補(bǔ)齊,一般用 0 進(jìn)行填充,這個(gè)過(guò)程叫做 padding.

    2) squence mask

mask, 不給模型看到未來(lái)的信息。當(dāng)Encoder的輸入是:機(jī)器學(xué)習(xí),則decoder的輸入是:<start>machine learning

Transformer Decoder改為self-Attention, 在訓(xùn)練過(guò)程中不像Seq2Seq中RNN的時(shí)間驅(qū)動(dòng)機(jī)制(t時(shí)刻結(jié)束才能看到t+1時(shí)刻的詞),而使得所有未來(lái)詞暴露在Decoder中。Mask使得上三角的詞為0, softmax(-inf)=0

Transformer的原理及與RNN encoder-decoder比較是怎樣的

6. self-attention & multi-head attention

Transformer的原理及與RNN encoder-decoder比較是怎樣的

Transformer的原理及與RNN encoder-decoder比較是怎樣的

Transformer的原理及與RNN encoder-decoder比較是怎樣的

Transformer的原理及與RNN encoder-decoder比較是怎樣的

根據(jù)位置不同,分為self-attention和soft-attention

Transformer的原理及與RNN encoder-decoder比較是怎樣的

    2) multi-head attention

    multi-head可以去關(guān)注不同點(diǎn),注意力側(cè)重點(diǎn)可以在不同方面,最后再將各方面的信息綜合起來(lái),有助于捕捉到更豐富的特征。

Transformer的原理及與RNN encoder-decoder比較是怎樣的

以上就是Transformer的原理及與RNN encoder-decoder比較是怎樣的的全部?jī)?nèi)容了,更多與Transformer的原理及與RNN encoder-decoder比較是怎樣的相關(guān)的內(nèi)容可以搜索創(chuàng)新互聯(lián)之前的文章或者瀏覽下面的文章進(jìn)行學(xué)習(xí)哈!相信小編會(huì)給大家增添更多知識(shí),希望大家能夠支持一下創(chuàng)新互聯(lián)!

網(wǎng)站題目:Transformer的原理及與RNNencoder-decoder比較是怎樣的
網(wǎng)頁(yè)URL:http://chinadenli.net/article36/gdgisg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃移動(dòng)網(wǎng)站建設(shè)全網(wǎng)營(yíng)銷推廣用戶體驗(yàn)外貿(mào)網(wǎng)站建設(shè)Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)