admin 管理员组文章数量: 1184232
原文链接https://jalammar.github.io/illustrated-transformer/
所需知识储备: RNN, Seq2Seq序列模型,Residual残差计算...
自从Attention is All you need 这篇文章发布后,Transformer火的一塌糊涂,热度不低于Bert。接下来让我们一起领略这个号称可以取代RNN,CNN的结构究竟是什么。
概览:
以机器翻译任务来示例,Transformer有着上述的黑盒结构,里面是多层的encoder和decoder:
其中每一个encoder单元有着完全相同的结构(但是并不互相共享权重),每个encoder单元可以分为两层:
encoder的输入首先流入Self-Attention单元,然后进入feed forward network(FFNN),之后完全相同的FFNN被应用在相同位置。
Decoder 的结构与上面的类似,但是中间又多了一个attention层,这使得解码时能够集中在输入句子的最相关部分(与seq2seq模型中使用attention的方法类似):
在上述模型中加入Tensor:
这一部分看图就行,先是词嵌入的表示,然后词嵌入输入encoder:
本文标签: 图文并茂 Transformer Illustrated
版权声明:本文标题:图文并茂解释Transformer--The Illustrated Transformer翻译精简 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1758339143a3084681.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论