12/10每日总结
  3XDZIv8qh70z 2023年12月11日 19 0

transformer

transformer架构

12/10每日总结_全连接

transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层

第一个子层是多头自注意力汇聚,第二个子层是基于位置的前馈网络

收到残差网络的启发,每个子层都采用了残差连接

transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外,解码器还在这两个子层中插入了第三个子层,成为编码器-解码器注意力层,

多头注意力

12/10每日总结_编码器_02

多头注意力是一种特殊的使用自注意力的结构

是说同一k,v,q,希望抽取不同的信息,例如短距离关系和长距离关系

多头注意力使用h个独立的注意力池化,合并各个头输出得到最后的输出

有掩码的多头注意力

训练解码器对于序列中一个元素输出时,不应该考虑该元素之后的元素,可以通过掩码来实现,也就是计算X_i输出时,假装当前序列长度为i

基于位置的前馈网络

也就是图中的逐位前馈网络

实际上就是全连接,batch_size,n—》序列长度,dimension

由于n的长度不是固定的

  • 将输入形状由(b,n,d)变换成(bn,d)
  • 作用两个全连接层
  • 输出形状由(bn,d)变换回(b,n,d)
  • 等价于两层核窗口为1的一维卷积层

层归一化


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月11日 0

暂无评论

推荐阅读
3XDZIv8qh70z
作者其他文章 更多