12/6每日总结
  3XDZIv8qh70z 2023年12月07日 15 0

今天继续学习了注意力机制,尤其学了添加了attention的seq2seq模型,还学习了自注意力机制,理解了attention机制的精髓

使用注意力机制的seq2seq

之前提到使用两个循环神经网络的编码器解码器结构实现了seq2seq的学习,实现 机器翻译的功能

循环神经网络编码器将可变序列转换为固定形状的上下文变量,然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出序列词元

然而不是所有的输入词元 都对 解码某个词元 都有用,在每个解码步骤中仍使用编码相同的上下文变量

在此时attention的加入就能改变这一点,科威助力模型Bahdanau,在预测词元时,如果不是所有输入词元都相关,模型将仅对齐输入序列中与当前预测相关的部分,这是通过将上下文变量视为注意力集中的输出来实现的

模型图:

上图就是一个带此结构的编码解码器模型 图中,sources经过embedding后进入RNN形成 编码器,编码器对于每次词的输出作为key和 value(它们是同样的) 解码器RNN对上一个词的输出是query attention的输出与下一个词的词嵌入合并后进入下一次的RNN

自注意力机制

12/6每日总结_词元

12/6每日总结_循环神经网络_02

所谓自注意力就是KVQ都是来自同一个输入所得


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月07日 0

暂无评论

推荐阅读
3XDZIv8qh70z
作者其他文章 更多