⬆︎
×

[LLM] [TSF] 原版Transformer (Attention Is All You Need)

Vanilla Transformer

Attention Is All You Need(2017)

相关内容:注意力机制

在多变量时序的应用方式:

  1. 逐时间步嵌入:一般由MLP完成,现在多为一维卷积
  2. 注意力权重计算:使用自注意力计算每个时间步与其他时间步关系
  3. 经过Encoder Decoder,得到输出序列
    • 在TSF任务中,Decoder的初始输入是零向量
    • 交叉注意力中,来自Encoder的结果会作为注意力的K和V

优点:

  • 自注意力允许每个时间步关注其他所有时间步的信息,且能够并行地提取全局时域信息(RNN一般是串行全局,CNN则并行局部)

缺点:

  • 过高的计算复杂度O(L^2)
  • 并未显式建模不同变量的跨变量(inter-series)依赖关系,仅在MLP生成每个时间步嵌入时有所涉及

《[LLM] [TSF] 原版Transformer (Attention Is All You Need)》有1条评论

发表评论