Vanilla Transformer
Attention Is All You Need(2017)
相关内容:注意力机制
在多变量时序的应用方式:
- 逐时间步嵌入:一般由MLP完成,现在多为一维卷积
- 注意力权重计算:使用自注意力计算每个时间步与其他时间步关系
- 经过Encoder Decoder,得到输出序列
- 在TSF任务中,Decoder的初始输入是零向量
- 交叉注意力中,来自Encoder的结果会作为注意力的K和V
优点:
- 自注意力允许每个时间步关注其他所有时间步的信息,且能够并行地提取全局时域信息(RNN一般是串行全局,CNN则并行局部)
缺点:
- 过高的计算复杂度
O(L^2)
- 并未显式建模不同变量的跨变量(inter-series)依赖关系,仅在MLP生成每个时间步嵌入时有所涉及
《[LLM] [TSF] 原版Transformer (Attention Is All You Need)》有1条评论