↻

❮

❯

⬆︎

×

NAV

综合大模型

DeepSeek 豆包 KIMI ChatGLM 讯飞星火通义千问文心一言

GPT-GOD Copilot Grok

控制台

阿里云宝塔面板微信小程序

Overleaf Google Colab Kaggle

Coze 智谱AI 百度智能云百炼

实用工具

图片压缩图片裁剪在线去水印 DeepL

LaTeXLive GitMind Excalidraw

ab173(前端) iP138(驼峰) MaTools HTML格式化 HTML压缩(无注释) Tech.io

信息检索

百度谷歌 Bing GitHub Gitee Gmail

𝕏 微博 Bilibili Youtube Twitch Reddit CSDN

谷歌学术知网 CCF推荐目录谷粉学术

其他资源

Perchance ToolBaz DeepAI Photo2Story

SteamDB SteamGridDB TIOBE

非常规搜索引擎

Xclient FileHorse AppKed

Duplichecker 画像詳細検索 Wayback Machine

Explore your Hyplusite!

随机博文 · 应用导航

软硬件指南 HyPress EX

服务端综合前端·Node.js PHP·WP运维算法题库系统架构设计

Python数据分析数学建模课程深度学习论文精读存档

Hyplus目录

论文精读存档 355字 2分钟📤 🖨

[LLM] [TSF] 原版Transformer (Attention Is All You Need)

2025年6月25日2025年6月25日作者 Akira

Vanilla Transformer

Attention Is All You Need（2017）

相关内容：注意力机制

Hyplus目录

0 在多变量时序的应用

主要流程：

逐时间步嵌入：一般由MLP完成，现在多为一维卷积
注意力权重计算：使用自注意力计算每个时间步与其他时间步关系
经过Encoder Decoder，得到输出序列
- 在TSF任务中，Decoder的初始输入是零向量
- 交叉注意力中，来自Encoder的结果会作为注意力的K和V

优点：

自注意力允许每个时间步关注其他所有时间步的信息，且能够并行地提取全局时域信息（RNN一般是串行全局，CNN则并行局部）

缺点：

过高的计算复杂度 $O(L^2)$
并未显式建模不同变量的跨变量（inter-series）依赖关系，仅在MLP生成每个时间步嵌入时有所涉及

1 简介

网络架构：

缩放点积注意力与多头注意力示意图：

缩放点积注意力与多头注意力

《[LLM] [TSF] 原版Transformer (Attention Is All You Need)》有1条评论

Pingback：时间序列预测模型 – Hyperplasma

发表评论取消回复