时序预测（Time-Series Forecasting）模型简介！前置知识：LSTM、RNN、注意力机制、时间序列预测任务简介。

HyMTSF is a collection of various Multivariate Time-Series Forecasting (MTSF) models. Might be used in contrast experiments later. All datasets are from Autoformer.

GitHub：github.com/hyperplasma/tsf-demo
Gitee：gitee.com/hyperplasma/HyMTSF

Hyplus目录

1 综述

优质综述论文或博客专栏：

名称	年代	特点	备注
A Comprehensive Survey of Deep Learning for Time Series Forecasting: Architectural Diversity and Open Challenges	2025	全方位概述	-
A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy Perspective	2025	多变量预测；通道策略视角	-
A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection	2024	GNN时序预测	-
【知乎】时间序列预测实战模型代码专栏	2024	代码详解	知乎

时序数据常见属性……

时间顺序（Temporal Order）：数据点按时间以固定间隔排列，且时间上的先后顺序在分析中起着重要作用。
自相关性（Autocorrelation）：数据的当前值可能与过去的值存在相关性，这体现了随时间变化的模式或趋势。
趋势性（Trend）：该属性反映长期变化，呈现出数据随时间增长、下降或保持稳定的一系列模式。
季节性（Seasonality）：指在固定周期内重复出现的短期模式，用于解释特定时间点的波动。
异常值（Outliers）或噪声（Noise）：指偏离整体模式的异常数据点，表现为干扰数据一致性、增加分析难度的随机波动，在建模过程中需要移除或最小化其影响。
不规则性（Irregularity）：时间序列数据中存在难以预测的随机波动成分，反映了数据固有的不确定性。
周期性（Cycles）：涉及比季节性更长周期的波动，其模式在非固定间隔内重复出现，例如具有非周期性规律的经济周期。
非平稳性（Non-stationarity）：时间序列数据的统计特征（均值和方差）可能随时间变化。这会导致基于平稳性假设的模型出现不稳定性，因此需要进行平稳化处理。

多变量时序数据特有属性……

相互依赖性（Interdependency）：在多通道同时收集的时序数据中，这些变量之间可能存在相关性。理解变量之间的相互作用十分重要，因为这有助于理解时序数据中的复杂模式。
外生变量（Exogenous Variables）：指影响时序数据的外部因素或变量。尽管这些变量未包含在数据本身当中，但它们能提供潜在信息，且在建模时考虑这些变量可显著提升模型性能。
情境信息（Contextual Information）：指观测时发生的特定事件（如政策变动或自然灾害），这些事件会影响时序数据并形成复杂模式。

早期TSF模型发展历程……

TF：Transformer、Logsparse、Reformer、Informer、Autoformer、Pyraformer、FEDformer、Non-stationary TF
GNN：GNN、GCN、STGCN/GAT、DyGNN、TGN
CNN：NeoCognitron、LeNet、WaveNet、TCN
RNN：BPTT、Simple RNN、LSTM、GRU、Dilated RNN/DA-RNN/MQ-RNN、DCRNN、TPA-LSTM
MLP：MLP
Statistic M/L：Exponential smoothing、ARIMA、SARIMA、Decision Tree、SVM、GBM

2 Transformer-based模型

LTSF-Linear（2023）超越了PatchTST之前所有传统Transformer系列模型，故从2.2开始根据主要改进点归类模型，其中2.2、2.3、2.4为主要改进方向。

2.1 早期发展

早期基于Transformer的时序预测模型主要存在以下局限性：

效率低下：注意力机制本身计算和内存成本较高，虽有方法试图降低复杂度，但常牺牲Transformer的部分有效特性，且相关变体在多领域的有效性未获证实。
上下文窗口受限于当前输入：需一次性处理整个上下文，导致内存和计算需求随上下文长度增加而大幅增长，无法像RNN、SSM（状态空间模型）那样保留即时输入之外的上下文，在处理极长上下文时存在局限。
增加输入窗口长度效果不佳：随输入窗口长度增加，模型性能未提升甚至下降，相比线性方法表现不佳，易过拟合噪声而非提取长期时序信息。

名称	年代	特点	备注
Transformer	2017	注意力机制	$O(L^2)$
LogTrans	2019	对数稀疏（LogSparse）注意力	$O(L\log L)$
Reformer	2019	局部敏感哈希（LSH）；可逆残差层	-
Informer	2020	概率稀疏（ProbSparse）注意力；生成式解码器	知乎
Autoformer	2021	自相关（Auto-correlation）机制；时间模式（样本特征找周期）	周期性分片
Pyraformer	2021	金字塔注意力机制	分层结构逐步减少序列长度
FEDformer	2022	傅里叶增强分解模块（傅里叶变换/小波变换）+频域稀疏表示	整合了Autoformer的季节性趋势分解方法
Non-stationary Transformer	2022	去平稳（De-stationary）注意力	解决过度归一化问题

2.2 分片技术（Patching Technique）

分片技术（Patching Technique）的核心是对输入的时间序列进行分块处理，以适配时序数据的特性并优化模型性能。

技术背景与必要性：

Transformer最初用于自然语言处理（NLP），而时序数据与文本存在差异：时序中单个数据点与其邻近值相似，信息含量较低，而NLP中单个词元携带丰富语义。
原始模型的逐点注意力机制仅关注单个时间步，难以捕捉跨多个连续时间步的全局上下文或模式，因此需要针对性调整。

核心操作：

将输入的时间序列划分为多个连续的patch，保留每个块内部的信息，增强对局部特征的捕捉能力。

主要优势：

提升信息利用率：结合单个时间点及其周围上下文，为模型提供更丰富的时序信息。
降低计算复杂度：通过处理patch而非单个数据点，减少模型需要处理的token数量，减轻注意力机制的计算负担。
优化预测性能：避免了使用稀疏注意力机制时可能出现的关键信息遗漏问题，缓解预测性能下降的风险。

名称	年代	特点	备注
PatchTST	2022	片段作为token；通道独立策略	使用原始Transformer骨架
PETformer	2023	Placeholder-enhanced技术架构；过去与未来直接交互，丰富上下文	参数大幅减少；泛化能力强
MTST	2024	多尺度分片，分析局部性（短片段）和长期趋势（长片段）	多分辨率
Sageformer	2024	序列感知：为每个序列追加全局token；图增强（MTGNN）	只让全局token之间进行图交互

2.3 跨维度（Cross-Dimension）

跨维度（Cross-Dimension）方法聚焦于变量（通道）间关系的建模，是提升时序预测精度的关键方向。

核心问题与矛盾点：

理论上，变量间的关系（如温度与冰淇淋销量的正相关）对预测至关重要，但实际结果显示：将各通道（变量）独立处理的模型（如LTSF-Linear、PatchTST、PET-former）往往优于那些刻意建模通道间相关性的模型。
这一矛盾暗示：当前模型尚未能有效捕捉变量间的真实关联，需要针对性优化。

时序数据与其他领域的通道相关性差异：

与NLP对比：自然语言处理中不存在明确的“通道”概念，无需考虑跨通道关系。
与CV对比：计算机视觉中虽存在通道（如图像的RGB通道），但通道间关系紧密且定义清晰（如RGB三通道共同构成色彩信息）。
时序数据的特殊性：变量（通道）间的关系复杂，可能独立也可能相互依赖，且相关性往往是隐藏的，增加了建模难度。

模型发展趋势：

早期基于Transformer的时序模型主要关注时间维度的注意力机制，对变量间关系的建模不足。
近年来，越来越多的模型开始转向显式建模变量间的相关性，以应对时序数据中复杂的跨维度关系，提升预测性能。

名称	年代	特点	备注
Crossformer	2023	两阶段注意力机制：跨时间 → 跨维度（路由机制）	全局交互
DSformer	2023	双重采样：下采样获取全局信息，分段采样获取局部信息；并行时间变量注意力	整合多变量时序数据中的全局、局部及变量间的相关性
CARD	2024	仅编码器；轻量级token融合模块；稳健的损失函数防止过拟合	合并相邻token以表示更大范围
iTransformer	2023	颠倒传统的时间与变量维度，各变量作为token	多变量关系依赖；使用原始Transformer骨架
VCformer	2024	变量相关注意力：使用快速傅里叶变换（FFT）计算不同滞后下的互相关分数	解决了变量相关性中忽视时间滞后的问题
GridTST	2024	将时序数据转为网格格式，应用水平和垂直注意力机制	使用原始Transformer骨架；对三种配置进行了实验（时间优先、通道优先和交叉应用），发现优先考虑通道注意力能产生最佳性能
UniTST	2024	统一注意力机制：展平片段token；调度器模块减轻增加的复杂度	-
DeformTime	2024	可变形注意力机制	动态调整以识别并适应重要的数据特征，自适应地从不同时间间隔和变量组合中提取关键信息

2.4 外生变量（Exogenous Variable）

外生变量（Exogenous Variable）指影响预测目标但不属于目标自身历史数据的外部因素，其在时序预测模型中的应用旨在提升预测的全面性和准确性。

核心概念与必要性：

外生变量是相对于“内生变量”（Endogenous Bariables，即预测目标自身的历史数据）而言的外部影响因素。
现实场景中，仅依赖内生变量往往难以充分捕捉复杂的影响机制（例如，股票价格不仅受自身历史走势影响，还与经济指标、政治变动、技术进步等外部因素密切相关）。若忽略这些外生变量，可能导致对市场波动等现象的预测失真。

模型应用价值：

将外生变量作为补充信息纳入模型，能够为预测提供更全面的上下文，帮助模型理解目标变量变化的外部驱动因素，从而提升预测性能。这一思路尤其适用于受多因素综合影响的复杂时序预测任务（如金融市场、气象、经济指标等领域）。

名称	年代	特点	备注
TimeXer	2024	将内生变量时序数据划分为多个片段，通过自注意力机制学习每个片段的时间依赖性；然后生成汇总整个内生变量和外生变量序列的变量标记，并使用交叉注意力机制学习其之间的相互作用	将外生变量整合入原始Transformer模型中；需要手动识别并输入合适的外生变量
TGTSF IATSF	2024 2025	整合文本数据：嵌入通道描述和文本消息；跨注意力层计算文本与各通道相关性	可比较文本信息对预测性能的影响

2.5 泛化（Generalization）

改善模型的泛化能力是研究的重要方向，其核心目的包括：

避免模型在训练数据上过度拟合（即过度贴合训练数据的细节，而忽视了数据的整体规律）。
确保模型在多样化的数据集上均能表现出稳定、一致的预测性能，而非仅在特定数据集上效果优异。

名称	年代	特点	备注
SAMformer	2024	采用Sharpness-Aware Minimization优化器，缓解自注意力机制训练时的熵坍缩问题，避免收敛至尖锐局部最小值	提升模型泛化能力，改善不同数据集上的一致性表现
Minusformer	2024	使用Boosting集成框架，通过残差学习机制迭代优化模型，减少参数量冗余	降低过拟合风险，在保持性能的同时压缩模型规模

2.6 多尺度（Multi-scale）

多尺度（Multi-Scale）方法指从时间序列数据的不同尺度中提取更多信息。

核心思路：

多尺度方法聚焦于在多个不同的时间尺度（如短时间间隔、中等时间跨度、长时间周期等）上对时序数据进行分析和信息提取。
通过捕捉不同尺度下的数据特征，模型能够更全面地理解时序数据的内在规律，包括短期波动、中期趋势和长期周期性等。

主要优势：

能够从时序数据中挖掘更丰富的信息，避免因单一尺度分析而遗漏重要特征。
有助于提升模型对复杂时序模式的捕捉能力，进而可能改善预测的准确性和鲁棒性，尤其适用于具有多尺度动态特性的时序预测任务（如气象预测、经济波动分析等）。

名称	年代	特点	备注
Scaleformer	2023	多尺度模型堆叠框架，整合不同尺度特征提取能力	提升跨尺度信息捕获能力，优化模型表现
Pathformer	2024	自适应尺度学习机制，动态生成最优尺度表示	突破固定尺度限制，增强模型灵活性与适应性

2.7 仅解码器（Decoder-only）

在时序预测中，仅解码器（Decoder-only）架构受LLaMA3等大规模语言模型（LLM）启发而被探索应用。

主要优势：

仅保留解码器，架构更简单，计算复杂度低，训练和推理速度更快。
能避免编码器自注意力机制常有的时序信息丢失问题，有助于提升预测性能。

名称	年代	特点	备注
LLaMA 3系列模型	2024	仅解码器，结构简单、计算复杂度低	训练和推理速度快，避免编码器自注意力机制的时间信息丢失
CATS	2024	仅使用交叉注意力，基于仅解码器架构聚焦未来与过去数据的关系	降低时间和内存复杂度，减少参数数量，提升效率，证明仅解码器架构的有效性

2.8 特征增强（Feature Enhancement）

特征增强（Feature Enhancement）旨在优化时序数据的特征表达，提升模型对关键信息的捕捉能力。

名称	年代	特点	备注
Fredformer	2024	针对时间序列数据的频率偏差问题，通过频率归一化消除偏差	解决模型对低频或高频过度聚焦的学习倾向
Basisformer	2024	利用对比学习获得的偏差，构建与各时间序列的灵活关系	增强特征间关联性，提升模型对序列关系的捕捉能力

3 新型传统深度学习模型

3.1 MLP-based模型

名称	年代	特点	其他

3.2 CNN-based模型

名称	年代	特点	其他

3.3 RNN-based模型

名称	年代	特点	其他

3.4 GNN-based模型

名称	年代	特点	其他

3.5 模型无关（Model-Agnostic）框架

名称	年代	特点	其他

4 基础模型（Foundation Models）

4.1 LLM序列建模

名称	年代	特点	其他

4.2 预训练（Pre-training）

5 扩散模型（Diffusion Models）

其中5.1、5.2为主要研究方向

5.1 有效条件嵌入（Effective Conditional Embedding）

5.2 时序特征提取（Time Series Feature Extraction）

5.3 基于分数的随机微分方程生成模型

Score-Based Generative Modeling through Stochastic Differential Equations (SDEs)

5.4 潜在扩散模型（Latent Diffusion Model）

5.5 引导（Guidance）

某些模型中使用引导而不是在预测时将条件明确输入到去噪网络中。

时间序列预测模型文库

1 综述

2 Transformer-based模型

2.1 早期发展

2.2 分片技术（Patching Technique）

2.3 跨维度（Cross-Dimension）

2.4 外生变量（Exogenous Variable）

2.5 泛化（Generalization）

2.6 多尺度（Multi-scale）

2.7 仅解码器（Decoder-only）

2.8 特征增强（Feature Enhancement）

3 新型传统深度学习模型

3.1 MLP-based模型

3.2 CNN-based模型

3.3 RNN-based模型

3.4 GNN-based模型

3.5 模型无关（Model-Agnostic）框架

4 基础模型（Foundation Models）

4.1 LLM序列建模

4.2 预训练（Pre-training）

5 扩散模型（Diffusion Models）

5.1 有效条件嵌入（Effective Conditional Embedding）

5.2 时序特征提取（Time Series Feature Extraction）

5.3 基于分数的随机微分方程生成模型

5.4 潜在扩散模型（Latent Diffusion Model）

5.5 引导（Guidance）

6 Mamba

7 时序预测的挑战及其应对方法

《时间序列预测模型文库》有2条评论

发表评论取消回复

综合大模型

控制台

实用工具

信息检索

其他资源

非常规搜索引擎

随机博文 · 应用导航

Hyplus服务

1 综述

2 Transformer-based模型

2.1 早期发展

2.2 分片技术（Patching Technique）

2.3 跨维度（Cross-Dimension）

2.4 外生变量（Exogenous Variable）

2.5 泛化（Generalization）

2.6 多尺度（Multi-scale）

2.7 仅解码器（Decoder-only）

2.8 特征增强（Feature Enhancement）

3 新型传统深度学习模型

3.1 MLP-based模型

3.2 CNN-based模型

3.3 RNN-based模型

3.4 GNN-based模型

3.5 模型无关（Model-Agnostic）框架

4 基础模型（Foundation Models）

4.1 LLM序列建模

4.2 预训练（Pre-training）

5 扩散模型（Diffusion Models）

5.1 有效条件嵌入（Effective Conditional Embedding）

5.2 时序特征提取（Time Series Feature Extraction）

5.3 基于分数的随机微分方程生成模型

5.4 潜在扩散模型（Latent Diffusion Model）

5.5 引导（Guidance）

6 Mamba

7 时序预测的挑战及其应对方法

《时间序列预测模型文库》有2条评论

发表评论 取消回复

发表评论取消回复