时序预测(Time-Series Forecasting)模型简介!前置知识:LSTM、RNN、注意力机制、时间序列预测任务简介。
HyMTSF is a collection of various Multivariate Time-Series Forecasting (MTSF) models. Might be used in contrast experiments later. All datasets are from Autoformer.
GitHub:github.com/hyperplasma/tsf-demo
Gitee:gitee.com/hyperplasma/HyMTSF
1 综述
优质综述论文或博客专栏:
时序数据常见属性……
- 时间顺序(Temporal Order):数据点按时间以固定间隔排列,且时间上的先后顺序在分析中起着重要作用。
- 自相关性(Autocorrelation):数据的当前值可能与过去的值存在相关性,这体现了随时间变化的模式或趋势。
- 趋势性(Trend):该属性反映长期变化,呈现出数据随时间增长、下降或保持稳定的一系列模式。
- 季节性(Seasonality):指在固定周期内重复出现的短期模式,用于解释特定时间点的波动。
- 异常值(Outliers)或噪声(Noise):指偏离整体模式的异常数据点,表现为干扰数据一致性、增加分析难度的随机波动,在建模过程中需要移除或最小化其影响。
- 不规则性(Irregularity):时间序列数据中存在难以预测的随机波动成分,反映了数据固有的不确定性。
- 周期性(Cycles):涉及比季节性更长周期的波动,其模式在非固定间隔内重复出现,例如具有非周期性规律的经济周期。
- 非平稳性(Non-stationarity):时间序列数据的统计特征(均值和方差)可能随时间变化。这会导致基于平稳性假设的模型出现不稳定性,因此需要进行平稳化处理。
多变量时序数据特有属性……
- 相互依赖性(Interdependency):在多通道同时收集的时序数据中,这些变量之间可能存在相关性。理解变量之间的相互作用十分重要,因为这有助于理解时序数据中的复杂模式。
- 外生变量(Exogenous Variables):指影响时序数据的外部因素或变量。尽管这些变量未包含在数据本身当中,但它们能提供潜在信息,且在建模时考虑这些变量可显著提升模型性能。
- 情境信息(Contextual Information):指观测时发生的特定事件(如政策变动或自然灾害),这些事件会影响时序数据并形成复杂模式。
早期TSF模型发展历程……
- TF:Transformer、Logsparse、Reformer、Informer、Autoformer、Pyraformer、FEDformer、Non-stationary TF
- GNN:GNN、GCN、STGCN/GAT、DyGNN、TGN
- CNN:NeoCognitron、LeNet、WaveNet、TCN
- RNN:BPTT、Simple RNN、LSTM、GRU、Dilated RNN/DA-RNN/MQ-RNN、DCRNN、TPA-LSTM
- MLP:MLP
- Statistic M/L:Exponential smoothing、ARIMA、SARIMA、Decision Tree、SVM、GBM
2 Transformer-based模型
LTSF-Linear(2023)超越了PatchTST之前所有传统Transformer系列模型,故从2.2开始根据主要改进点归类模型,其中2.2、2.3、2.4为主要改进方向。
2.1 早期发展
早期基于Transformer的时序预测模型主要存在以下局限性:
- 效率低下:注意力机制本身计算和内存成本较高,虽有方法试图降低复杂度,但常牺牲Transformer的部分有效特性,且相关变体在多领域的有效性未获证实。
- 上下文窗口受限于当前输入:需一次性处理整个上下文,导致内存和计算需求随上下文长度增加而大幅增长,无法像RNN、SSM(状态空间模型)那样保留即时输入之外的上下文,在处理极长上下文时存在局限。
- 增加输入窗口长度效果不佳:随输入窗口长度增加,模型性能未提升甚至下降,相比线性方法表现不佳,易过拟合噪声而非提取长期时序信息。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Transformer | 2017 | 注意力机制 | O(L^2) |
LogTrans | 2019 | 对数稀疏(LogSparse)注意力 | O(L\log L) |
Reformer | 2019 | 局部敏感哈希(LSH);可逆残差层 | - |
Informer | 2020 | 概率稀疏(ProbSparse)注意力;生成式解码器 | 知乎 |
Autoformer | 2021 | 自相关(Auto-correlation)机制;时间模式(样本特征找周期) | 周期性分片 |
Pyraformer | 2021 | 金字塔注意力机制 | 分层结构逐步减少序列长度 |
FEDformer | 2022 | 傅里叶增强分解模块(傅里叶变换/小波变换)+频域稀疏表示 | 整合了Autoformer的季节性趋势分解方法 |
Non-stationary Transformer | 2022 | 去平稳(De-stationary)注意力 | 解决过度归一化问题 |
2.2 分片技术(Patching Technique)
分片技术(Patching Technique)的核心是对输入的时间序列进行分块处理,以适配时序数据的特性并优化模型性能。
技术背景与必要性:
- Transformer最初用于自然语言处理(NLP),而时序数据与文本存在差异:时序中单个数据点与其邻近值相似,信息含量较低,而NLP中单个词元携带丰富语义。
- 原始模型的逐点注意力机制仅关注单个时间步,难以捕捉跨多个连续时间步的全局上下文或模式,因此需要针对性调整。
核心操作:
- 将输入的时间序列划分为多个连续的patch,保留每个块内部的信息,增强对局部特征的捕捉能力。
主要优势:
- 提升信息利用率:结合单个时间点及其周围上下文,为模型提供更丰富的时序信息。
- 降低计算复杂度:通过处理patch而非单个数据点,减少模型需要处理的token数量,减轻注意力机制的计算负担。
- 优化预测性能:避免了使用稀疏注意力机制时可能出现的关键信息遗漏问题,缓解预测性能下降的风险。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
PatchTST | 2022 | 片段作为token;通道独立策略 | 使用原始Transformer骨架 |
PETformer | 2023 | Placeholder-enhanced技术架构;过去与未来直接交互,丰富上下文 | 参数大幅减少;泛化能力强 |
MTST | 2024 | 多尺度分片,分析局部性(短片段)和长期趋势(长片段) | 多分辨率 |
Sageformer | 2024 | 序列感知:为每个序列追加全局token;图增强(MTGNN) | 只让全局token之间进行图交互 |
2.3 跨维度(Cross-Dimension)
跨维度(Cross-Dimension)方法聚焦于变量(通道)间关系的建模,是提升时序预测精度的关键方向。
核心问题与矛盾点:
- 理论上,变量间的关系(如温度与冰淇淋销量的正相关)对预测至关重要,但实际结果显示:将各通道(变量)独立处理的模型(如LTSF-Linear、PatchTST、PET-former)往往优于那些刻意建模通道间相关性的模型。
- 这一矛盾暗示:当前模型尚未能有效捕捉变量间的真实关联,需要针对性优化。
时序数据与其他领域的通道相关性差异:
- 与NLP对比:自然语言处理中不存在明确的“通道”概念,无需考虑跨通道关系。
- 与CV对比:计算机视觉中虽存在通道(如图像的RGB通道),但通道间关系紧密且定义清晰(如RGB三通道共同构成色彩信息)。
- 时序数据的特殊性:变量(通道)间的关系复杂,可能独立也可能相互依赖,且相关性往往是隐藏的,增加了建模难度。
模型发展趋势:
- 早期基于Transformer的时序模型主要关注时间维度的注意力机制,对变量间关系的建模不足。
- 近年来,越来越多的模型开始转向显式建模变量间的相关性,以应对时序数据中复杂的跨维度关系,提升预测性能。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Crossformer | 2023 | 两阶段注意力机制:跨时间 → 跨维度(路由机制) | 全局交互 |
DSformer | 2023 | 双重采样:下采样获取全局信息,分段采样获取局部信息;并行时间变量注意力 | 整合多变量时序数据中的全局、局部及变量间的相关性 |
CARD | 2024 | 仅编码器;轻量级token融合模块;稳健的损失函数防止过拟合 | 合并相邻token以表示更大范围 |
iTransformer | 2023 | 颠倒传统的时间与变量维度,各变量作为token | 多变量关系依赖;使用原始Transformer骨架 |
VCformer | 2024 | 变量相关注意力:使用快速傅里叶变换(FFT)计算不同滞后下的互相关分数 | 解决了变量相关性中忽视时间滞后的问题 |
GridTST | 2024 | 将时序数据转为网格格式,应用水平和垂直注意力机制 | 使用原始Transformer骨架;对三种配置进行了实验(时间优先、通道优先和交叉应用),发现优先考虑通道注意力能产生最佳性能 |
UniTST | 2024 | 统一注意力机制:展平片段token;调度器模块减轻增加的复杂度 | - |
DeformTime | 2024 | 可变形注意力机制 | 动态调整以识别并适应重要的数据特征,自适应地从不同时间间隔和变量组合中提取关键信息 |
2.4 外生变量(Exogenous Variable)
外生变量(Exogenous Variable)指影响预测目标但不属于目标自身历史数据的外部因素,其在时序预测模型中的应用旨在提升预测的全面性和准确性。
核心概念与必要性:
- 外生变量是相对于“内生变量”(Endogenous Bariables,即预测目标自身的历史数据)而言的外部影响因素。
- 现实场景中,仅依赖内生变量往往难以充分捕捉复杂的影响机制(例如,股票价格不仅受自身历史走势影响,还与经济指标、政治变动、技术进步等外部因素密切相关)。若忽略这些外生变量,可能导致对市场波动等现象的预测失真。
模型应用价值:
- 将外生变量作为补充信息纳入模型,能够为预测提供更全面的上下文,帮助模型理解目标变量变化的外部驱动因素,从而提升预测性能。这一思路尤其适用于受多因素综合影响的复杂时序预测任务(如金融市场、气象、经济指标等领域)。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
TimeXer | 2024 | 将内生变量时序数据划分为多个片段,通过自注意力机制学习每个片段的时间依赖性;然后生成汇总整个内生变量和外生变量序列的变量标记,并使用交叉注意力机制学习其之间的相互作用 | 将外生变量整合入原始Transformer模型中;需要手动识别并输入合适的外生变量 |
TGTSF IATSF |
2024 2025 |
整合文本数据:嵌入通道描述和文本消息;跨注意力层计算文本与各通道相关性 | 可比较文本信息对预测性能的影响 |
2.5 泛化(Generalization)
改善模型的泛化能力是研究的重要方向,其核心目的包括:
- 避免模型在训练数据上过度拟合(即过度贴合训练数据的细节,而忽视了数据的整体规律)。
- 确保模型在多样化的数据集上均能表现出稳定、一致的预测性能,而非仅在特定数据集上效果优异。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
SAMformer | 2024 | 采用Sharpness-Aware Minimization优化器,缓解自注意力机制训练时的熵坍缩问题,避免收敛至尖锐局部最小值 | 提升模型泛化能力,改善不同数据集上的一致性表现 |
Minusformer | 2024 | 使用Boosting集成框架,通过残差学习机制迭代优化模型,减少参数量冗余 | 降低过拟合风险,在保持性能的同时压缩模型规模 |
2.6 多尺度(Multi-scale)
多尺度(Multi-Scale)方法指从时间序列数据的不同尺度中提取更多信息。
核心思路:
- 多尺度方法聚焦于在多个不同的时间尺度(如短时间间隔、中等时间跨度、长时间周期等)上对时序数据进行分析和信息提取。
- 通过捕捉不同尺度下的数据特征,模型能够更全面地理解时序数据的内在规律,包括短期波动、中期趋势和长期周期性等。
主要优势:
- 能够从时序数据中挖掘更丰富的信息,避免因单一尺度分析而遗漏重要特征。
- 有助于提升模型对复杂时序模式的捕捉能力,进而可能改善预测的准确性和鲁棒性,尤其适用于具有多尺度动态特性的时序预测任务(如气象预测、经济波动分析等)。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Scaleformer | 2023 | 多尺度模型堆叠框架,整合不同尺度特征提取能力 | 提升跨尺度信息捕获能力,优化模型表现 |
Pathformer | 2024 | 自适应尺度学习机制,动态生成最优尺度表示 | 突破固定尺度限制,增强模型灵活性与适应性 |
2.7 仅解码器(Decoder-only)
在时序预测中,仅解码器(Decoder-only)架构受LLaMA3等大规模语言模型(LLM)启发而被探索应用。
主要优势:
- 仅保留解码器,架构更简单,计算复杂度低,训练和推理速度更快。
- 能避免编码器自注意力机制常有的时序信息丢失问题,有助于提升预测性能。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
LLaMA 3系列模型 | 2024 | 仅解码器,结构简单、计算复杂度低 | 训练和推理速度快,避免编码器自注意力机制的时间信息丢失 |
CATS | 2024 | 仅使用交叉注意力,基于仅解码器架构聚焦未来与过去数据的关系 | 降低时间和内存复杂度,减少参数数量,提升效率,证明仅解码器架构的有效性 |
2.8 特征增强(Feature Enhancement)
特征增强(Feature Enhancement)旨在优化时序数据的特征表达,提升模型对关键信息的捕捉能力。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Fredformer | 2024 | 针对时间序列数据的频率偏差问题,通过频率归一化消除偏差 | 解决模型对低频或高频过度聚焦的学习倾向 |
Basisformer | 2024 | 利用对比学习获得的偏差,构建与各时间序列的灵活关系 | 增强特征间关联性,提升模型对序列关系的捕捉能力 |
3 新型传统深度学习模型
3.1 MLP-based模型
名称 | 年代 | 特点 | 其他 |
---|
3.2 CNN-based模型
名称 | 年代 | 特点 | 其他 |
---|
3.3 RNN-based模型
名称 | 年代 | 特点 | 其他 |
---|
3.4 GNN-based模型
名称 | 年代 | 特点 | 其他 |
---|
3.5 模型无关(Model-Agnostic)框架
名称 | 年代 | 特点 | 其他 |
---|
4 基础模型(Foundation Models)
4.1 LLM序列建模
名称 | 年代 | 特点 | 其他 |
---|
4.2 预训练(Pre-training)
5 扩散模型(Diffusion Models)
其中5.1、5.2为主要研究方向
5.1 有效条件嵌入(Effective Conditional Embedding)
5.2 时序特征提取(Time Series Feature Extraction)
5.3 基于分数的随机微分方程生成模型
Score-Based Generative Modeling through Stochastic Differential Equations (SDEs)
5.4 潜在扩散模型(Latent Diffusion Model)
5.5 引导(Guidance)
某些模型中使用引导而不是在预测时将条件明确输入到去噪网络中。
4 reel?