时序预测(Time-Series Forecasting)模型简介!前置知识:LSTM、RNN、注意力机制、时间序列预测任务简介。
HyMTSF is a collection of various Multivariate Time-Series Forecasting (MTSF) models. Might be used in contrast experiments later. All datasets are from Autoformer.
GitHub:github.com/hyperplasma/tsf-demo
Gitee:gitee.com/hyperplasma/HyMTSF
1 综述与专栏
优质综述论文或博客专栏:
时序数据常见属性……
- 时间顺序(Temporal Order):数据点按时间以固定间隔排列,且时间上的先后顺序在分析中起着重要作用。
- 自相关性(Autocorrelation):数据的当前值可能与过去的值存在相关性,这体现了随时间变化的模式或趋势。
- 趋势性(Trend):该属性反映长期变化,呈现出数据随时间增长、下降或保持稳定的一系列模式。
- 季节性(Seasonality):指在固定周期内重复出现的短期模式,用于解释特定时间点的波动。
- 异常值(Outliers)或噪声(Noise):指偏离整体模式的异常数据点,表现为干扰数据一致性、增加分析难度的随机波动,在建模过程中需要移除或最小化其影响。
- 不规则性(Irregularity):时间序列数据中存在难以预测的随机波动成分,反映了数据固有的不确定性。
- 周期性(Cycles):涉及比季节性更长周期的波动,其模式在非固定间隔内重复出现,例如具有非周期性规律的经济周期。
- 非平稳性(Non-stationarity):时间序列数据的统计特征(均值和方差)可能随时间变化。这会导致基于平稳性假设的模型出现不稳定性,因此需要进行平稳化处理。
多变量时序数据特有属性……
- 相互依赖性(Interdependency):在多通道同时收集的时序数据中,这些变量之间可能存在相关性。理解变量之间的相互作用十分重要,因为这有助于理解时序数据中的复杂模式。
- 外生变量(Exogenous Variables):指影响时序数据的外部因素或变量。尽管这些变量未包含在数据本身当中,但它们能提供潜在信息,且在建模时考虑这些变量可显著提升模型性能。
- 情境信息(Contextual Information):指观测时发生的特定事件(如政策变动或自然灾害),这些事件会影响时序数据并形成复杂模式。
早期TSF模型发展历程……
- TF:Transformer、Logsparse、Reformer、Informer、Autoformer、Pyraformer、FEDformer、Non-stationary TF
- GNN:GNN、GCN、STGCN/GAT、DyGNN、TGN
- CNN:NeoCognitron、LeNet、WaveNet、TCN
- RNN:BPTT、Simple RNN、LSTM、GRU、Dilated RNN/DA-RNN/MQ-RNN、DCRNN、TPA-LSTM
- MLP:MLP
- Statistic M/L:Exponential smoothing、ARIMA、SARIMA、Decision Tree、SVM、GBM
2 Transformer-based模型及相关技术
LTSF-Linear(2023)超越了PatchTST之前所有传统Transformer系列模型,故从2.2起根据主要改进点归类模型,其中2.2、2.3、2.4为热门方向。
2.1 早期发展
早期基于Transformer的时序预测模型主要存在以下局限性:
- 效率低下:注意力机制本身计算和内存成本较高,虽有方法试图降低复杂度,但常牺牲Transformer的部分有效特性,且相关变体在多领域的有效性未获证实。
- 上下文窗口受限于当前输入:需一次性处理整个上下文,导致内存和计算需求随上下文长度增加而大幅增长,无法像RNN、SSM(状态空间模型)那样保留即时输入之外的上下文,在处理极长上下文时存在局限。
- 增加输入窗口长度效果不佳:随输入窗口长度增加,模型性能未提升甚至下降,相比线性方法表现不佳,易过拟合噪声而非提取长期时序信息。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Transformer | 2017 | 注意力机制 | O(L^2) |
LogTrans | 2019 | 对数稀疏(LogSparse)注意力 | O(L\log L) |
Reformer | 2019 | 局部敏感哈希(LSH);可逆残差层 | - |
Informer | 2020 | 概率稀疏(ProbSparse)注意力;生成式解码器 | 知乎 |
Autoformer | 2021 | 自相关(Auto-correlation)机制;时间模式(样本特征找周期) | 周期性分片 |
Pyraformer | 2021 | 金字塔注意力机制 | 分层结构逐步减少序列长度 |
FEDformer | 2022 | 傅里叶增强分解模块(傅里叶变换/小波变换)+频域稀疏表示 | 整合了Autoformer的季节性趋势分解方法 |
Non-stationary Transformer | 2022 | 去平稳(De-stationary)注意力 | 解决过度归一化问题 |
2.2 分片技术(Patching Technique)
分片技术(Patching Technique)的核心是对输入的时间序列进行分块处理,以适配时序数据的特性并优化模型性能。
技术背景与必要性:
- Transformer最初用于自然语言处理(NLP),而时序数据与文本存在差异:时序中单个数据点与其邻近值相似,信息含量较低,而NLP中单个词元携带丰富语义。
- 原始模型的逐点注意力机制仅关注单个时间步,难以捕捉跨多个连续时间步的全局上下文或模式,因此需要针对性调整。
核心操作:
- 将输入的时间序列划分为多个连续的patch(片段),保留每个块内部的信息,增强对局部特征的捕捉能力。
主要优势:
- 提升信息利用率:结合单个时间点及其周围上下文,为模型提供更丰富的时序信息。
- 降低计算复杂度:通过处理patch而非单个数据点,减少模型需要处理的token数量,减轻注意力机制的计算负担。
- 优化预测性能:避免了使用稀疏注意力机制时可能出现的关键信息遗漏问题,缓解预测性能下降的风险。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
PatchTST | 2022 | 片段作为token;通道独立策略 | 使用原始Transformer骨架 |
PETformer | 2023 | Placeholder-enhanced技术架构;过去与未来直接交互,丰富上下文 | 参数大幅减少;泛化能力强 |
MTST | 2024 | 多尺度分片,分析局部性(短片段)和长期趋势(长片段) | 多分辨率 |
Sageformer | 2024 | 序列感知:为每个序列追加全局token;图增强(MTGNN) | 只让全局token之间进行图交互 |
2.3 跨维度(Cross-Dimension)
跨维度(Cross-Dimension)方法聚焦于变量(通道)间关系的建模,是提升时序预测精度的关键方向。
核心问题与矛盾点:
- 理论上,变量间的关系(如温度与冰淇淋销量的正相关)对预测至关重要,但实际结果显示:将各通道(变量)独立处理的模型(如LTSF-Linear、PatchTST、PET-former)往往优于那些刻意建模通道间相关性的模型。
- 这一矛盾暗示:当前模型尚未能有效捕捉变量间的真实关联,需要针对性优化。
时序数据与其他领域的通道相关性差异:
- 与NLP对比:自然语言处理中不存在明确的“通道”概念,无需考虑跨通道关系。
- 与CV对比:计算机视觉中虽存在通道(如图像的RGB通道),但通道间关系紧密且定义清晰(如RGB三通道共同构成色彩信息)。
- 时序数据的特殊性:变量(通道)间的关系复杂,可能独立也可能相互依赖,且相关性往往是隐藏的,增加了建模难度。
模型发展趋势:
- 早期基于Transformer的时序模型主要关注时间维度的注意力机制,对变量间关系的建模不足。
- 近年来,越来越多的模型开始转向显式建模变量间的相关性,以应对时序数据中复杂的跨维度关系,提升预测性能。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Crossformer | 2023 | 两阶段注意力机制:跨时间 → 跨维度(路由机制) | 全局交互 |
DSformer | 2023 | 双重采样:下采样获取全局信息,分段采样获取局部信息;并行时间变量注意力 | 整合多变量时序数据中的全局、局部及变量间的相关性 |
CARD | 2024 | 仅编码器;轻量级token融合模块;稳健的损失函数防止过拟合 | 合并相邻token以表示更大范围 |
iTransformer | 2023 | 颠倒传统的时间与变量维度,各变量作为token | 多变量关系依赖;使用原始Transformer骨架 |
VCformer | 2024 | 变量相关注意力:使用快速傅里叶变换(FFT)计算不同滞后下的互相关分数 | 解决了变量相关性中忽视时间滞后的问题 |
GridTST | 2024 | 将时序数据转为网格格式,应用水平和垂直注意力机制 | 使用原始Transformer骨架;对三种配置进行了实验(时间优先、通道优先和交叉应用),发现优先考虑通道注意力能产生最佳性能 |
UniTST | 2024 | 统一注意力机制:展平片段token;调度器模块减轻增加的复杂度 | - |
DeformTime | 2024 | 可变形注意力机制 | 动态调整以识别并适应重要的数据特征,自适应地从不同时间间隔和变量组合中提取关键信息 |
2.4 外生变量(Exogenous Variable)
外生变量(Exogenous Variable)指影响预测目标但不属于目标自身历史数据的外部因素,其在时序预测模型中的应用旨在提升预测的全面性和准确性。
核心概念与必要性:
- 外生变量是相对于“内生变量”(Endogenous Bariables,即预测目标自身的历史数据)而言的外部影响因素。
- 现实场景中,仅依赖内生变量往往难以充分捕捉复杂的影响机制(例如,股票价格不仅受自身历史走势影响,还与经济指标、政治变动、技术进步等外部因素密切相关)。若忽略这些外生变量,可能导致对市场波动等现象的预测失真。
模型应用价值:
- 将外生变量作为补充信息纳入模型,能够为预测提供更全面的上下文,帮助模型理解目标变量变化的外部驱动因素,从而提升预测性能。这一思路尤其适用于受多因素综合影响的复杂时序预测任务(如金融市场、气象、经济指标等领域)。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
TimeXer | 2024 | 将内生变量时序数据划分为多个片段,通过自注意力机制学习每个片段的时间依赖性;然后生成汇总整个内生变量和外生变量序列的变量标记,并使用交叉注意力机制学习其之间的相互作用 | 将外生变量整合入原始Transformer模型中;需要手动识别并输入合适的外生变量 |
TGTSF IATSF |
2024 2025 |
整合文本数据:嵌入通道描述和文本消息;跨注意力层计算文本与各通道相关性 | 可比较文本信息对预测性能的影响 |
2.5 泛化(Generalization)
改善模型的泛化能力是研究的重要方向,其核心目的包括:
- 避免模型在训练数据上过度拟合(即过度贴合训练数据的细节,而忽视了数据的整体规律)。
- 确保模型在多样化的数据集上均能表现出稳定、一致的预测性能,而非仅在特定数据集上效果优异。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
SAMformer | 2024 | 采用Sharpness-Aware Minimization优化器,缓解自注意力机制训练时的熵坍缩问题,避免收敛至尖锐局部最小值 | 提升模型泛化能力,改善不同数据集上的一致性表现 |
Minusformer | 2024 | 使用Boosting集成框架,通过残差学习机制迭代优化模型,减少参数量冗余 | 降低过拟合风险,在保持性能的同时压缩模型规模 |
2.6 多尺度(Multi-scale)
多尺度(Multi-Scale)方法指从时间序列数据的不同尺度中提取更多信息。
核心思路:
- 多尺度方法聚焦于在多个不同的时间尺度(如短时间间隔、中等时间跨度、长时间周期等)上对时序数据进行分析和信息提取。
- 通过捕捉不同尺度下的数据特征,模型能够更全面地理解时序数据的内在规律,包括短期波动、中期趋势和长期周期性等。
主要优势:
- 能够从时序数据中挖掘更丰富的信息,避免因单一尺度分析而遗漏重要特征。
- 有助于提升模型对复杂时序模式的捕捉能力,进而可能改善预测的准确性和鲁棒性,尤其适用于具有多尺度动态特性的时序预测任务(如气象预测、经济波动分析等)。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Scaleformer | 2023 | 多尺度模型堆叠框架,整合不同尺度特征提取能力 | 提升跨尺度信息捕获能力,优化模型表现 |
Pathformer | 2024 | 自适应尺度学习机制,动态生成最优尺度表示 | 突破固定尺度限制,增强模型灵活性与适应性 |
2.7 仅解码器(Decoder-only)
在时序预测中,仅解码器(Decoder-only)架构受LLaMA3等大规模语言模型(LLM)启发而被探索应用。
主要优势:
- 仅保留解码器,架构更简单,计算复杂度低,训练和推理速度更快。
- 能避免编码器自注意力机制常有的时序信息丢失问题,有助于提升预测性能。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
LLaMA 3系列模型 | 2024 | 仅解码器,结构简单、计算复杂度低 | 训练和推理速度快,避免编码器自注意力机制的时间信息丢失 |
CATS | 2024 | 仅使用交叉注意力,基于仅解码器架构聚焦未来与过去数据的关系 | 降低时间和内存复杂度,减少参数数量,提升效率,证明仅解码器架构的有效性 |
2.8 特征增强(Feature Enhancement)
特征增强(Feature Enhancement)旨在优化时序数据的特征表达,提升模型对关键信息的捕捉能力。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
Fredformer | 2024 | 针对时间序列数据的频率偏差问题,通过频率归一化消除偏差 | 解决模型对低频或高频过度聚焦的学习倾向 |
Basisformer | 2024 | 利用对比学习获得的偏差,构建与各时间序列的灵活关系 | 增强特征间关联性,提升模型对序列关系的捕捉能力 |
3 新型传统深度学习模型
自从简单线性模型出现以来,针对非Transformer架构模型的研究激增。研究焦点已转向多种架构,如MLP、RNN、CNN和GNN,其中许多模型的性能超越了Transformer,取得了显著的性能提升。
尽管基于Transformer的模型在众多领域表现出色,但它们在学习时间顺序信息方面存在结构性局限,而时间顺序信息对于时间序列问题至关重要。过去的任务相对简单且通用性较强,这些局限尚可忽略;但当前现实世界的任务涉及诸多约束条件、数据特异性问题以及多样的变量,因此需要从多个角度探索解决方法。
每种架构都有其独特优势,这些特性为应对当代多样的时间序列预测挑战提供了极具价值的解决方案。
3.1 MLP-based模型
基于MLP(多层感知器)的模型近年来已成为时间序列预测任务中替代Transformer的关键方法。MLP结构简单,易于处理和解释。此外,即便在计算资源有限、数据量较少的受限环境中,它们也能有出色表现。其轻量化的架构支持快速训练和推理,这使得它们在当代工业领域中的重要性日益凸显,应用也愈发广泛。
此前,由于存在结构性局限——例如缺乏序列依赖性、难以处理长期依赖关系、在高维数据处理方面存在困难以及在捕捉周期性模式上有局限等,人们对MLP的兴趣有所减退。然而,近年来的技术进步使MLP能够实现长序列学习,并且在多种技术层面得到改进,从而带来了显著的性能提升。
名称 | 年代 | 特点 | 备注 |
---|---|---|---|
LTSF-Linear | 2023 | 仅用简单线性层,利用时序数据点(Data Points)的时间顺序(Time Ordering)这一重要特性,克服早期Transformer处理长序列的局限性 | 超越早期Transformer-based模型,更好保留时间顺序信息及提取趋势、季节性相关特征 |
N-BEATS | 2020 | 由全连接层(FC)构成,采用基于块(Block-based)的架构(重复堆叠回溯与预测路径);通过分解分离趋势与季节性,分别用多项式基和傅里叶基建模;结合集成学习 | 性能优于传统统计模型,可解释性强;经改进后能预测多分量,支持概率预测 |
N-HiTS | 2023 | 可处理多变量数据;采用多速率信号采样、非线性回归、分层插值技术 | 克服了N-BEATS的局限性 |
Koopa | 2024 | 基于Koopman理论处理非平稳时序数据;用傅里叶滤波器分离时不变元素与时变元素,分别输入对应的Koopman预测器(KP);对非线性数据线性变换;时不变KP用全局算子,时变KP用局部算子 | 有效捕捉各组件特征,提升非平稳数据处理能力 |
TSMixer | 2023 | 基于patch的轻量级模型,引入MLP-mixer至时序领域;通过patch间、patch内mixer分别学习长、短期依赖,通道间mixer学习通道关系;用协调头调整预测结果,门控注意力过滤重要特征 | 对简单的MLP结构进行了升级,性能优于复杂Transformer模型 |
FreTS | 2024 | 基于频域的全局视角和能量压缩特性,直接在频域训练MLP;将频域中的通道依赖性和时间依赖性分别作为实部和虚部区分并直接学习 | 区别于现有模型用频率变换验证周期性的方式,能更好地提取隐藏特征 |
TSP | 2024 | 采用带前驱机制的PrecMLP模块:前驱机制融合先前与当前信息,在每个时间点生成混合特征;模型结构为编码器(tMLP处理时间维度、vMLP处理变量维度)与解码器(线性模型) | 轻量级模型,无需额外计算即可处理时间局部性,有效建模时间局部性与通道依赖性 |
FITS | 2024 | 极轻量级(参数少于10000个);通过复杂线性层进行插值,其在频域学习振幅缩放和相移,从而扩展输入时序的频率表示;用低通滤波器去除高频噪声 | 性能可与大型模型抗衡,高效表示数据并减少可学习参数 |
U-Mixer | 2024 | 采用MLP构成的U-Net编码器-解码器分层结构,用于提取和融合低维与高维特征;各MLP模块分别处理时间依赖性和通道交互;通过平稳性校正(计算变换矩阵和均值差异)方法调整输出 | 实现稳定特征提取,恢复数据非平稳信息,保持时间依赖性以提升预测性能 |
TTMs | 2024 | 以TSMixer为主干的时间序列基础模型,仅依靠时序数据快速预训练;在Monash archive中大量的多样通道、分辨率的数据集上训练 | 尽管时序数据集有特定特征,仍具备高效迁移学习能力和高泛化性能 |
TimeMixer | 2024 | 通过下采样生成多尺度时间序列;过去可分解混合(PDM)模块分别分解混合季节性与趋势成分,未来多预测器混合(FMM)模块集成多预测器整合预测结果 | 利用多尺度时间序列的不同模式进行过去信息提取与未来预测 |
CATS | 2024 | 从原始时间序列(OTS)生成辅助时间序列(ATS)并整合到预测过程中;提出多种ATS构造器,组合使用以最大化预测性能;模型结构和损失函数遵循连续性、稀疏性、可变性原则 | 仅以两层MLP为基础,利用ATS提升多变量时序预测性能 |
HDMixer | 2024 | 应用Length-Extendable Patcher,测量与固定patch的逐点相似性并比较patch熵损失以更新参数;通过Hierarchical Dependency Explorer混合器学习长短期及跨变量依赖关系 | 克服Length-fixed patch方法局限性,有效建模多元时序多维度依赖 |
3.2 CNN-based模型
名称 | 年代 | 特点 | 备注 |
---|
3.3 RNN-based模型
名称 | 年代 | 特点 | 备注 |
---|
3.4 GNN-based模型
名称 | 年代 | 特点 | 备注 |
---|
3.5 模型无关(Model-Agnostic)框架
名称 | 年代 | 特点 | 备注 |
---|
4 reel?