时序预测2025综述,pretty dope as an entry to study TSF。本文仅提供高度精简后的解读,更多内容详见时间序列预测模型文库。
Hyplus目录
1 Introduction(引言)
核心内容
- 时间序列预测(TSF)的重要性:TSF是基于历史序列数据预测未来值的任务,在经济金融、供应链管理、交通、能源、天气和医疗等多个领域中作为关键决策工具,可实现成本降低、效率提升和竞争力增强。
- TSF模型发展历史:
- 早期以移动平均等统计方法为主,后发展为指数平滑、ARIMA等传统方法。
- 机器学习方法(如决策树、SVM)虽被应用,但在学习复杂非线性模式上有局限。
- 随着数据量和计算能力提升,MLP、RNN、CNN、GNN等深度学习架构出现,但受自身设计限制。
- LSTM、TCN等变体缓解了部分问题,Transformer因处理长依赖能力在TSF中流行,但近年研究显示简单线性层可超越Transformer。
- 现有综述的局限性与本综述的贡献:现有综述多聚焦特定架构,对多样化架构的广泛比较不足,且对开放挑战的覆盖有限。本综述聚焦架构多样化趋势,分析多种架构的发展、优劣及贡献,并深入探讨开放挑战及最新解决方法,为新手降低入门门槛,为资深研究者提供新视角。
关键图表
- 图2显示顶级AI和ML会议上TSF论文数量在2020-2024年呈增长趋势,体现TSF研究的重要性日益提升。
- 图3展示TSF模型的演化,从统计方法、机器学习到深度学习,再到如今多种架构并存的“复兴”阶段。
- 表1对比了本综述与其他TSF综述论文,突出本综述在全面覆盖架构演化和开放挑战方面的优势。
2 Background(背景)
2.1 Time Series Data(时间序列数据)
- 定义:按固定时间间隔收集的连续数据点集合,可反映随时间变化的现象。
- 特征:包括时间顺序、自相关性、趋势、季节性、异常值或噪声、不规则性、周期性、非平稳性等(图5),这些特征常混合出现,需分解或采用分布偏移缓解方法分析。
- 多元时间序列数据特性:包含变量间的相互依赖性、外生变量、信息上下文等(图6),能提供更详细的现实世界复杂性信息。
2.2 Time-Series Forecasting(时间序列预测)
- 定义:通过分析历史时间序列数据预测未来值,需捕捉数据中的时间模式(如趋势、季节性)。
- 分类:
- 单变量时间序列预测(UTSF):仅使用一个变量进行预测,模型简单但信息有限。
- 多变量时间序列预测(MTSF):同时使用多个变量,能捕捉复杂关系但模型更复杂。
- 短期时间序列预测(STSF):预测近期未来,适合快速响应任务。
- 长期时间序列预测(LTSF):预测远期未来,对长期规划重要但难度大。
2.3 Time Series Forecasting Datasets(时间序列预测数据集)
- 常用数据集:涵盖能源消耗、交通、天气、汇率、疾病爆发等领域(表2),如Electricity、Traffic、Weather等。
- Monash时间序列预测档案:包含30个数据集,覆盖多个领域(表3)。
- 挑战:TSF缺乏大规模通用基准数据集,数据具有领域特异性,获取大量数据较困难,这增加了开发TSF基础模型的难度。
2.4 Evaluation Metrics(评估指标)
- 确定性模型指标:如MAE、MSE、RMSE等,衡量预测值与实际值的差异。
- 概率模型指标:如CRPS,评估分布预测的准确性。
- 其他指标:包括解释方差指标(如R²)、模型选择指标(如AIC、BIC)等(表4)。选择指标需考虑数据特性和问题需求,例如噪声环境下MAE优于MSE。
3 Historical TSF Models(历史TSF模型)
3.1 Conventional Methods(传统方法)
- 统计模型:如指数平滑(基于历史数据的加权平均)、ARIMA(结合自回归、移动平均和差分处理非平稳性)、SARIMA(考虑季节性的ARIMA扩展)等,简单直观但依赖特定假设。
- 机器学习模型:如决策树(易于解释但易过拟合)、SVM(处理高维数据和非线性)、GBM(集成多个弱模型)、XGBoost(优化的梯度提升算法)等,在捕捉数据结构和模式上优于统计模型。
3.2 Fundamental Deep Learning Models(基础深度学习模型)
- MLPs:早期人工神经网络基础,能建模非线性模式,但在学习时间依赖、处理深层网络梯度问题上有局限,且受数据和计算资源限制。
- RNNs:专为处理序列数据设计,通过隐藏状态传递历史信息,但存在梯度消失/爆炸、并行处理困难等问题。LSTM和GRU通过门控机制缓解了部分问题,是处理时间序列数据的有力工具。
- CNNs:最初用于图像识别,1D CNN(如WaveNet、TCN)可提取时间序列的局部模式,与RNN结合的混合模型(如DCRNN、TPA-LSTM)能同时学习局部模式和长程依赖。
- GNNs:处理图结构数据,可建模多元时间序列中变量的复杂关系。随着数据复杂性增加,GNN在交通预测等领域逐渐受到关注,如ST-GCN、GAT、TGN等。
3.3 The Prominence of Transformer-based Models(基于Transformer的模型的优势)
- Transformer原理:基于编码器-解码器结构和自注意力机制,能捕捉序列中标记间的关系,在NLP中成功后被应用于时间序列数据。
- 变体:为解决原始Transformer在长序列预测中的二次时间和内存复杂度等问题,出现了LogTrans、Reformer、Informer、Autoformer等变体(表5),通过稀疏注意力等机制降低复杂度。
- 局限性:效率挑战(计算和内存成本高)、上下文窗口受限、增加输入窗口长度对性能提升有限等。
3.4 Uprising of Non-Transformer-based Models(非Transformer模型的兴起)
- 原因:Transformer在处理长序列时存在计算复杂度高、内存需求大、对数据量要求高等局限。
- 优势:RNNs适合长程依赖建模且内存需求低;CNNs计算复杂度低,适合提取局部模式;GNNs能建模变量关系;MLPs结构简单高效。
- 趋势:以LTSF-Linear为代表的简单线性模型表现优于Transformer,引发对基础深度学习模型的重新关注,同时新兴模型(如Mamba)和新方法(如利用LLMs)也受到关注,TSF进入建模复兴时代。
4 New Exploration of TSF Models(TSF模型的新探索)
4.1 Overcoming Limitations of Transformer(克服Transformer的局限性)
- 补丁技术:将输入序列分为多个补丁,减少注意力机制的计算复杂度,如PatchTST、MTST、PETformer(表5)。
- 跨维度建模:明确建模变量间的相关性,如Crossformer、DSformer、iTransformer等(表5)。
- 外生变量整合:如TimeXer、TGTSF,利用外生变量提升预测性能。
- 其他方法:包括提高泛化能力(如SAMformer、Minusformer)、多尺度方法(如Scaleformer、Pathformer)、仅解码器结构(如CATS)、特征增强(如Fredformer、Basisformer)等。
4.2 Growth of Fundamental Deep Learning Models(基础深度学习模型的发展)
- MLP-based Models:如N-BEATS、N-HiTS、TSMixer等,通过结构改进(如分解、多尺度采样)实现高性能,具有简单、高效的特点(表7)。
- CNN-based Models:如TimesNet、ModernTCN、ConvTimeNet等,利用卷积提取局部模式,在时间序列分析中重新受到关注(表7)。
- RNN-based Models:如PA-RNN、WITRAN、RWKV-TS等,在处理序列数据和长程依赖上仍有优势(表7)。
- GNN-based Models:如MSGNet、TMP-Nets、ForecastGrapher等,适合建模变量间复杂关系(表7)。
- 模型无关框架:如RobustTSF、PDLS等,不依赖特定模型骨干,解决TSF中的特定问题(如异常值、损失分布不均)。
4.3 Emergence of Foundation Models(基础模型的出现)
- 挑战:时间序列数据领域特异性强,收集大规模预训练语料困难。
- 方法:
- 利用LLMs的序列建模能力:如GPT4TS、PromptCast、LLMTime、Time-LLM,将时间序列数据适配到LLMs。
- 从头预训练:如Lag-LLaMA、TimesFM、CHRONOS、Uni2TS,构建大规模时间序列语料进行预训练(表8)。
4.4 Advance of Diffusion Models(扩散模型的进展)
- 原理:通过前向过程逐渐向数据添加噪声,再通过反向过程从噪声中重建数据,能建模不确定性。
- 在TSF中的应用:
- 有效的条件嵌入:如TimeGrad、CSDI、SSSD等,利用历史数据作为条件指导反向过程。
- 时间序列特征提取:如Diffusion-TS(分解技术)、Diffusion in Frequency(频率域处理)、MG-TSD(多粒度)等。
- 其他方法:如基于SDE的分数生成建模、潜在扩散模型、引导方法等(表9)。
4.5 Debut of the Mamba(Mamba的出现)
- 背景:状态空间模型(SSMs)是处理序列数据的数学框架,Mamba基于SSMs,通过选择性SSM使参数随输入动态变化,提高灵活性。
- 应用:在TSF中出现多种Mamba变体,如TimeMachine(嵌入和多尺度学习)、S-Mamba(通道相关性学习)、Mambaformer(序列信息和依赖学习)等(表10),具有高效序列处理、选择性信息保留等优势。
5 TSF Latest Open Challenges & Handling Methods(TSF最新开放挑战及处理方法)
5.1 Channel Dependency Comprehension(通道依赖理解)
- 通道独立策略(CI)的兴起:PatchTST等模型采用CI策略取得SOTA性能,该策略简化模型、减少过拟合风险,但并非在所有情况下都优于通道依赖策略(CD)。
- 学习通道相关性的重要性:变量间的相关性能提供复杂模式信息,有助于提高预测准确性。
- CI表现较好的原因:在存在分布偏移的数据集上,CI策略更稳健,因依赖所有通道的平均自相关函数,对分布偏移较不敏感。
- 近期方法:包括在骨干模型中明确集成通道混合模块、将通道相关性隐式融入输入、自适应选择CI和CD策略等(图16)。
5.2 Alleviation of Distribution Shift(分布偏移的缓解)
- 问题:现实世界时间序列数据常具非平稳性,导致训练数据和测试数据分布存在差异,影响模型泛化能力。
- 方法:包括领域适应、迁移学习、鲁棒性技术等。重点介绍了归一化-TSF模型-反归一化框架,如DAIN、RevIN、NST、Dish-TS、SAN等(表11),通过归一化输入和反归一化预测结果缓解分布偏移。
5.3 Enhancing Causality(增强因果性)
- 因果分析的重要性:区分相关性和因果关系,避免模型受虚假相关性影响,提高预测准确性和可解释性,有助于决策制定。
- TSF中的因果推断方法:包括格兰杰因果检验、结构因果模型(SCM)、Do-Calculus、倾向得分匹配(PSM)、有向无环图(DAG)等。
- 相关研究:如Qian等将多元因果分析用于预测黑潮体积输送,Mu等将因果发现信息用于预测北大西洋涛动等。
5.4 Time Series Feature Extraction(时间序列特征提取)
- 重要性:帮助模型更好地理解数据、提高预测性能、增加效率,还能增强数据的可解释性。
- 方法:
- 分解:如移动平均核、下采样、非线性方法(EMD、EEMD、VMD)等,将数据分解为趋势、季节性等组件。
- 多尺度:在不同时间尺度分析数据,如MTST、PDMLP等。
- 域转换:将数据转换到频率域(如傅里叶变换、小波变换),如FreTS、FEDformer等。
- 其他方法:如高维嵌入、基于自监督学习的自动特征工程等。
5.5 Model Combination Techniques(模型组合技术)
- 集成模型:包括装袋(Bagging)、提升(Boosting)、堆叠(Stacking)等(图18),通过组合多个模型的预测减少不确定性,提高稳健性。
- 混合模型:结合不同类型的模型或技术,如ESRNN结合指数平滑和LSTM,WaveForM结合小波变换和GNN等,发挥各模型优势。
5.6 Interpretability & Explainability(可解释性)
- 定义:可解释性关注理解模型内部工作机制,可解释性关注以人类可理解的方式提供模型输出的原因。
- 可解释性模型:如TFT,通过注意力机制、门控机制等提高可解释性。
- 可解释性方法:包括替代模型(如LIME)、特征归因(如SHAP)、反事实解释(如ForecastCF)等。
5.7 Spatio-temporal Time Series Forecasting(时空时间序列预测)
- 定义:同时捕捉时间变化和空间分布的数据,具有空间交互和时间依赖特性。
- 方法:
- 基于图的方法:将数据表示为图,如DCRNN、ST-GCN等。
- 基于栅格的方法:将数据转换为2D网格或视频格式,如ConvLSTM、ST-ResNet等。
- 混合方法:结合图基和栅格基方法,如GMAN、STSGCN等,更有效建模空间结构和时间依赖。
6 Conclusion(结论)
核心内容
- 综述总结:本综述全面回顾了TSF的最新进展,聚焦深度学习模型,涵盖从Transformer的优势到多种架构模型的兴起,以及基础模型、扩散模型、Mamba等创新模型。
- 开放挑战与未来方向:讨论了通道相关性、分布偏移、因果性、特征提取、模型组合、可解释性、时空TSF等挑战,为未来研究提供了方向。
- 局限性:未详细介绍模型的理论背景,未深入探讨不同时间序列数据集的特性差异,未来可探索AGI和自适应建模等方面。