↻

❮

❯

⬆︎

×

NAV

综合大模型

DeepSeek 豆包 KIMI ChatGLM 讯飞星火通义千问文心一言

GPT-GOD Copilot Grok

控制台

阿里云宝塔面板微信小程序

Overleaf Google Colab Kaggle

Coze 智谱AI 百度智能云百炼

实用工具

图片压缩图片裁剪在线去水印 DeepL

LaTeXLive GitMind Excalidraw

ab173(前端) iP138(驼峰) MaTools HTML格式化 HTML压缩(无注释) Tech.io

信息检索

百度谷歌 Bing GitHub Gitee Gmail

𝕏 微博 Bilibili Youtube Twitch Reddit CSDN

谷歌学术知网 CCF推荐目录谷粉学术

其他资源

Perchance ToolBaz DeepAI Photo2Story

SteamDB SteamGridDB TIOBE

非常规搜索引擎

Xclient FileHorse AppKed

Duplichecker 画像詳細検索 Wayback Machine

Explore your Hyplusite!

随机博文 · 应用导航

软硬件指南 HyPress EX

服务端综合前端·Node.js PHP·WP运维算法题库系统架构设计

Python数据分析数学建模课程深度学习论文精读存档

Hyplus目录

论文精读存档 5803字 20分钟📤 🖨

[TSF] A Comprehensive Survey of Deep Learning for Time Series Forecasting: Architectural Diversity and Open Challenges

2025年8月11日2025年7月15日作者 Akira

时序预测2025综述，pretty dope as an entry to study TSF。本文仅提供高度精简后的解读，更多内容详见时间序列预测模型文库。

A Comprehensive Survey of Deep Learning for Time Series Forecasting: Architectural Diversity and Open Challenges

Hyplus目录

1 Introduction（引言）

核心内容

时间序列预测（TSF）的重要性：TSF是基于历史序列数据预测未来值的任务，在经济金融、供应链管理、交通、能源、天气和医疗等多个领域中作为关键决策工具，可实现成本降低、效率提升和竞争力增强。
TSF模型发展历史：
- 早期以移动平均等统计方法为主，后发展为指数平滑、ARIMA等传统方法。
- 机器学习方法（如决策树、SVM）虽被应用，但在学习复杂非线性模式上有局限。
- 随着数据量和计算能力提升，MLP、RNN、CNN、GNN等深度学习架构出现，但受自身设计限制。
- LSTM、TCN等变体缓解了部分问题，Transformer因处理长依赖能力在TSF中流行，但近年研究显示简单线性层可超越Transformer。
现有综述的局限性与本综述的贡献：现有综述多聚焦特定架构，对多样化架构的广泛比较不足，且对开放挑战的覆盖有限。本综述聚焦架构多样化趋势，分析多种架构的发展、优劣及贡献，并深入探讨开放挑战及最新解决方法，为新手降低入门门槛，为资深研究者提供新视角。

关键图表

图2显示顶级AI和ML会议上TSF论文数量在2020-2024年呈增长趋势，体现TSF研究的重要性日益提升。
图3展示TSF模型的演化，从统计方法、机器学习到深度学习，再到如今多种架构并存的“复兴”阶段。
表1对比了本综述与其他TSF综述论文，突出本综述在全面覆盖架构演化和开放挑战方面的优势。

2 Background（背景）

2.1 Time Series Data（时间序列数据）

定义：按固定时间间隔收集的连续数据点集合，可反映随时间变化的现象。
特征：包括时间顺序、自相关性、趋势、季节性、异常值或噪声、不规则性、周期性、非平稳性等（图5），这些特征常混合出现，需分解或采用分布偏移缓解方法分析。
多元时间序列数据特性：包含变量间的相互依赖性、外生变量、信息上下文等（图6），能提供更详细的现实世界复杂性信息。

2.2 Time-Series Forecasting（时间序列预测）

定义：通过分析历史时间序列数据预测未来值，需捕捉数据中的时间模式（如趋势、季节性）。
分类：
- 单变量时间序列预测（UTSF）：仅使用一个变量进行预测，模型简单但信息有限。
- 多变量时间序列预测（MTSF）：同时使用多个变量，能捕捉复杂关系但模型更复杂。
- 短期时间序列预测（STSF）：预测近期未来，适合快速响应任务。
- 长期时间序列预测（LTSF）：预测远期未来，对长期规划重要但难度大。

2.3 Time Series Forecasting Datasets（时间序列预测数据集）

常用数据集：涵盖能源消耗、交通、天气、汇率、疾病爆发等领域（表2），如Electricity、Traffic、Weather等。
Monash时间序列预测档案：包含30个数据集，覆盖多个领域（表3）。
挑战：TSF缺乏大规模通用基准数据集，数据具有领域特异性，获取大量数据较困难，这增加了开发TSF基础模型的难度。

2.4 Evaluation Metrics（评估指标）

确定性模型指标：如MAE、MSE、RMSE等，衡量预测值与实际值的差异。
概率模型指标：如CRPS，评估分布预测的准确性。
其他指标：包括解释方差指标（如R²）、模型选择指标（如AIC、BIC）等（表4）。选择指标需考虑数据特性和问题需求，例如噪声环境下MAE优于MSE。

3 Historical TSF Models（历史TSF模型）

3.1 Conventional Methods（传统方法）

统计模型：如指数平滑（基于历史数据的加权平均）、ARIMA（结合自回归、移动平均和差分处理非平稳性）、SARIMA（考虑季节性的ARIMA扩展）等，简单直观但依赖特定假设。
机器学习模型：如决策树（易于解释但易过拟合）、SVM（处理高维数据和非线性）、GBM（集成多个弱模型）、XGBoost（优化的梯度提升算法）等，在捕捉数据结构和模式上优于统计模型。

3.2 Fundamental Deep Learning Models（基础深度学习模型）

MLPs：早期人工神经网络基础，能建模非线性模式，但在学习时间依赖、处理深层网络梯度问题上有局限，且受数据和计算资源限制。
RNNs：专为处理序列数据设计，通过隐藏状态传递历史信息，但存在梯度消失/爆炸、并行处理困难等问题。LSTM和GRU通过门控机制缓解了部分问题，是处理时间序列数据的有力工具。
CNNs：最初用于图像识别，1D CNN（如WaveNet、TCN）可提取时间序列的局部模式，与RNN结合的混合模型（如DCRNN、TPA-LSTM）能同时学习局部模式和长程依赖。
GNNs：处理图结构数据，可建模多元时间序列中变量的复杂关系。随着数据复杂性增加，GNN在交通预测等领域逐渐受到关注，如ST-GCN、GAT、TGN等。

3.3 The Prominence of Transformer-based Models（基于Transformer的模型的优势）

Transformer原理：基于编码器-解码器结构和自注意力机制，能捕捉序列中标记间的关系，在NLP中成功后被应用于时间序列数据。
变体：为解决原始Transformer在长序列预测中的二次时间和内存复杂度等问题，出现了LogTrans、Reformer、Informer、Autoformer等变体（表5），通过稀疏注意力等机制降低复杂度。
局限性：效率挑战（计算和内存成本高）、上下文窗口受限、增加输入窗口长度对性能提升有限等。

3.4 Uprising of Non-Transformer-based Models（非Transformer模型的兴起）

原因：Transformer在处理长序列时存在计算复杂度高、内存需求大、对数据量要求高等局限。
优势：RNNs适合长程依赖建模且内存需求低；CNNs计算复杂度低，适合提取局部模式；GNNs能建模变量关系；MLPs结构简单高效。
趋势：以LTSF-Linear为代表的简单线性模型表现优于Transformer，引发对基础深度学习模型的重新关注，同时新兴模型（如Mamba）和新方法（如利用LLMs）也受到关注，TSF进入建模复兴时代。

4 New Exploration of TSF Models（TSF模型的新探索）

4.1 Overcoming Limitations of Transformer（克服Transformer的局限性）

补丁技术：将输入序列分为多个补丁，减少注意力机制的计算复杂度，如PatchTST、MTST、PETformer（表5）。
跨维度建模：明确建模变量间的相关性，如Crossformer、DSformer、iTransformer等（表5）。
外生变量整合：如TimeXer、TGTSF，利用外生变量提升预测性能。
其他方法：包括提高泛化能力（如SAMformer、Minusformer）、多尺度方法（如Scaleformer、Pathformer）、仅解码器结构（如CATS）、特征增强（如Fredformer、Basisformer）等。

4.2 Growth of Fundamental Deep Learning Models（基础深度学习模型的发展）

MLP-based Models：如N-BEATS、N-HiTS、TSMixer等，通过结构改进（如分解、多尺度采样）实现高性能，具有简单、高效的特点（表7）。
CNN-based Models：如TimesNet、ModernTCN、ConvTimeNet等，利用卷积提取局部模式，在时间序列分析中重新受到关注（表7）。
RNN-based Models：如PA-RNN、WITRAN、RWKV-TS等，在处理序列数据和长程依赖上仍有优势（表7）。
GNN-based Models：如MSGNet、TMP-Nets、ForecastGrapher等，适合建模变量间复杂关系（表7）。
模型无关框架：如RobustTSF、PDLS等，不依赖特定模型骨干，解决TSF中的特定问题（如异常值、损失分布不均）。

4.3 Emergence of Foundation Models（基础模型的出现）

挑战：时间序列数据领域特异性强，收集大规模预训练语料困难。
方法：
- 利用LLMs的序列建模能力：如GPT4TS、PromptCast、LLMTime、Time-LLM，将时间序列数据适配到LLMs。
- 从头预训练：如Lag-LLaMA、TimesFM、CHRONOS、Uni2TS，构建大规模时间序列语料进行预训练（表8）。

4.4 Advance of Diffusion Models（扩散模型的进展）

原理：通过前向过程逐渐向数据添加噪声，再通过反向过程从噪声中重建数据，能建模不确定性。
在TSF中的应用：
- 有效的条件嵌入：如TimeGrad、CSDI、SSSD等，利用历史数据作为条件指导反向过程。
- 时间序列特征提取：如Diffusion-TS（分解技术）、Diffusion in Frequency（频率域处理）、MG-TSD（多粒度）等。
- 其他方法：如基于SDE的分数生成建模、潜在扩散模型、引导方法等（表9）。

4.5 Debut of the Mamba（Mamba的出现）

背景：状态空间模型（SSMs）是处理序列数据的数学框架，Mamba基于SSMs，通过选择性SSM使参数随输入动态变化，提高灵活性。
应用：在TSF中出现多种Mamba变体，如TimeMachine（嵌入和多尺度学习）、S-Mamba（通道相关性学习）、Mambaformer（序列信息和依赖学习）等（表10），具有高效序列处理、选择性信息保留等优势。

5 TSF Latest Open Challenges & Handling Methods（TSF最新开放挑战及处理方法）

5.1 Channel Dependency Comprehension（通道依赖理解）

通道独立策略（CI）的兴起：PatchTST等模型采用CI策略取得SOTA性能，该策略简化模型、减少过拟合风险，但并非在所有情况下都优于通道依赖策略（CD）。
学习通道相关性的重要性：变量间的相关性能提供复杂模式信息，有助于提高预测准确性。
CI表现较好的原因：在存在分布偏移的数据集上，CI策略更稳健，因依赖所有通道的平均自相关函数，对分布偏移较不敏感。
近期方法：包括在骨干模型中明确集成通道混合模块、将通道相关性隐式融入输入、自适应选择CI和CD策略等（图16）。

5.2 Alleviation of Distribution Shift（分布偏移的缓解）

问题：现实世界时间序列数据常具非平稳性，导致训练数据和测试数据分布存在差异，影响模型泛化能力。
方法：包括领域适应、迁移学习、鲁棒性技术等。重点介绍了归一化-TSF模型-反归一化框架，如DAIN、RevIN、NST、Dish-TS、SAN等（表11），通过归一化输入和反归一化预测结果缓解分布偏移。

5.3 Enhancing Causality（增强因果性）

因果分析的重要性：区分相关性和因果关系，避免模型受虚假相关性影响，提高预测准确性和可解释性，有助于决策制定。
TSF中的因果推断方法：包括格兰杰因果检验、结构因果模型（SCM）、Do-Calculus、倾向得分匹配（PSM）、有向无环图（DAG）等。
相关研究：如Qian等将多元因果分析用于预测黑潮体积输送，Mu等将因果发现信息用于预测北大西洋涛动等。

5.4 Time Series Feature Extraction（时间序列特征提取）

重要性：帮助模型更好地理解数据、提高预测性能、增加效率，还能增强数据的可解释性。
方法：
- 分解：如移动平均核、下采样、非线性方法（EMD、EEMD、VMD）等，将数据分解为趋势、季节性等组件。
- 多尺度：在不同时间尺度分析数据，如MTST、PDMLP等。
- 域转换：将数据转换到频率域（如傅里叶变换、小波变换），如FreTS、FEDformer等。
- 其他方法：如高维嵌入、基于自监督学习的自动特征工程等。

5.5 Model Combination Techniques（模型组合技术）

集成模型：包括装袋（Bagging）、提升（Boosting）、堆叠（Stacking）等（图18），通过组合多个模型的预测减少不确定性，提高稳健性。
混合模型：结合不同类型的模型或技术，如ESRNN结合指数平滑和LSTM，WaveForM结合小波变换和GNN等，发挥各模型优势。

5.6 Interpretability & Explainability（可解释性）

定义：可解释性关注理解模型内部工作机制，可解释性关注以人类可理解的方式提供模型输出的原因。
可解释性模型：如TFT，通过注意力机制、门控机制等提高可解释性。
可解释性方法：包括替代模型（如LIME）、特征归因（如SHAP）、反事实解释（如ForecastCF）等。

5.7 Spatio-temporal Time Series Forecasting（时空时间序列预测）

定义：同时捕捉时间变化和空间分布的数据，具有空间交互和时间依赖特性。
方法：
- 基于图的方法：将数据表示为图，如DCRNN、ST-GCN等。
- 基于栅格的方法：将数据转换为2D网格或视频格式，如ConvLSTM、ST-ResNet等。
- 混合方法：结合图基和栅格基方法，如GMAN、STSGCN等，更有效建模空间结构和时间依赖。

6 Conclusion（结论）

核心内容

综述总结：本综述全面回顾了TSF的最新进展，聚焦深度学习模型，涵盖从Transformer的优势到多种架构模型的兴起，以及基础模型、扩散模型、Mamba等创新模型。
开放挑战与未来方向：讨论了通道相关性、分布偏移、因果性、特征提取、模型组合、可解释性、时空TSF等挑战，为未来研究提供了方向。
局限性：未详细介绍模型的理论背景，未深入探讨不同时间序列数据集的特性差异，未来可探索AGI和自适应建模等方面。

发表评论取消回复