⬆︎
×

【Phys】HPC与深度学习在核聚变研究中的融合创新

基于JET装置的CNN/RNN/VAE应用案例

D. R. Ferreira, “Using HPC infrastructures for deep learning applications in fusion research,” Plasma Phys. Control. Fusion, vol. 63, no. 8, p. 084006, Aug. 2021, doi: 10.1088/1361-6587/ac0a3b.

资源:HPC与深度学习在核聚变研究中的融合创新.pptx

1 标题页

主题为《HPC与深度学习在核聚变研究中的融合创新》,基于JET装置展示CNN、RNN、VAE三类模型在聚变数据中的应用,核心探讨高性能计算如何驱动深度学习效率提升。


2 核聚变研究的计算挑战

2.1 HPC的传统角色

在核聚变领域,HPC长期作为等离子体模拟的核心工具。传统模拟依赖粒子模拟(PIC)、陀螺动力学等代码,基于磁流体力学理论,通过CPU并行计算解析等离子体行为。以JET为例,其辐射分布重建需通过迭代优化算法(如非负约束最小二乘),单次计算耗时数分钟,且计算量随分辨率呈指数增长。尽管部分代码尝试GPU移植(如XGC1代码采用MPI/OpenMP/GPU混合并行),但整体计算仍以CPU为主,模拟数据多为合成数据,侧重从第一性原理验证物理机制。

2.2 深度学习的需求

随着JET等装置的诊断技术进步,实时产生的实验数据量激增(如48通道辐射热测量数据,每秒200样本),传统算法难以高效解析高维非线性模式。以破裂预测为例,人工设计特征(如等离子体电流、安全因子)存在遗漏风险,而深度学习可自动捕捉辐射信号的时空关联。但深度学习训练对算力需求巨大:单模型训练(如CNN图像重建)需16小时以上,迫使研究人员转向HPC集群的GPU分区(如MARCONI-FUSION的8 GPU节点,配备Nvidia P100,显存16 GB)。此时,深度学习与传统模拟代码在HPC集群中形成资源竞争,但也为融合创新提供了契机——例如,用深度学习加速模拟中的耗时步骤,或用模拟数据增强深度学习模型的物理约束。


3 深度学习网络1:CNN图像重建

任务定义

目标:将JET辐射热测量的48通道1D数据(极向截面视线积分)转换为2D等离子体辐射分布,替代传统迭代重建算法。

3.1 网络架构

  • 输入层:接收48维原始测量向量,对应水平/垂直摄像头各24通道的辐射强度。
  • 特征映射模块
    • 密集层1:7500节点全连接层,通过矩阵乘法将48维向量映射为7500维特征,激活函数为ReLU。
    • 密集层2:7500节点全连接层,输出后重塑为25×15×20的3D张量(20个空间特征图,尺寸25×15)。
  • 上采样模块
    • 转置卷积层1:滤波器数量20,核大小3×3,步长2,填充1,输出50×30×20特征图(通过反卷积扩大空间尺寸)。
    • 转置卷积层2:滤波器数量20,核大小3×3,步长2,填充1,输出100×60×20特征图。
    • 转置卷积层3:单通道卷积核(核大小1×1),输出196×115×1的2D图像(与JET传统重建分辨率一致)。
  • 关键设计
    • 采用反卷积+ReLU组合提升空间分辨率,避免传统插值导致的细节模糊。
    • 两层密集层充当“特征编码器”,将低维测量值映射到高维空间,捕捉非线性物理关系。

CNN

(图3)

3.2 训练配置

  • 框架:TensorFlow,利用多GPU API实现数据并行。
  • 损失函数:Mean Absolute Error(MAE),计算重建图像与传统算法结果的像素级误差。
  • 数据划分:28,000例样本(80%训练/10%验证/10%测试),输入为归一化后的辐射测量值,标签为传统重建图像。

4 深度学习网络2:RNN破裂预测

任务定义

目标:基于200时间步的辐射测量序列(1秒时长,200 Hz采样),预测托卡马克破裂的概率或剩余时间。

4.1 网络架构

  • 输入层:形状为200×48的时间序列张量(时间步×通道数),直接输入原始辐射信号。
  • 时间特征提取模块
    • 1D卷积层1:32个滤波器,核大小3,步长1,填充1,后接最大池化(池化大小2),输出100×32的特征序列(序列长度减半,特征数增至32)。
    • 1D卷积层2:64个滤波器,核大小3,步长1,填充1,后接最大池化(池化大小2),输出50×64的特征序列。
    • 1D卷积层3:128个滤波器,核大小3,步长1,填充1,后接最大池化(池化大小2),输出25×128的特征序列。
  • 时序建模模块
    • LSTM层:128个记忆单元,接收25×128的特征序列,输出最后一个时间步的隐藏状态(128维向量),捕捉长程依赖(如辐射增强的持续趋势)。
  • 输出层
    • 分类任务:单神经元+Sigmoid激活,输出破裂概率(0-1)。
    • 回归任务:单神经元直接输出剩余时间(秒),无激活函数。

CNN+RNN

(图5)

4.2 关键创新

  • 跨尺度特征融合:通过多层卷积逐步提升特征维度(32→64→128),同时利用池化压缩时间维度,平衡计算效率与时序特征捕捉能力。
  • 多任务共享架构:分类与回归任务共用前向传播路径,仅输出层参数独立,减少模型冗余。

5 深度学习网络3:VAE异常检测

任务定义

目标:通过非破裂脉冲的辐射分布训练生成模型,对破裂脉冲的异常模式进行无监督检测。

5.1 网络架构

  • 编码器(Encoder)
    • 输入:196×115的2D辐射图像(由CNN重建得到)。
    • 卷积层1:32个3×3滤波器,步长2,填充1,ReLU激活,输出98×58×32特征图。
    • 卷积层2:64个3×3滤波器,步长2,填充1,ReLU激活,输出49×29×64特征图。
    • 瓶颈层:展平后通过两层7500节点密集层,输出均值向量(μ)和对数方差向量(logσ²),定义潜在空间分布q(z|x) \sim N(\mu, \sigma^2)
  • 重参数化采样
    • 从标准正态分布采样ε,计算z = \mu + \sigma \odot \epsilon,确保梯度可反向传播。
  • 解码器(Decoder)
    • 转置卷积层1:64个3×3滤波器,步长2,填充1,ReLU激活,输入z后上采样至98×58×64特征图。
    • 转置卷积层2:32个3×3滤波器,步长2,填充1,ReLU激活,上采样至196×115×32特征图。
    • 输出层:单通道卷积+Sigmoid激活,生成重建图像\hat{x},范围0-1(对应辐射强度归一化值)。
  • 损失函数
    • 重建损失:MAE,衡量输入图像x与重建图像\hat{x}的像素差异。
    • KL散度损失:约束潜在分布接近标准正态,防止过拟合。

VAE

(图7)

5.2 技术要点

  • 生成式建模:通过潜在空间的概率分布建模正常样本流形,异常样本因偏离流形导致重建误差升高。
  • 无监督学习:仅需非破裂样本训练,适用于聚变领域“正常样本多、异常样本少”的数据特点。

6 HPC驱动:多GPU训练机制

6.1 加速原理

  • 数据并行:将训练数据拆分至8 GPU,各卡计算梯度后同步更新全局参数,如CNN训练时每卡处理400样本/批,总批量大小3200,理论加速比接近8倍。
  • 显存优化
    • 利用混合精度训练(FP16)减少显存占用,使VAE可处理196×115高分辨率图像。
    • 通过模型并行(如拆分密集层至不同GPU),支持更大规模网络(如7500节点密集层)。

6.2 资源调度策略

  • 单节点多任务:同一8 GPU节点可同时训练CNN与VAE(通过Docker隔离环境),提升集群利用率。
  • 超参数并行调优:利用2个8 GPU节点同步测试不同LSTM层数(1层vs2层),将调优周期从1周缩短至2天。

7 结果

7.1 CNN图像重建性能结果

  • 速度提升:传统算法重建单例需5分钟,CNN仅需1秒,全脉冲(54秒)重建可实时完成,效率提升300倍
  • 精度验证:CNN重建误差为0.01 MW/m³,显著低于传统算法的0.1 MW/m³,且误差低于输入数据的实验噪声(~0.1 MW/m³),满足工程诊断需求。
  • 物理有效性:重建图像捕捉到破裂前的辐射团块演化(如图4所示),与文献中“杂质积累引发核心辐射坍塌”的机制一致,证明模型不仅提速,还能保留关键物理特征。

7.2 RNN破裂预测性能结果

  • 预测时效性:对于脉冲90433(破裂发生于t=50.72s),RNN在t=50.22s(破裂前500ms)预测概率超过0.9,剩余时间预测误差小于1秒,满足预警时间窗口需求。
  • 局限性:单诊断(仅辐射数据)的召回率为70%,低于JET现有多参数模型(85%),因辐射信号仅反映破裂次级效应,未来需融合等离子体电流、磁场等多源数据。
  • 训练效率:8 GPU并行训练将时间从单卡12小时缩短至1.7小时,加速比达7.06倍,验证多卡数据并行的有效性。

7.3 VAE异常检测性能结果

  • 异常检测能力:在脉冲92213中,VAE于t=52.3s(破裂前1.38s)检测到异常,重建误差(异常分数)从0.03跃升至0.08,对应核心区域辐射强度异常增强,与图4中物理现象完全吻合。
  • 训练效率:8 GPU训练耗时15小时,较单卡(120小时)提升8倍,且模型在140万例样本上未出现过拟合,验证KL散度正则化的有效性。

8 结论与未来展望

8.1 核心结论

  • HPC的多GPU架构是深度学习在聚变研究中落地的关键,实现了从单卡训练(天级)到多卡并行(小时级)的效率飞跃。
  • CNN/RNN/VAE三类模型分别在图像重建、破裂预测、异常检测中展现实用价值,且结果与物理理论一致。

8.2 未来方向

  • 分布式训练扩展:采用Horovod框架实现跨节点训练,支持全球聚变数据联合建模(如ITER装置预研)。
  • 物理约束嵌入:将磁流体力学方程作为损失函数正则项,强制模型输出满足安培定律,提升泛化能力。
  • 边缘计算部署:将优化后的RNN模型(如TensorRT加速)嵌入JET控制系统,实现亚秒级破裂预警,直接驱动等离子体控制执行器。
  • 技术愿景:通过HPC与深度学习的深度融合,构建“模拟-诊断-控制”闭环,推动核聚变实验向自动化、智能化演进。

9 补充

  • JET,(Joint European Torus,欧洲联合环面装置):欧盟核心托卡马克核聚变实验装置,为研究提供高分辨率辐射热测量等数据。
  • VAE(Variational Auto-Encoder,变分自编码器):一种无监督生成模型,通过编码-解码结构和概率分布建模实现数据重建与异常检测。

发表评论