突破深度学习检测壁垒!LLM+RL范式生成对抗性流量,ASR超40%!
背景
在网络安全的“猫鼠游戏”中,恶意流量检测始终是核心防线。随着深度学习(DL)技术的普及,基于DL的恶意流量检测模型凭借自动特征提取、未知攻击识别等优势,成为学术和工业界的主流方案。但看似无懈可击的DL模型,实则存在致命短板。攻击者只需通过轻微修改流量特征,就能让模型将恶意流量误判为良性,导致攻击行为“隐身”逃脱。

因此,如何生成“泛化性、可用性、有效性”的对抗性流量,让模型能够从对抗样本中不断进化学习,提前适应0-day威胁,成为网络安全领域的关键。其中:
- 泛化性。对抗攻击应该具有泛化性,能够成功地绕过各种检测方案。
- 可用性。产生的流量在保持其功能性的同时必须遵守严格的协议合规性。
- 有效性。生成的对抗流量应该由完整的数据包组成,并且保持语义流量。
近日,发表于 WWW’25(ACM Web会议2025)的研究《AdvTG: An Adversarial Traffic Generation Framework to Deceive DL-Based Malicious Traffic Detection Models》[3]给出了答案。该框架创新性地结合大语言模型(LLM)和强化学习(RL),专门针对payload-based检测模型,生成高对抗性、高合规性的恶意流量,在6个检测模型、6个数据集上实现超 40% 的攻击成功率(ASR),显著超越现有方法。
AdvTG 框架:三步实现“高欺骗性+高合规性”流量生成
AdvTG的核心思路是用LLM解决“语义合规+功能正常”的payload生成问题,用RL优化“对抗性”,让生成的流量既能在真实网络中运行,又能高效欺骗检测模型。总体技术框架如图所示:

多类型检测模型训练
AdvTG第一步就是构建一套检测模型,既作为对抗攻击的目标,又作为后续RL优化的评委(提供奖励反馈)。这套检测模型包含如下两类方法:
- 面向图像特征:将流量字节流转化为 2D 灰度图,并采用CNN模型,捕捉payload负载特征;
- 面向文本特征:将流量按协议规则token化,采用LSTM或BERT模型,捕捉语义和序列模式。

基于两种方式,训练6种DL模型(TextCNN、BERT、DeepLog、MalTraffic 等),从而能够覆盖CNN、LSTM、Transformer等架构(泛化性)。同时,这些模型不仅是攻击目标,还会对后续生成的对抗性流量打分 —— 能成功欺骗模型的流量得高分,被轻易识别的得低分,为RL对抗生成优化提供反馈。
领域LLM微调
通用LLM并不懂网络协议,直接让它生成流量会出现各种问题。因此,AdvTG对LLM进行流量领域微调,让它成为懂行的流量生成器。

AdvTG设计了专门用于流量生成的提示,指导特定流量类别的生成,输入由功能字段组成。并由LLM生成非功能字段,形成一个完整的流量包。其中,功能字段是指核心必需字段,不能进行修改,比如HTTP请求行(GET/POST命令)、执行恶意命令的有效载荷。非功能字段是指不影响流量功能,但会被检测模型当作恶意的特征,比如 User-Agent(客户端标识)、Content-Type(内容类型)、Cache-Control(缓存控制)等。并通过LoRA微调,使LLM学习了良性和恶意流量的结构模式,根据指令生成相应的流量。

提示词由两部分组成,一条指令和一个功能字段。指基于功能字段,引导LLM产生来自相反类型的流量。例如,当输入由恶意流量的函数字段组成时,指令要求输出为良性流量。LLM会在提示的基础上产生偏离预期行为的良性流量。这使得攻击者可以根据每个输入的功能字段定制完整的对抗流量。
强化学习优化
微调后的LLM能生成合规流量,但并不能欺骗检测模型。AdvTG用强化学习(RL)进一步优化,让LLM学会精准欺骗。
该过程将检测模型视为只输出分数的黑盒系统,LLM根据检测模型的评价生成有效载荷并接收奖励分数。

采用强化学习优化对抗攻击生成策略。第一阶段训练的回报模型对LLM的输出结果进行评估,并利用评分结果更新LLM的参数。
本过程包含两个LLM:
- 具有冻结参数的领域特异性LLM
- 在训练过程中更新的RL-Tuned LLM。
该设置的目的是在保留原本大模型学习到的基础行为的同时,细化RL-Tuned LLM生成对抗流量的能力。使用第一阶段训练的多个检测模型对RL-Tuned LLM的输出进行评估。如下式所示,每个奖励模型提供一个奖励分数$r_\theta(x, y)$,可以解释为交叉熵函数的一个变体,称为负交叉熵。 $$ r_\theta(x, y) = -\frac{1}{N} \sum_{i=1}^N \left[ (1-L_x) \log(D_i(y)) + L_x \log(1-D_i(y)) \right] $$ 最终的奖励分数被计算为多个奖励模型$D_i(y)$输出的平均值。
除了平均奖励分数外,还包含一个KL散度惩罚。该惩罚保证了RL-Tuned LLM在优化对抗性能的同时,其输出不会过度偏离特定领域LLM的行为。如式所示: $$ R(x, y) = r_\theta(x, y) - \beta \log\left[ \pi_\phi^\mathrm{RL}(y \mid x) / \pi^\mathrm{SFT}(y \mid x) \right] $$
实验结果
如表所示,该方法对各种模型的攻击成功率均超过了40%,最高的能够达到69.53%


微调前后,生成流量中的合规比例,微调前流量合规率仅16.40%~29.68%, 微调后合规率提升至82.75%~89.16%,满足真实网络传输要求。

参考文献
WANG M, YANG N, FORCADE-PERKINS N J, et al. ProGen: Projection-Based Adversarial Attack Generation Against Network Intrusion Detection [J]. IEEE Transactions on Information Forensics and Security, 2024, 19: 5476-91.
DEBICHA I, COCHEZ B, KENAZA T, et al. Adv-Bot: Realistic adversarial botnet attacks against network intrusion detection systems [J]. Computers & Security, 2023, 129: 103176.
