随着大语言模型(LLMs)从单纯的文本生成器演化为具备规划、推理和自主行动能力的Agentic系统,其能力大幅提升,但也带来了安全、合规和治理等方面的新挑战。为了应对这些风险,NVIDIA发布了一套开源安全软件套件与后训练安全策略(Safety Recipe),为企业部署Agentic AI提供系统性防护手段。
核心问题与背景
Agentic AI具备更强的自主性和工具使用能力,但也引发以下问题:
- 内容输出风险:生成有害、带偏见或不合规内容;
- 安全隐患:易受prompt injection、越狱攻击等威胁;
- 合规难题:难以匹配企业内部政策与外部监管;
- 传统防护失效:静态内容过滤与规则策略难以应对动态攻击。
企业迫切需要覆盖全生命周期的系统性对策,确保Agentic系统可控、可监、可审计。
NVIDIA安全策略架构概览

NVIDIA的安全策略分为四个阶段,覆盖从训练前到部署后的全流程,从多个方位保证AI安全:
- 预部署评估
- 工具/数据:Nemotron、WildGuardMix、garak扫描器;
- 功能:基于企业政策和安全基准测试模型。
- 后训练对齐
- 技术:监督微调(SFT)、强化学习(RL)、On-policy数据融合;
- 目标:在不影响准确性的前提下提升模型的安全一致性。
- 在线推理防护
- 工具:NeMo Guardrails与NIM微服务;
- 功能:实时内容审查、主题控制、越狱检测。
- 持续监测与反馈
- 技术:实时分析+garak扫描;
- 功能:应对动态攻击与提示注入,持续加强防御能力。
开源资源与数据集
- Nemotron Content Safety v2:涵盖广泛有害行为的评估基准;
- WildGuardMix:适用于模糊/对抗性提示的内容审查;
- Aegis Dataset:35000+条标注样本,支持更精细的分类器开发。
效果与成效指标
在效果和成效方便,NVIDIA安全策略也表现良好!
- 内容安全性提升6%(88% → 94%),模型准确率无损失;
- 越狱防御能力提升7%(56% → 63%);
- 系统可迭代更新,保障模型在面临新型风险时持续可信。


企业集成与合作生态
- 与Cisco AI Defense、CrowdStrike、Trend Micro等合作;
- 可自定义业务策略、风险阈值和合规要求,实现个性化对齐;
- 支持开源部署或云端模块化启动,便于快速上手与持续演进。
总结
NVIDIA的Agentic AI安全策略是业界首个公开、全流程、可扩展的安全强化方案,为企业在采用Agentic LLM过程中提供了稳固的信任支撑。它在不牺牲性能的前提下,实现了从模型训练到实时防御的完整闭环,助力企业平衡创新与风险,安全拥抱自治型AI,为未来铺路。
参考
- https://developer.nvidia.com/blog/safeguard-agentic-ai-systems-with-the-nvidia-safety-recipe/
本文转载自Halo咯咯 作者:基咯咯