NVIDIA推出面向Agentic AI的系统性安全框架 原创

发布于 2025-8-4 09:01
浏览
0收藏

随着大语言模型(LLMs)从单纯的文本生成器演化为具备规划、推理和自主行动能力的Agentic系统,其能力大幅提升,但也带来了安全、合规和治理等方面的新挑战。为了应对这些风险,NVIDIA发布了一套开源安全软件套件与后训练安全策略(Safety Recipe),为企业部署Agentic AI提供系统性防护手段。

核心问题与背景

Agentic AI具备更强的自主性和工具使用能力,但也引发以下问题:

  • 内容输出风险:生成有害、带偏见或不合规内容;
  • 安全隐患:易受prompt injection、越狱攻击等威胁;
  • 合规难题:难以匹配企业内部政策与外部监管;
  • 传统防护失效:静态内容过滤与规则策略难以应对动态攻击。

企业迫切需要覆盖全生命周期的系统性对策,确保Agentic系统可控、可监、可审计。

NVIDIA安全策略架构概览

NVIDIA推出面向Agentic AI的系统性安全框架-AI.x社区

NVIDIA的安全策略分为四个阶段,覆盖从训练前到部署后的全流程,从多个方位保证AI安全:

  1. 预部署评估
  • 工具/数据:Nemotron、WildGuardMix、garak扫描器;
  • 功能:基于企业政策和安全基准测试模型。
  1. 后训练对齐
  • 技术:监督微调(SFT)、强化学习(RL)、On-policy数据融合;
  • 目标:在不影响准确性的前提下提升模型的安全一致性。
  1. 在线推理防护
  • 工具:NeMo Guardrails与NIM微服务;
  • 功能:实时内容审查、主题控制、越狱检测。
  1. 持续监测与反馈
  • 技术:实时分析+garak扫描;
  • 功能:应对动态攻击与提示注入,持续加强防御能力。

开源资源与数据集

  • Nemotron Content Safety v2:涵盖广泛有害行为的评估基准;
  • WildGuardMix:适用于模糊/对抗性提示的内容审查;
  • Aegis Dataset:35000+条标注样本,支持更精细的分类器开发。

效果与成效指标

在效果和成效方便,NVIDIA安全策略也表现良好!

  • 内容安全性提升6%(88% → 94%),模型准确率无损失
  • 越狱防御能力提升7%(56% → 63%);
  • 系统可迭代更新,保障模型在面临新型风险时持续可信。

NVIDIA推出面向Agentic AI的系统性安全框架-AI.x社区

NVIDIA推出面向Agentic AI的系统性安全框架-AI.x社区

企业集成与合作生态

  • Cisco AI Defense、CrowdStrike、Trend Micro等合作;
  • 可自定义业务策略、风险阈值和合规要求,实现个性化对齐;
  • 支持开源部署或云端模块化启动,便于快速上手与持续演进。

总结

NVIDIA的Agentic AI安全策略是业界首个公开、全流程、可扩展的安全强化方案,为企业在采用Agentic LLM过程中提供了稳固的信任支撑。它在不牺牲性能的前提下,实现了从模型训练到实时防御的完整闭环,助力企业平衡创新与风险,安全拥抱自治型AI,为未来铺路。

参考

  1. ​https://developer.nvidia.com/blog/safeguard-agentic-ai-systems-with-the-nvidia-safety-recipe/​​​

本文转载自​Halo咯咯​    作者:基咯咯

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐