社区编辑申请
注册/登录
微软开源多项工具和数据集 让语言模型更和谐
开源 人工智能
日前微软宣布多项工具和数据集开源,这些工具旨在审计 AI 驱动的内容审核系统,以及自动编写突出显示 AI 模型中潜在错误的测试。

日前微软宣布多项工具和数据集开源,这些工具旨在审计 AI 驱动的内容审核系统,以及自动编写突出显示 AI 模型中潜在错误的测试。微软表示 AdaTest 和 (De)ToxiGen 项目可以产生更可靠的大型语言模型 (LLMs),或者类似于 OpenAI 的 GPT-3 的模型,用于分析和生成具有人类水平复杂性的文本。

目前 LLMs 存在诸多风险。因为这些模型经过了大量来自于互联网(包括社交媒体)的数据培训,因此它们在训练过程中可能会遇到有毒文本(toxic text)。由于重新训练模型的成本以及存在的大量错误,发现和修复这些模型中的缺陷仍然是一个挑战。

为了解决毒性问题,Microsoft Research 团队开发了 ToxiGen,这是一个用于训练可用于标记有害语言的内容审核工具的数据集。据微软称,ToxiGen 包含 274,000 个“中性”(neutral)和“有毒”(toxic)陈述的示例,使其成为最大的公开仇恨言论数据集之一。

Microsoft Research 合作伙伴研究领域经理、AdaTest 和 (De)ToxiGen 项目负责人 Ece Kamar ToxiGen 表示

我们认识到任何内容审核系统都会存在差距,这些模型需要不断改进。 (De)ToxiGen 的目标是让 AI 系统的开发人员能够更有效地发现任何现有内容审核技术中的风险或问题。

我们的实验表明,该工具可用于测试许多现有系统,我们期待从社区中学习将从该工具中受益的新环境。

为了生成样本,Microsoft Research 团队提供了一个针对 13 个少数群体的“中性”陈述和仇恨言论的 LLM 示例,这些群体包括黑人、身体和认知障碍者、穆斯林、亚洲人、拉丁裔、LGBTQ+ 和美洲原住民。这些陈述来自现有的数据集以及新闻文章、观点文章、播客记录和其他类似的公共文本来源。

微软团队解释说,用于创建 ToxiGen 语句的过程被称为 (De)ToxiGen,旨在通过指导 LLM 生成工具可能错误识别的语句来揭示特定审核工具的弱点。通过对三个人工编写的毒性数据集的研究,该团队发现从一个工具开始并使用 ToxiGen 对其进行微调可以“显着”提高该工具的性能。

微软团队认为,用于创建 ToxiGen 的策略可以扩展到其他领域,从而产生更多“微妙”和“丰富”的中立和仇恨言论示例。但专家警告说,这并不是万能的。

责任编辑:未丽燕 来源: cnBeta.COM
相关推荐

2022-06-05 21:09:47

Python办公自动化

2022-06-16 17:02:49

微软智能云混合云Azure

2022-06-15 08:25:07

Python天气数据可视化分析

2022-06-24 11:14:00

美团开源

2022-06-22 09:19:55

HDC鸿蒙ADB命令

2022-06-16 11:06:07

开源Grafanaon-call

2022-06-01 17:47:24

运维监控系统

2022-06-16 07:32:38

VSCodePython插件

2022-06-17 18:32:54

开源大数据数据调度

2022-06-28 14:01:42

MITOpenAI预训练模型

2022-06-27 15:25:08

架构模型治理

2022-06-15 16:16:21

分布式数据库鸿蒙

2022-06-28 10:03:56

CentOSLinux

2022-06-14 07:29:51

squoosh压缩工具开源

2022-06-20 09:45:48

Python开源可视化库

2022-06-28 14:47:43

数据中心服务器科技

2022-06-06 15:18:41

开源GiteaDrone

2022-06-09 06:57:53

Windows 10Windows 11微软

2022-06-16 09:22:28

图数据库图数据数据库

2022-06-22 08:02:11

同话题下的热门内容

用这些开源工具在 Linux 上编辑 PDF 文件专为开发人员构建的个人知识管理工具 - Dendron2022 年受欢迎的五大开源自动化和编排技术Apache Kafka:为“无缝系统”提供异步消息支持将 Zeek 与 ELK 栈集成​Podman Desktop 能否取代 Docker Desktop呢?Minetest:一个开源的 Minecraft 替代品开源软件安全度走向成熟 企业该如何制定安全策略?

编辑推荐

十大免费开源云文件共享平台使用Go语言开发必备的5大开源工具开源人脸识别seetaface入门教程(一)Docker不香吗,为啥还要K8s?值得考虑的九大开源ERP系统,看看都有谁
我收藏的内容
点赞
收藏

51CTO技术栈公众号