AI大语言模型(LLM)幻觉排行榜

发布于 2025-5-9 01:12
浏览
0收藏

随着GenAI技术的突飞猛进,LLM的"幻觉"问题已成为业界关注焦点。最近,由Vectara发布了一份《幻觉排行榜》,对主流模型的幻觉表现进行了系统对比。

  1. 量化展示了不同LLM的幻觉率差异
  2. 采用Vectara自研的HHEM-2.1评估模型
  3. 为选型提供一个参考

AI大语言模型(LLM)幻觉排行榜-AI.x社区

本排行榜使用Vectara 的商业幻觉评估模型HHEM-2.1,来计算 LLM 排名(更新于 2025 年 4 月 29 日)

排行榜地址:

​https://github.com/vectara/hallucination-leaderboard?tab=readme-ov-file​

​https://huggingface.co/spaces/vectara/leaderboard​

Vectara介绍

Vectara 是一家总部位于美国的科技公司,专注于为企业提供基于生成式人工智能(GenAI)的对话式搜索和信息检索解决方案。

公司由前 Google 工程师 于 2020 年创立,旨在帮助企业从大量文本数据中快速获取有价值的信息。

Vectara 的核心技术是“检索增强生成”(Retrieval-Augmented Generation,简称 RAG),能够在保持高准确性的同时,减少生成内容中的“幻觉”现象。

HHEM介绍

HHEM,是 Vectara 公司开发的一款用于检测生成式 AI 内容中“幻觉”(即事实不一致)的模型。它的主要作用是评估 AI 生成的文本是否与原始资料一致,帮助企业在使用大语言模型(LLM)时更好地控制内容的准确性。

HHEM 会为每个生成结果打一个 0 到 1 之间的分数,称为“事实一致性评分”(Factual Consistency Score,简称 FCS)。

分数越接近 1,表示生成内容与原始资料越一致;越接近 0,说明可能存在“幻觉”问题。

例如,得分为 0.95 表示有 95% 的可能性内容是准确的,而 0.4 则提示可能存在较多不准确的信息。

目前,HHEM 已更新至 2.1 版本,支持多语言(英语、德语、法语、葡萄牙语、西班牙语、阿拉伯语、中文(简体)和韩语)。此外,Vectara 还发布了开源版本 HHEM-2.1-Open,方便开发者在本地环境中使用。

Model

Hallucination Rate

Factual Consistency Rate

Answer Rate

Average Summary Length (Words)

Google Gemini-2.0-Flash-001

0.7 %

99.3 %

100.0 %

65.2

Google Gemini-2.0-Pro-Exp

0.8 %

99.2 %

99.7 %

61.5

OpenAI o3-mini-high

0.8 %

99.2 %

100.0 %

79.5

Vectara Mockingbird-2-Echo

0.9 %

99.1 %

100.0 %

74.0

Google Gemini-2.5-Pro-Exp-0325

1.1 %

98.9 %

95.1 %

72.9

Google Gemini-2.0-Flash-Lite-Preview

1.2 %

98.8 %

99.5 %

60.9

OpenAI GPT-4.5-Preview

1.2 %

98.8 %

100.0 %

77.0

Zhipu AI GLM-4-9B-Chat

1.3 %

98.7 %

100.0 %

58.1

Google Gemini-2.0-Flash-Exp

1.3 %

98.7 %

99.9 %

60.0

Google Gemini-2.5-Flash-Preview

1.3 %

98.7 %

91.2 %

71.1

OpenAI-o1-mini

1.4 %

98.6 %

100.0 %

78.3

OpenAI GPT-4o

1.5 %

98.5 %

100.0 %

77.8

Amazon Nova-Micro-V1

1.6 %

98.4 %

100.0 %

90.0

OpenAI GPT-4o-mini

1.7 %

98.3 %

100.0 %

76.3

OpenAI GPT-4-Turbo

1.7 %

98.3 %

100.0 %

86.2

Google Gemini-2.0-Flash-Thinking-Exp

1.8 %

98.2 %

99.3 %

73.2

Amazon Nova-Lite-V1

1.8 %

98.2 %

99.9 %

80.7

OpenAI GPT-4

1.8 %

98.2 %

100.0 %

81.1

Amazon Nova-Pro-V1

1.8 %

98.2 %

100.0 %

85.5

OpenAI GPT-3.5-Turbo

1.9 %

98.1 %

99.6 %

84.1

XAI Grok-2

1.9 %

98.1

100.0 %

86.5

OpenAI GPT-4.1-nano

2.0 %

98.0 %

100.0 %

70.2

OpenAI GPT-4.1

2.0 %

98.0 %

100.0 %

71.9

XAI Grok-3-Beta

2.1 %

97.8

100.0 %

97.7

OpenAI GPT-4.1-mini

2.2 %

97.8 %

100.0 %

79.6

Qwen3-14B

2.2 %

97.8 %

100.0 %

82.4

AI21 Jamba-1.6-Large

2.3 %

97.7 %

99.9 %

85.6

OpenAI o1-Pro

2.4 %

97.6 %

100.0 %

81.0

OpenAI o1

2.4 %

97.6 %

99.9 %

73.0

DeepSeek-V2.5

2.4 %

97.6 %

100.0 %

83.2

Microsoft Orca-2-13b

2.5 %

97.5 %

100.0 %

66.2

Microsoft Phi-3.5-MoE-instruct

2.5 %

97.5 %

96.3 %

69.7

Intel Neural-Chat-7B-v3-3

2.6 %

97.4 %

100.0 %

60.7

Qwen3-4B

2.7 %

97.3 %

100.0 %

87.7

Google Gemma-3-12B-Instruct

2.8 %

97.2 %

100.0 %

69.6

Qwen2.5-7B-Instruct

2.8 %

97.2 %

100.0 %

71.0

Qwen3-32B

2.8 %

97.2 %

100.0 %

82.4

AI21 Jamba-1.5-Mini

2.9 %

97.1 %

95.6 %

74.5

XAI Grok-2-Vision

2.9 %

97.1

100.0 %

79.8

Qwen2.5-Max

2.9 %

97.1 %

88.8 %

90.4

Google Gemma-3-27B-Instruct

3.0 %

97.0 %

100.0 %

62.5

Qwen2.5-32B-Instruct

3.0 %

97.0 %

100.0 %

67.9

Snowflake-Arctic-Instruct

3.0 %

97.0 %

100.0 %

68.7

Qwen3-8B

3.0 %

97.0 %

100.0 %

78.2

Microsoft Phi-3-mini-128k-instruct

3.1 %

96.9 %

100.0 %

60.1

Mistral Small3

3.1 %

96.9 %

100.0 %

74.9

XAI Grok-3-Mini-Beta

3.3 %

96.7

100.0 %

90.2

OpenAI o1-preview

3.3 %

96.7 %

100.0 %

119.3

Google Gemini-1.5-Flash-002

3.4 %

96.6 %

99.9 %

59.4

Microsoft Phi-4-mini-instruct

3.4 %

96.6 %

100.0 %

69.7

Google Gemma-3-4B-Instruct

3.7 %

96.3 %

100.0 %

63.7

Qwen3-0.6B

3.7 %

96.3 %

100.0 %

65.3

01-AI Yi-1.5-34B-Chat

3.7 %

96.3 %

100.0 %

83.7

Llama-3.1-405B-Instruct

3.9 %

96.1 %

99.6 %

85.7

DeepSeek-V3

3.9 %

96.1 %

100.0 %

88.2

Microsoft Phi-3-mini-4k-instruct

4.0 %

96.0 %

100.0 %

86.8

Llama-3.3-70B-Instruct

4.0 %

96.0 %

100.0 %

85.3

InternLM3-8B-Instruct

4.0 %

96.0 %

100.0 %

97.5

Microsoft Phi-3.5-mini-instruct

4.1 %

95.9 %

100.0 %

75.0

Mistral-Large2

4.1 %

95.9 %

100.0 %

77.4

Llama-3-70B-Chat-hf

4.1 %

95.9 %

99.2 %

68.5

Qwen2-VL-7B-Instruct

4.2 %

95.8 %

100.0 %

73.9

Qwen2.5-14B-Instruct

4.2 %

95.8 %

100.0 %

74.8

Qwen2.5-72B-Instruct

4.3 %

95.7 %

100.0 %

80.0

Llama-3.2-90B-Vision-Instruct

4.3 %

95.7 %

100.0 %

79.8

Qwen3-1.7B

4.4 %

95.6 %

100.0 %

69.0

Claude-3.7-Sonnet

4.4 %

95.6 %

100.0 %

97.8

Claude-3.7-Sonnet-Think

4.5 %

95.5 %

99.8 %

99.9

Cohere Command-A

4.5 %

95.5 %

100.0 %

77.3

OpenAI o4-mini

4.6 %

95.4 %

100.0 %

82.0

AI21 Jamba-1.6-Mini

4.6 %

95.4 %

100.0 %

82.3

Meta Llama-4-Maverick

4.6 %

95.4 %

100.0 %

84.8

XAI Grok

4.6 %

95.4 %

100.0 %

91.0

Anthropic Claude-3-5-sonnet

4.6 %

95.4 %

100.0 %

95.9

Meta Llama-4-Scout

4.7 %

95.3 %

100.0 %

80.7

Qwen2-72B-Instruct

4.7 %

95.3 %

100.0 %

100.1

Microsoft Phi-4

4.7 %

95.3 %

100.0 %

100.3

Mixtral-8x22B-Instruct-v0.1

4.7 %

95.3 %

99.9 %

92.0

Anthropic Claude-3-5-haiku

4.9 %

95.1 %

100.0 %

92.9

01-AI Yi-1.5-9B-Chat

4.9 %

95.1 %

100.0 %

85.7

Cohere Command-R

4.9 %

95.1 %

100.0 %

68.7

Llama-3.1-70B-Instruct

5.0 %

95.0 %

100.0 %

79.6

Google Gemma-3-1B-Instruct

5.3 %

94.7 %

99.9 %

57.9

Llama-3.1-8B-Instruct

5.4 %

94.6 %

100.0 %

71.0

Cohere Command-R-Plus

5.4 %

94.6 %

100.0 %

68.4

Mistral-Small-3.1-24B-Instruct

5.6 %

94.4 %

100.0 %

73.1

Llama-3.2-11B-Vision-Instruct

5.5 %

94.5 %

100.0 %

67.3

Llama-2-70B-Chat-hf

5.9 %

94.1 %

99.9 %

84.9

IBM Granite-3.0-8B-Instruct

6.5 %

93.5 %

100.0 %

74.2

Google Gemini-1.5-Pro-002

6.6 %

93.7 %

99.9 %

62.0

Google Gemini-1.5-Flash

6.6 %

93.4 %

99.9 %

63.3

Mistral-Pixtral

6.6 %

93.4 %

100.0 %

76.4

Microsoft phi-2

6.7 %

93.3 %

91.5 %

80.8

OpenAI o3

6.8 %

93.2 %

100.0 %

77.7

Google Gemma-2-2B-it

7.0 %

93.0 %

100.0 %

62.2

Qwen2.5-3B-Instruct

7.0 %

93.0 %

100.0 %

70.4

Llama-3-8B-Chat-hf

7.4 %

92.6 %

99.8 %

79.7

Mistral-Ministral-8B

7.5 %

92.5 %

100.0 %

62.7

Google Gemini-Pro

7.7 %

92.3 %

98.4 %

89.5

01-AI Yi-1.5-6B-Chat

7.9 %

92.1 %

100.0 %

98.9

Llama-3.2-3B-Instruct

7.9 %

92.1 %

100.0 %

72.2

DeepSeek-V3-0324

8.0 %

92.0 %

100.0 %

78.9

Mistral-Ministral-3B

8.3 %

91.7 %

100.0 %

73.2

databricks dbrx-instruct

8.3 %

91.7 %

100.0 %

85.9

Qwen2-VL-2B-Instruct

8.3 %

91.7 %

100.0 %

81.8

Cohere Aya Expanse 32B

8.5 %

91.5 %

99.9 %

81.9

IBM Granite-3.1-8B-Instruct

8.6 %

91.4 %

100.0 %

107.4

Mistral-Small2

8.6 %

91.4 %

100.0 %

74.2

IBM Granite-3.2-8B-Instruct

8.7 %

91.3 %

100.0 %

120.1

IBM Granite-3.0-2B-Instruct

8.8 %

91.2 %

100.0 %

81.6

Mistral-7B-Instruct-v0.3

9.5 %

90.5 %

100.0 %

98.4

Google Gemini-1.5-Pro

9.1 %

90.9 %

99.8 %

61.6

Anthropic Claude-3-opus

10.1 %

89.9 %

95.5 %

92.1

Google Gemma-2-9B-it

10.1 %

89.9 %

100.0 %

70.2

Llama-2-13B-Chat-hf

10.5 %

89.5 %

99.8 %

82.1

AllenAI-OLMo-2-13B-Instruct

10.8 %

89.2 %

100.0 %

82.0

AllenAI-OLMo-2-7B-Instruct

11.1 %

88.9 %

100.0 %

112.6

Mistral-Nemo-Instruct

11.2 %

88.8 %

100.0 %

69.9

Llama-2-7B-Chat-hf

11.3 %

88.7 %

99.6 %

119.9

Microsoft WizardLM-2-8x22B

11.7 %

88.3 %

99.9 %

140.8

Cohere Aya Expanse 8B

12.2 %

87.8 %

99.9 %

83.9

Amazon Titan-Express

13.5 %

86.5 %

99.5 %

98.4

Google PaLM-2

14.1 %

85.9 %

99.8 %

86.6

DeepSeek-R1

14.3 %

85.7 %

100.0%

77.1

Google Gemma-7B-it

14.8 %

85.2 %

100.0 %

113.0

IBM Granite-3.1-2B-Instruct

15.7 %

84.3 %

100.0 %

107.7

Qwen2.5-1.5B-Instruct

15.8 %

84.2 %

100.0 %

70.7

Qwen-QwQ-32B-Preview

16.1 %

83.9 %

100.0 %

201.5

Anthropic Claude-3-sonnet

16.3 %

83.7 %

100.0 %

108.5

IBM Granite-3.2-2B-Instruct

16.5 %

83.5 %

100.0 %

117.7

Google Gemma-1.1-7B-it

17.0 %

83.0 %

100.0 %

64.3

Anthropic Claude-2

17.4 %

82.6 %

99.3 %

87.5

Google Flan-T5-large

18.3 %

81.7 %

99.3 %

20.9

Mixtral-8x7B-Instruct-v0.1

20.1 %

79.9 %

99.9 %

90.7

Llama-3.2-1B-Instruct

20.7 %

79.3 %

100.0 %

71.5

Apple OpenELM-3B-Instruct

24.8 %

75.2 %

99.3 %

47.2

Qwen2.5-0.5B-Instruct

25.2 %

74.8 %

100.0 %

72.6

Google Gemma-1.1-2B-it

27.8 %

72.2 %

100.0 %

66.8

TII falcon-7B-instruct

29.9 %

70.1 %

90.0 %

75.5

本文转载自​​​AI取经路​​​,作者:AI取经路

收藏
回复
举报
回复
相关推荐