DeepSeek V3.1:低调发布,重磅发声 原创

发布于 2025-8-23 08:18
浏览
0收藏

本文介绍了在Hugging Face平台低调发布的DeepSeek V3.1,该模型具有6850亿个参数,规模更庞大,更灵活,支持多种功能。本文将探讨DeepSeek V3.1的关键特性和能力,并提供操作指南。

DeepSeek V3.1的发布并没有举办大张旗鼓的新闻发布会,也没有铺天盖地的宣传活动。它在Hugging Face平台上悄然发布,在短短数小时内就吸引了众人的目光。该模型拥有6850亿个参数,上下文窗口可扩展至128k个令牌,这不仅仅是增量更新,而是开源人工智能领域的一个重要里程碑。本文将深入探讨DeepSeek V3.1的关键特性和能力,并提供一份操作指南。

DeepSeek V3.1到底是什么?​

DeepSeek V3.1是DeepSeek V3系列的最新成员。与之前的6710亿参数版本相比,V3.1不仅规模更大,而且更加灵活。该模型支持多种精度格式(BF16、FP8、F32),因此可以根据目前拥有的计算资源对其进行调整。

然而,V3.1的魅力远不止于庞大的规模。它将对话能力、推理能力和代码生成能力集成在一个统一模型或混合模型之中,这无疑是一个重大突破!早期版本的模型往往在某一方面表现出色,但在其他方面则表现平平。而V3.1则实现了各方面能力的无缝集成。

如何访问DeepSeek V3.1

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

用户访问DeepSeek V3.1有以下几种不同的方式:

  • 官方网络应用程序:访问​deepseek.com​并使用浏览器聊天。V3.1已经是默认版本,所以用户无需进行任何配置。
  • API访问:开发人员可以通过官方API调用deepseek-chat(通用)或deepseek-reasoner(推理模式)端点。该界面与OpenAI兼容,因此如果用户使用过​OpenAI的软件开发工具包(SDK)​,那么工作流程是一致和。
  • Hugging Face平台:V3.1的原始权重在开放许可下发布。用户可以从DeepSeek的​“Hugging Face”页面​下载,并在拥有相应硬件的情况下在本地运行。

如果只是想与DeepSeek V3.1进行对话,那么使用浏览器访问网站是最快捷的途径。如果用户想进行微调、基准测试或将其集成到自己的工具中,那么可以选择API或Hugging Face权重。

DeepSeek V3.1和DeepSeek V3有什么不同?

与早期版本的DeepSeek V3相比,DeepSeek V3.1带来了一系列重要的升级:

  • 具有思维模式的混合模型:增加了一个可切换的推理层,加强了解决问题的能力,同时避免混合模型常见的性能下降问题。
  • 原生搜索词元支持:改进了检索和搜索任务,尽管社区测试显示该功能激活频率极高。官方文档中仍期待出现适当的切换选项。
  • 更强的编程能力:基准测试表明,V3.1在开源权重编码模型中名列前茅,证实了其在软件相关任务中的优势。
  • 上下文长度不变:128k令牌窗口与V3-Base相同,因此仍然可以获得小说长度的上下文容量。

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

综上所述,这些更新使V3.1不仅是是规模方面扩展,而且是功能方面的改进。

为何它备受关注​

以下是DeepSeek V3.1的一些突出特性:

  • 上下文窗口:128k令牌。其长度相当于一部长篇小说,或者是一份完整的研究报告。
  • 精度灵活性:根据硬件和性能需求,可在BF16、FP8或F32格式下运行。
  • 混合设计:该模型可以在不破坏上下文的情况下聊天、推理和编码。
  • 基准测试结果:在Aider编码基准的测试得分为71.6%,略高于Claude Opus 4。
  • 效率:运行相同的测试,一些竞争对手的成本是其成本的60~70倍。
  • 开源:这可能是唯一一个在更新迭代上能够与闭源版本并驾齐驱的开源模型。

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

实际应用

现在将使用网页界面测试DeepSeek V3.1的功能:

1.长文档摘要

E.M. Forster所著的《看得见风景的房间》(A Room with A View)小说被用作以下提示的输入。这本书的长度超过6万字。可以在​​Gutenberg​.找到这本书的内容。

提示:“用结构化的提纲总结要点。”

回应:​

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

​https://cdn.analyticsvidhya.com/wp-content/uploads/2025/08/Screen-Recording-2025-08-21-at-11.25.08-AM.mp4​

2.逐步推理

提示:“逐步推理

逐步地解决这个难题。在这里显示所有的计算过程和中间时间。保持单位一致。不要跳过任何步骤。在思考模块结束时快速检查结果。

一列火车于08:00从A站出发,驶向B站。A站与B站之间的距离为410公里。

火车A:

  • 匀速行驶速度:80公里/小时
  • 计划停靠站:10分钟到达C站,距离A站150公里
  • 轨道施工区域:从距离A站220公里的标记处到240公里的标记处,在这20公里区间内限速为40公里/小时
  • 在施工区外,以80公里/小时速度行驶(为简洁起见,部分内容省略;完整版本见以下视频)回答格式(仅限思考块外使用):
  • 相遇时间:[HH:MM],[到A的距离,单位km,十进制]
  • 相遇前行驶时间:列车A[分钟],列车B[分钟]
  • 最终到达时间:列车A在[HH:MM],列车B在[HH:MM],最先到达站:[A或B]

仅在思考块外包含最终结果和简要说明。所有详细推理过程保留在思考块内。”

回应:​

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

​https://cdn.analyticsvidhya.com/wp-content/uploads/2025/08/Screen-Recording-2025-08-21-at-12.00.00-PM.mp4​

3.代码生成

提示:“编写一个Python脚本,用于读取CSV文件并输出JSON格式,每个部分都有注释。”

回应:​

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

​https://cdn.analyticsvidhya.com/wp-content/uploads/2025/08/Screen-Recording-2025-08-21-at-12.03.26-PM.mp4​

4.搜索样式查询

提示:“< | search_begin | >

美国《独立宣言》是哪一年发表的?

< | search_end | >”

回应:​

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

5.混合搜索查询

提示:“简要总结一下小说《无人生还》(And Then There Were None)的主要情节。”

现在,<|search_begin|>提供一个链接,可以从哪里购买那本书。< | search_end | >。最后,请思考一下,如果这个故事设定在现代印度,这些主题将如何转变?< /认为>”

回应:​

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

​https://cdn.analyticsvidhya.com/wp-content/uploads/2025/08/Screen-Recording-2025-08-21-at-12.51.16-PM.mp4​

观察结果

以下是在测试该模型时发现的一些问题:

  • 如果输入长度超过限制,输入的部分将被用作输入(如第一个任务所示)。
  • 如果任务较为简单,则模型可能会给出过于冗长的响应(如第二个任务所示)。
  • 用于探测搜索和推理能力的令牌不可靠。有时模型不会调用它们,或者会继续执行默认的提示处理流程。
  • 令牌<search_begin>和<search_end>是模型词汇表的一部分。
  • 它们作为提示或触发器来指导模型应该如何处理提示。但是由于它们是文本空间中的令牌,因此模型通常会在其输出中逐字逐句地回显它们。

与消失在后台的API“开关”不同,这些标签更像是嵌入文本流的控制指令。这就是有时会在最后的回复中看到它们的原因。

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

基准测试:DeepSeek V3.1与竞争对手的比较

社区测试已经显示,DeepSeek V3.1在开源编程任务排行榜上名列前茅。它不仅得分很高,而且成本只是Claude或GPT-4等模型的一小部分。

以下是基准测试对比:

DeepSeek V3.1:低调发布,重磅发声-AI.x社区

基准测试图对DeepSeek V3.1、​Claude Opus 4​和GPT-4的三个关键指标进行比较:

  • ​Aider(编码基准测试)​
  • SVGBench(编程任务)​
  • MMLU(广泛知识和推理)​​

这些课程涵盖了实际的编码能力、结构化推理和通用的学术知识。

结语​

DeepSeek V3.1是那种能够改变对话的版本。其开源,参数规模庞大,并且不将用户拒之门外。用户可以现在就可以下载、运行并试用它。

对于开发人员来说,这是一个突破长上下文摘要、推理链和代码生成限制的机会,而无需完全依赖于闭源API。。对于更广泛的人工智能生态系统来说,这证明高端能力不再局限于少数专有的实验室。用户不再局限于为特定用例选择正确的工具。人工智能模型现在可以自行完成这一任务,或者可以通过定义语法来建议使用。这极大地拓宽了模型不同能力被用于解决复杂查询的范围。

这次发布不仅仅是另一个版本的更新,这预示着开源模型的发展方向:更大、更智能,并且更加经济实惠。

常见问题解答

Q1:DeepSeek V3.1与早期模型相比有何突出之处?

A:DeepSeek V3.1引入了混合推理模式、原生搜索令牌支持和改进的编码基准。虽然它的参数数量略高于V3,但真正的区别在于它的灵活性和更精细的性能。它将聊天、推理和编码无缝集成,同时保持128k的上下文窗口。

Q2:人们如何访问和使用DeepSeek V3.1 ?

A:可以通过官方DeepSeek网站在浏览器中试用DeepSeek V3.1,也可以通过API(deepseek-chat或deepseek-reasoner)或从Hugging Face下载开放权重来使用。网页应用最适合进行随意测试,而API和Hugging Face则适用于高级用例。

Q3:DeepSeek V3.1中的上下文窗口有什么特别之处?

A:DeepSeek V3.1支持庞大的128,000个令牌上下文窗口,相当于数百页的文本。这使得它适用于整本书长度的文档或大型数据集。其上下文长度与V3相同,但对于摘要和推理任务来说,这仍然是最实用的优势之一。

Q4:像<think>或<|search_begin|>这样的特殊令牌是如何工作的?

A.:这些令牌充当引导模型行为的触发器。<think>鼓励逐步推理,而<search_begin>和<search_end>则激活类似搜索的检索。它们经常出现在输出中,因为它们是模型词汇表的一部分,但可以指示模型不显示它们。

Q5:与竞争对手相比,DeepSeek V3.1在基准测试中的表现如何?

A:社区测试表示,DeepSeek V3.1在开源代码基准测试中表现最佳,超过了Claude Opus 4,接近GPT-4的推理水平。其主要优势是效率——以更低的成本提供相当或更好的结果,这对开发人员和研究人员极具吸引力。

原文标题:DeepSeek V3.1: Quiet Release, Big Statement,作者:Vasu Deo Sankrityayan

文章链接:​​https://www.analyticsvidhya.com/blog/2025/08/deepseek-v3-1-quiet-release-big-statement/


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐