
DeepSeek新模型再次引爆外网!“省钱省token”背后,揭示了智能的本质 原创
昨天,DeepSeek开源了全新的DeepSeek-OCR模型,采用“上下文光学压缩”技术,为解决长文本处理中的算力瓶颈提供了全新的思路。
DeepSeek-OCR的核心创新在于它验证了一个直观却从未被系统论证过的假设:一张包含文档文本的图像,可以用比等效数字文本少得多的token来表示丰富信息。
简单来说,这个模型的核心思想是:用一张包含文档的图片,以比原始文本少得多的token数来表示相同的信息。
它不是在传统OCR赛道上做简单优化,而是试图通过视觉模态来实现文本信息的高效压缩。
实验数据显示,在10倍压缩比下,模型解码精度能达到97%,即使压缩到20倍,准确率也保持在60%左右。这种压缩效率在长文本处理场景下潜力巨大。
技术架构方面,DeepSeek-OCR由DeepEncoder视觉编码器和基于MoE架构的3B参数解码器组成。特别值得一提的是DeepEncoder的设计,它结合了SAM-base和CLIP-large,既能处理高分辨率输入,又能保持较低的激活状态,最终生成数量适中的视觉token。
在实际应用层面,这个模型的表现相当出色。在OmniDocBench基准测试中,仅用100个视觉token就超越了GOT-OCR2.0(需要256个token),用不到800个token就优于MinerU2.0(需要近7000个token)。这种效率提升意味着单张A100 GPU每天能生成超过20万页的训练数据。
除了传统的文档识别,模型还展现出对图表、几何图形、化学公式的解析能力,支持近百种语言识别,并具备一定的通用图像理解能力。
DeepSeek的新模型,在外网也引发了热烈讨论。特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy对DeepSeek新开源的模型给予高度评价,他认为,这项技术可能撼动了当前大语言模型(LLM)处理文本的基础范式。
同时,Karpathy的评价还触及了当前AI领域关注的几个深层次问题:
首先是重新审视输入方式。Karpathy强调,他感兴趣的并非DeepSeek-OCR作为一个文字识别工具的性能,而是一个更根本的问题:对于大语言模型(LLM)来说,像素是否比文本是更好的输入形式?
他甚至激进地提出,“也许更合理的是,LLM的所有输入都应该是图像。即使碰巧有纯文本输入,你更应该先渲染它,然后再输入。” 这一观点直接挑战了当前以文本Token为核心的自然语言处理范式。
其次,他揭示了视觉压缩的潜力。DeepSeek-OCR模型在技术上验证了"上下文光学压缩"的可行性。该模型能够用100个视觉Token解码出1000个文本Token(10倍压缩),且精度保持在97%;
最后,他认为这项研究推动了分词器的变革。Karpathy一直对传统的分词器持批判态度,他曾多次指出分词器带来的种种问题。DeepSeek-OCR的技术路径,通过视觉编码器直接将图像转换为模型可理解的表示,跳过了传统分词步骤。
这与Karpathy"删除分词器"的愿景不谋而合,也是他对此项技术感到兴奋的重要原因。
Karpathy的评价为DeepSeek-OCR的热度添了一把火,该项目在GitHub上线后迅速获得了大量关注。纽约大学助理教授谢赛宁等人也对这种视觉处理方式表示了认同。
当然,也存在一些反面的声音,例如有研究者认为该方法并非首创,或质疑其与人类渐进式认知方式的差异。
有研究者将DeepSeek-OCR的"视觉记忆压缩"机制与人类的记忆和认知方式相联系。当我们回忆一本书的内容时,大脑时常会借助视觉记忆,比如回忆某段话在书页的哪个位置。这种方式与DeepSeek-OCR的处理逻辑有相似之处。
无论如何,这项工作的意义可能超出了OCR本身。它为我们提供了一种新思路:是否可以通过视觉方式来解决长上下文压缩和LLM记忆遗忘等问题?
虽然目前还只是初步探索,但这种跨模态的思维方法确实为后续研究打开了新的想象空间。
回归智能的本质
这项工作的真正价值或许还在于,它挑战了AI领域的传统发展路径。在当前大模型规模不断膨胀、算力需求激增的背景下,DeepSeek仍然选择通过提升效率而非单纯扩大规模来解决问题。
在物理世界和生物系统中,能量最低原则,是宇宙运行的基本法则。这一原则普遍存在,要求系统以最少的能量消耗实现所需功能。
除了自然万物,人类大脑同样如此,它通过高效的神经连接和信息处理机制,在有限体积和能量消耗下实现了惊人的智能。
DeepSeek-OCR通过精细的架构设计,在保证性能的同时大幅降低资源消耗,某种程度上是对这种自然法则的技术再现。它不是在追求极致的压缩率,而是在压缩效率和信息保真度之间寻找最优平衡。
智能的本质或许不在于规模大小,而在于效率高低。人类大脑在有限的能量消耗下实现高度智能,本身就是宇宙能量最低原则的完美体现。
在这个算力需求不断增长的时代,DeepSeek选择回归基本法则,通过提升效率而非单纯扩大规模来解决问题,恰恰是更接近智能本质的体现。
正如自然界通过亿万年的进化找到了各种最优解,人工智能的发展或许也需要从这些基本法则中汲取灵感。
而这种效率优先的设计理念,似乎正应合了宇宙的基本规律。在有限资源下实现最大化价值,这不仅是技术挑战,更是智慧的本质。
对于DeepSeek的新模型,大家怎么看?欢迎交流讨论!
