用 Topos 探索 LLM 的新架构

ceesoft

发布于 2025-8-26 10:10

浏览

0收藏

尽管对 GPT-5 褒贬不一，行业共识是并未达到期待的超级智能，根因或许来自 Transformer 边际效用降低。

前天 DeepSeek 悄悄上线 V3.1，不是万众期盼的 R2, 基准测试提升可圈可点，不过同样伴随着业界对模型架构的疑虑。

统一视角下的概率流建模之外，是否还有其他创新思路？

近期，Adobe 研究院学者 Sridhar 尝试用 Topos 来回答这一问题，提出了一种全新的 GenAI 架构【文献 1】。

一、Topos

笔者将 Topos 看成一个可以自定义“集合”、“逻辑”、“函数”的数学宇宙，宇宙法则能够保持其中数学结构的严谨性。

一个 topos 就像是一个广义类集合范畴（category of sets），具备与集合体系相似的逻辑和运算规则，包含以下几个关键特征：

1. 极限与可选余极限（limits & colimits）：在范畴内构造出“最小”和“最大”，比如 pullback、pushout；

2. 指数对象（exponential object）：在范畴内直接表示“函数空间”，比如从 A 到 B 的所有映射；

3. 子对象分类器（subobject classifier）：类似于集合论中的布尔值 {true, false}，可为范畴中的对象建立逻辑结构。

Topos 是数学自定义框架，可以定义“变化的集合”、“局部的逻辑”、“不确定的函数”，从而构建不同数学世界。

码农还可以这么理解，Topos 定义了面向对象编程里的数学基类——集合、函数、逻辑，可以继承并重写某些方法，比如逻辑里“什么是真”。

二、Transformer

Transformer 是通用的序列到序列函数近似器。在Embedding空间中，只要数据足够、参数合适，Transformer 可以逼近几乎任意连续函数。

不过 Transformer 仅是曲线拟合器，能够学到复杂模式，但并不天然带有逻辑组合与普遍构造能力。

而 Topos 恰好提供了一种逻辑与组合的框架，让模型可以从“拟合函数”转变为“生成逻辑结构”。关键在如何把 LLM 放进一个 topos 里。

用 Topos 探索 LLM 的新架构-AI.x社区

三、LLM Topos

Sridhar 证明了，LLM 所在的范畴实际上满足 topos 的所有要求：

(co)complete：任意图形化的构造都能找到极限和余极限；
具备指数对象：可以自然表示 LLM 到 LLM 所有映射的空间；
有子对象分类器：能够支持逻辑判别与语义建模。

所以，“LLM 范畴”可看作一个 topos，这样LLM 就可以嵌入到一个广义类集合的数学世界中：

在这个数学世界里，不仅能训练模型，还能通过范畴论的通用构造来组织、组合和推理模型。

用 Topos 探索 LLM 的新架构-AI.x社区

四、Topos GAIA

基于上述框架，Sridhar 提出了一种全新的 GenAI 架构，简称 GAIA（Generative AI Architectures）。

GAIA 的核心思想是：利用范畴的普遍构造来组合和生成结构，将神经网络从黑箱函数变成逻辑机器。

Pullback信息对齐，Pushout模态合并，Equalizer一致性筛选，Coequalizer冲突调和，Exponential映射建模，Subobject Classifier逻辑推理，......

1. Pullback 是给定两个对象 A、B 映射到同一个对象 C 的时候，寻找一个“最大公共子结构”，使得它们在 C 中的对应部分一致；

用 Topos 探索 LLM 的新架构-AI.x社区

LLM 的不同模态（如文本和图像）都可以映射到某个“语义空间”，Pullback 操作能自动找到这些模态中语义对齐的部分。

2. Pushout 是两个对象 A、B 共享一个子对象 C 时，把它们“拼接”在一起，形成一个新的对象；

如果文本和图像模型都依赖于某种“共同语义结构”，Pushout 可以自动融合它们，生成更完整的多模态表征。

3. Equalizer 是给定两个平行箭头 f, g: A → B 时，找出 A 中所有能让 f(x)=g(x) 的元素，形成一个子对象；

如果有两个不同的 LLM 对同一输入给出不同输出，Equalizer 就能抽取出它们意见一致的部分，作为更可靠的知识子集。

4. Coequalizer 则是给定两个映射 f, g: A → B，找到一个“最小商对象”，把 f 和 g 的冲突部分识别为同一类；

当不同模型给出的答案不一致时，Coequalizer 可以作调和，形成一个更高抽象的统一输出，例如归纳两个不同具体病情诊断为“呼吸类疾病”。

5. Exponential Object 指数对象 B^A 表示所有从 A 到 B 的映射集合，模型之间的映射也可以被看作一个新的模型；

如果 A 是所有输入状态，B 是所有可能输出，那么 B^A 就是输入到输出的所有可能演化路径。

6. Subobject classifier 是一个特殊对象，用来表示某个子对象是否成立，效果等同于集合论中的 {true, false}；

用 Topos 探索 LLM 的新架构-AI.x社区

子对象分类器能赋予 LLM 内部逻辑推理能力，比如对“是否满足某个语义条件”进行判定，为 LLM 的逻辑性和可解释性提供了结构支撑。

GAIA 的创新之处在于：把数学逻辑结构引入 LLM 的设计之中，让模型之间的组合、推理、解释都能通过范畴论的普遍构造来实现；从而不再依赖堆叠或拼接“更深或更宽的神经网络”，GAIA 更像是一个数学生态系统，而不是一个单一的神经网络。

五、落地实现

理论很优美，但怎么样落地呢？Sridhar 提出函子化的反向传播（Functorial Backpropagation）设想。

传统反向传播（backprop）是数值计算过程，而在 GAIA 中被重新刻画为范畴内的函子映射。

这样不仅可以保持训练过程与范畴结构的一致性，还能更自然地在不同模型之间迁移梯度信息，甚至可能实现跨范畴的学习机制。

函子化的反向传播提供了一个方向：如果可以把梯度下降推广到范畴结构上，就能够在逻辑、组合、语义层面构建新一代 LLM。

用 Topos 探索 LLM 的新架构-AI.x社区

重新思考 MoE 文中笔者分享过，MoE 可作为LLM认知框架中重要的分布式采样推理方法，也可被看作一种模型组合策略：

GShard硬编码，或DeepSeekMoE细分...，GPT-5模型路由，或依赖推理的scaling law涌现出策略，而 GAIA 则是基于数学基础原理的强大符号化方法。

如果说 Transformer 是万能函数拟合器，那么 Topos 下的 GAIA 或许就是逻辑组合机器。

在此意义上，笔者一直推崇的沿最优输运方向的重整化，与 GAIA 可以实现融合，赋予概率流建模逻辑组合的能力：

Topos 可以作为重整化的上层逻辑范畴，RG 流变成一个 Topos 内的态射选择，不只是粗粒化 token 分布，而是粗粒化意义-关系图谱；
从全局信息熵极小化，聚焦到局部的范畴化损失，可确定最优生成路径，能够提高语义一致性。这点也是指令模型与推理模型融合的关键。
将原始语料作为语义基础，沿着语义损失最小路径多级粗粒化；推理时，再以原始语料做语义验证，应该能够显著降低幻觉，类似用原始语料做RAG。

不过目前GAIA 只是一个理论设想，是否真的能在实际任务中优于 Transformer，还需要卓越的工程化实现，以及大量实验验证。

我们“要么继续堆叠更大的模型，要么寻找一个更优雅的数学物理世界” ，而 Topos + RG，或许就是这个世界的新入口。

文献1，Topos Theory for Generative AI and LLMs，https://arxiv.org/html/2508.08293v1

本文转载自清熙，作者：王庆法

标签

Topos

LLM

架构

相关推荐

XAI有什么用？探索LLM时代利用可解释性的10种策略

轻薄滴假象 • 4269浏览 • 0回复
LLM和RAG技术的比较探索

51CTO技术栈 • 5293浏览 • 0回复
深入探索个性化推荐新境界：AI通过语言理解你的喜好，效率提升131%

AI论文解读 • 4545浏览 • 0回复
【LLM】大语言模型在用户兴趣探索中的应用

sbf_2000 • 5457浏览 • 0回复
用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

轻薄滴假象 • 3158浏览 • 0回复
看AI如何大海捞针，探索LLM能力边界实战

ermulong • 3863浏览 • 0回复
人工智能利维坦：从霍布斯社会契约论视角探索LLM 智能体的社会进化

xuxiangda • 5855浏览 • 0回复
新RAG架构范式！DSPy将革命性改变RAG系统架构方式！！

玄姐聊AGI • 5993浏览 • 0回复
MMLU-Pro：新的 LLM 评估基准

amei2000go • 1.5w浏览 • 0回复
LLM-based Agent在B端商业化的技术探索与实践

51CTO技术栈 • 4856浏览 • 0回复
为什么最新的LLM使用混合专家(MoE)架构

51CTO内容精选 • 4601浏览 • 0回复
探索Transformer的演变：从基础到高级架构

51CTO内容精选 • 4067浏览 • 0回复
AI架构系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验

鲁班模锤1 • 7044浏览 • 0回复
怎么用AI实现商业变现？文心智能体带你探索AI “新”商业赚钱玩法

AI.x社区活动小助手 • 5772浏览 • 0回复
探索 Zerox OCR：创新引领光学字符识别新境界

穿越时空111 • 4083浏览 • 0回复
Meta公布BLT新架构：告别token，拥抱patch

51CTO内容精选 • 2980浏览 • 0回复
开发者新选择：用DeepSeek实现Cursor级智能编程的免费方案

程序设计实验室 • 2873浏览 • 0回复
八大LLM架构大比较总结：从DeepSeek-V3->qwen3->Kimi K2看LLM架构设计

大模型自然语言处理 • 5407浏览 • 0回复
手把手教你：用 Python + Ollama 轻松完成 LLM 微调

AI大模型观察站 • 4329浏览 • 0回复

ceesoft

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

用 Topos 探索 LLM 的新架构

一、Topos

二、Transformer

三、LLM Topos

四、Topos GAIA

五、落地实现

目录