
基于 AI Agent 的操作系统架构设计详解 原创
历史总是在众目睽睽之下隐藏其最大的变革。当 MS-DOS 安静地变成 Windows 3.1 时,很少有人会想到它将定义个人计算数十年。当 iOS 在 2008 年带着一个小巧的应用商店推出时,它不仅为手机提供动力,还解锁了整个行业。
现在,我们再次正处于另一次变革的边缘:基于 AI 的操作系统平台的崛起,这些平台从一开始就以 AI 为主要参与者,而不是人类。利害关系巨大,控制主导 AI 操作系统的公司不仅会销售软件,还将控制自主智能的数字神经系统。
下文我们详细剖析之。
一、为什么需要一种新的操作系统?
我们一直在使用的操作系统是以人为中心的:
- 界面:假设有人在阅读、打字、点击或轻触。
- 文件系统:假设人类手动组织和检索数据。
- 进程调度器:假设应用程序在人们打开它们时运行。
但 AI 的需求截然不同:
- 上下文,而不是点击:AI 工作流程依赖于管理庞大且不断变化的上下文窗口,而不是用户界面窗口。
- 持久、自适应的内存:与人类会话在注销时结束不同,AI 需要多年语义记忆和技能保持。
- 自主进程管理:任务由目标、事件或环境信号触发,而不是用户操作。
- 丰富的工具操作空间:AI 不会打开 Photoshop;它会调用图像编辑 API,将结果通过字幕生成器传递,并将它们发布到社交媒体,一气呵成。
二、基于 AI 操作系统的内核架构剖析
AI 操作系统的整体架构如下所示:
1、AI 内核
AI 操作系统的核心是其 AI 内核,它不仅仅是像 Linux 或 Windows 那样的 CPU 周期和内存分配的交通警察,而是推理的首席指挥官。它不只是说“运行这个程序”,而是说“运行这个思维链,引入合适的模型,并使它们协同工作”。
关键职责包括:
- 模型运行时管理:它可以同时处理多种 AI 模型,包括大语言模型(LLMs)、视觉模型、音频模型以及专门微调的 AI 智能体,所有这些模型都并排运行。每个模型都有其自身的优势,内核会选择合适的一个(或组合)来完成任务。
- 推理调度:它不会将每个查询都发送到同一个地方,而是智能地决定是在本地 GPU 上运行,发送到云端端点,还是使用边缘加速器。
- 技能加载与卸载:需要翻译古希腊语吗?内核可以在需要时将该专业翻译模型加载到内存中,然后在您完成任务后优雅地将其卸载以节省资源。
2、多层内存子系统
如果 AI 内核是脑干,那么多层内存系统就是海马体、皮层和工作记忆的结合体。它超越了人类操作系统内存模型的 RAM → 磁盘 → 缓存。相反,它在语义层面上运行:
- 短暂上下文:“现在”的状态:对话中的活跃提示词或任务的即时细节。
- 工作记忆:中期焦点:活跃的项目、笔记和未完成的任务。它可以在重启后存活,但会在过时后逐渐消失。
- 长期记忆:一个持久的向量数据库,存储您所见过、听到过、编写过或写过的一切内容,以嵌入形式存储,以便即时语义回忆。
- 程序记忆:预先学习的工作流程:“研究→总结→草拟→审查→发送”可以像调用函数一样被触发。
内存协调器决定:哪些值得保留?应该如何索引?何时相关?它既是图书管理员,也是档案管理员。
3、原生工具链和环境管理
忘掉庞大的应用程序吧。在 AI 操作系统中,你拥有原生工具,系统可以按需调用。这些是能力,而不是孤立的软件孤岛:
- API 集成:与客户关系管理(CRM)、GitHub、Google Drive、数据库等的无缝链接。
- 代码执行沙箱:安全的空间,AI 可以在其中编写和运行代码,而不会危及你的系统。
- 机器人控制接口:如果它可以在现实世界中移动,AI 操作系统可以指导它。
- 模拟环境:用于规划、测试和优化的沙箱“假设”世界。
4、多模态输入/输出结构
人类操作系统处理键盘、鼠标,也许还有麦克风。AI 操作系统则在一个连贯的数据空间中处理语言、视觉、听觉等:
- 语言:基于 LLM 的阅读、写作和对话。
- 视觉:图像识别、目标检测、光学字符识别(OCR)。
- 音频:语音转文本、文本转语音以及环境声音分析。
- 视频:逐帧分析以及对序列的时间推理。
- 传感器数据:来自物联网设备、GPS、生物识别、气象站等。
5、自主进程和目标调度器
传统操作系统等待你点击。AI 操作系统每天早上醒来时会问:“我们今天的任务是什么?”
目标调度器:
- 接受高级目标(“计划产品发布”)。
- 将它们分解为子任务。
- 将这些子任务分配给合适的 AI 智能体或工具。
- 并行运行推理链,合并结果,自动重试失败的任务。
- 持续检查进度是否符合截止日期和约束条件。
6、护栏和合规引擎
随着自主性的增强,责任也相应增大。护栏确保 AI 操作系统遵循你和整个社会的规则:
- 对危险代码执行进行沙箱隔离,以便实验不会导致系统崩溃。
- 阻止非法操作,如不安全的 API 调用或未经授权的设备控制。
- 记录每个 AI 智能体的决策,以便进行审计、调试和问责。
- 在每个推理管道中嵌入偏见检测和公平性检查。
AI 操作系统不仅仅是增强了 AI 的 Windows,在 Windows 中添加 Copilot 或在 macOS 中添加 Siri,就像在马车上安装 GPS 一样--你仍然有那匹马。AI 操作系统是为速度、自主性和人类从未想象过的路线而设计的汽车。
三、基于 AI 操作系统的 AI 原生程序剖析
1、AI 原生应用程序像什么?
如果今天的应用程序就像建筑物中的孤立房间,那么 AI 原生应用程序就像一个开放的单层空间中流动的空间,能够在无需您穿过门的情况下传递对象、低语信息和重新排列自己。
在传统操作系统中:
- 每个应用程序独立运行。
- 数据共享需要明确的导出/导入或 API 集成。
- 应用程序很少自行思考。
在基于 AI 的操作系统中:
- 应用程序是共享认知网络中的节点。
- 内存是全局的:每个应用程序都可以在获得许可的情况下,从您历史记录、偏好设置和正在进行的任务的同一个语义存储中提取信息。
- 应用程序具有自主性:它们可以感知何时需要它们,并在无需直接提示的情况下采取行动。
2、AI 原生应用程序的关键特征
第一、跨领域的共享状态和内存
在 AI 操作系统中,你的电子邮件应用程序“知道”你项目跟踪器中的内容。
示例:你收到一封关于交付物的电子邮件。你的 AI 原生项目经理会自动更新任务状态并分配依赖项。
这种状态融合意味着操作系统不是在处理 20 个不同的上下文;它是一个拥有多种技能的大脑。
第二、后台操作
这些应用程序不仅仅是打开或关闭;它们始终以事件驱动的方式在监听。
示例:你的 AI 文档编辑器可能会在你未打开它的情况下开始总结你保存的新研究论文,因为它在你的日历中看到了一个截止日期。
第三、自主协作
应用程序可以在操作系统的内部推理语言中相互交谈,而不仅仅是通过脆弱的 API。
示例:你的旅行应用程序可以与你的财务应用程序协调,重新预订更便宜的航班,并在你醒来之前确认日期是否适合您的日历。
第四、情境感知用户界面
界面仅在增加价值时才会出现。
示例:你不会打开天气应用程序,但在你预订户外摄影时,它会轻轻出现,建议最佳的天气和最佳光照的日期。
3、AI 操作系统世界中的示例场景
第一、电子邮件和日历协同作用
你无需阅读、解析并点击“接受”邀请,你的 AI 操作系统会解析传入的会议提议,在不同日历之间协商最佳时间,并在有冲突时才通知你。
第二、个人财务作为积极的 AI 智能体
它不会只向你展示静态的银行对账单, 你的财务代理会持续跟踪交易,发现不寻常的支出,提出优化建议,甚至在后台执行安全的资金重新分配(例如将闲置现金转移到高利率账户)。
第三、无摩擦的创意协作
起草博客文章?你的写作应用程序会自动调用图像生成器以获取相关图形,通知搜索引擎优化(SEO)模块进行优化,并将最终草稿安排在你的发布队列中--无需切换标签页,无需“复制粘贴”。
4、未来的 RoadMap 设想
第一阶段(现在)
在现有操作系统上添加 AI 智能体包装器(LangGraph、AutoGPT、Devin)。
第二阶段(1-3 年)
混合操作系统,AI 具有内核级权限和持久内存。
第三阶段(3-5 年)
完全以 AI 为先的操作系统,不以人类为先的假设设计。
第四阶段(5-10 年)
分布式、自我优化的 AI操作系统,运行在个人设备、云端和边缘之间--一个持久的、无边界的数字大脑。
当我们从打字机转向计算机时,我们不仅仅是加快了打字速度--我们重新发明了写作本身。当我们从人类操作系统转向 AI 操作系统时,我们不仅仅是让计算机更快地思考--我们将重新发明思考本身。操作系统将不再是你工作的地方。它将是您的人类和 AI 智力生活的地方。
好了,这就是我今天想分享的内容。
本文转载自玄姐聊AGI 作者:玄姐
