逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南) 原创

发布于 2025-7-30 15:09
浏览
0收藏

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

起猛了,连老电脑都能跑智谱家新一代的 SOTA 模型了!

一篇来自技术人 Simon Willison(Python 知名 Web 框架 Django 的共同创始人)的实测文章,在 Hacker News 上引发热议:

“我 2.5 年高龄的旧笔记本,现在不仅能在本地跑千亿参数模型,甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。”

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区

这个模型,正是昨天新鲜出炉的 GLM-4.5 系列。

虽然不像 Qwen Coder 那样专门为编程打造,但根据官方基准测试, GLM-4.5在代码生成上的表现已经逼近 Claude Sonnet 4,属于真正意义上“会写代码的大模型”。

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

Simon 所用的,是其中参数最少的版本 GLM-4.5 Air:

参数量依然高达 1060 亿,原始模型体积高达 205.78GB。

为了让它能在普通高配笔记本上也能运行,开发者 Ivan Fioravanti 特地制作了一个 3bit、仅 44GB 的量化版本,专为 MLX 框架优化,刚好能在 64GB 内存的 MacBook Pro 上跑起来。

模型地址:https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

这意味着更多普通开发者,也能在本地运行一个千亿参数级的模型了。

Simon 的感叹也很直接:

本地跑大模型的拐点,真的来了!

他回忆道:

 “两年前我刚试用 LLaMA,从没想过同一台笔记本,有朝一日能流畅运行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 这些拥有强大能力的模型。” 

一台不算新的笔记本 + 一个免费开源模型,就能跑出完整游戏代码。

那么,Simon 是如何在有限算力下实现这一切的?继续往下看。

1.一次生成完整游戏,无需修改!3bit 模型的实战表现令人惊艳

即使被压缩到 3bit、仅 44GB,GLM-4.5 Air 依然保留了完整的 1060 亿参数——这也是它能跑出完整 JavaScript 游戏的底气所在。

作者给出的提示词相当简洁:

 写一个实现《太空侵略者》游戏的 HTML 和 JavaScript 页面 

模型思考片刻后,生成了一段完整的代码,结构清晰、逻辑自洽

开头的系统提示也很“专业”:

<think>用户想让我用 HTML、CSS 和 JavaScript 创建一个《太空侵略者》游戏。我需要实现以下功能: 


玩家飞船:能左右移动并发射子弹 

敌方入侵者:成编队移动并反击 

分数追踪 生命值/健康系统 

游戏结束条件 [...] 

接着就是完整的 HTML 与 JS 代码,直接可运行,不用修改一行。

调试输出如下:

  • 提示词:14 tokens,生成速度 14.095 tokens/s
  • 生成内容:4193 tokens,生成速度 25.564 tokens/s
  • 峰值内存占用:47.687 GB

这个速度在本地部署模型中相当优秀,接近一些云端托管模型的实际表现(尤其考虑到官方所给的速度数据通常是在零延迟的理想环境下测得)。

内存使用上接近 48GB,意味着一台 64GB 内存的机器可稳稳支持——对本地推理来说,已经非常亲民。

作为对比,2024 年中发布的 LLaMA 3.1 70B 在推理阶段通常需要 350GB–500GB 的 GPU 显存,加上 64GB–128GB 的系统内存,几乎是“服务器级别的门槛”。

作者还测试了一个彩蛋级 benchmark——用这个 3bit 小模型生成一张“骑自行车的鹈鹕”的 SVG 图像。提示词是:

 “生成一张鹈鹕骑自行车的 SVG 图像” 

生成效果虽然有些“抽象主义”,但不难看出这是一只“云朵风格”的鹈鹕,骑着一辆结构稍微残缺了些但能看懂的自行车。

这说明,尽管精度远不及“满血版 GLM‑4.5”,但本地模型在多模态生成上依然具备可操作性。

上图为本地跑的GLM-4.5 Air生图,下图为GLM-4.5满血版生图👇

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

2.指南:作者是如何运行GLM-4.5 Air模型的

用的是 mlx-lm 库的主分支(因为需要包含对 GLM4 MoE 的支持),通过 uv 启动:

复制

uv run \
  --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
  python

在 Python 解释器里,用标准的 MLX 模型运行方式:

复制

from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

模型权重会下载到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夹,总计 44GB。

然后:

复制

prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(
    model, tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=8192
)

这样模型就在本地运行了。

3.网友:别被大模型叙事带偏了!低估了旧硬件 + 量化的潜力

作者Simon 总结说:

回顾一下,几乎所有 2025 年发布的新模型都在大幅增强编程能力——而这条路线,已经结出硕果——这些本地模型现在真的非常强大。

还是两年前的那台笔记本,但它不再是 LLaMA 1 的试验田,而是能稳定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等拥有强大智能的新一代模型。

这背后,正是现代量化技术的快速成熟:

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式,如今都已非常稳定。在推理任务中精度损失极小,却能带来成倍的资源节省。

在 Hacker News 上,一位网友犀利指出了当前“Scaling 叙事”的局限:

我认为我们严重低估了现有硬件在这个领域的潜力。


我担心,“痛苦教训(bitter lesson)” 和“计算效率边界”的叙事,把很多聪明人引导到了追求规模的方向,而忽视了探索革命性新方法。现在的模型其实非常低效。


我们可以在训练后大幅压缩权重的精度,模型依然能跑,比如生成什么“骑自行车的鹈鹕图”。

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

另一位网友补充总结了这种“默认更大更好”的惯性:

一旦你内化了“痛苦教训”——也就是“更多数据 + 更大计算 = 更好性能”这个逻辑后,你就不再思考,如何在计算受限的环境里榨出最强表现了。

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

4.写在最后:开源模型的发展速度和质量远超预期

智谱的 GLM-4.5,再次把开源模型的能力上限推高了一大截。

如今网友们的“整活自由”,正是这波模型狂飙带来的副作用。一个网友的留言,精准地讲出了许多技术人的共同心声:

 “开源模型的发展速度和质量,完全超出我预期。


 还记得 ChatGPT 上线那会儿,市面上最强的开源模型不过是 GPT-J 和 GPT-NeoX,用起来很痛苦——prompt 必须写得像讲故事一样非常精细,不然模型根本不理你。


后来 LLaMA 模型‘被泄露’,一切就变了。量化模型、微调方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!网友:别被大模型叙事带偏了(附指南)-AI.x社区图片

现在的开源模型,也许距离最强闭源模型还有 6 个月的差距——但别忘了,它们已经能在普通笔记本上本地运行,甚至支持微调。这一切的变化,只用了短短两年。

评论区最多的感慨就是:真没想到,2025 年我们能在笔记本上玩到这个水平的 AI。

你有尝试本地部署模型吗?

如果让你选一个任务来测试本地大模型,你会想让它做什么?欢迎在评论区聊聊~

参考链接:

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/ 

本文转载自​​51CTO技术栈​​,作者:伊风

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐