昨天 HN 首页第一条挂着《GLM-5.2 is the new leading open weights model on Artificial Analysis》,858 分、417 条评论。发帖人 himata4119,点进去是个新人,但来源不是谁都能上的:Artificial Analysis Intelligence Index v4.1,整个 AI 圈拿来给 frontier 模型排座次的那个第三方评测。

半年前这类话题在 HN 还能看到几条「又 propaganda」的回帖。这次没有。我把前 30 条评论翻完,技术派在认真比 Elo、价比、context window、API 限流。没有人讨论这是哪个国家的人做的。

这才是我想写这篇的原因。

一、这次登顶,不是「开源追上闭源」,是「开源在同一个榜单里坐了把交椅」

Artificial Analysis Intelligence Index v4.1 是这么算的:把 coding、reasoning、agentic、math、knowledge 一堆子项汇总成一个 0–100 的 Elo 分,每个模型拉出来一个综合数。Frontier 模型(GPT-5.5、Gemini 3、Claude Fable 5)一直霸在前五。Open weights 模型一直被压在第六往后。

GLM-5.2 这次干了三件事:

  1. 综合分 44,与 DeepSeek V4 Pro (max) 持平,并列 open weights 第一。DeepSeek 身后的 MiniMax-M3 也是 44,三家中国厂商把 open weights 第一梯队占满了。
  2. 在 GDPval-AA v2 这个专门比模型在真实经济任务上表现的子项里,GLM-5.2 「places in-line with proprietary models including GPT-5.5 (xhigh reasoning)」。in-line,AA 自己用的词,意思不是「接近」,是「同一档」。
  3. 价格$1.4 / $4.4 / $0.26(input / output / cache hit per 1M tokens),跟 GLM-5.1 持平。也就是说性能上去了,价格没变

这三条叠在一起,意味着 2026 年中这个时间点,开源和闭源的 gap 不是「还有一年」,是「同一档的不同选项」。

二、HN 上讨论的,比 Artificial Analysis 写的更值得看

帖子本身没有悬念,看点是评论区。我摘了几条有技术含量的:

deepnet: 没人在意 GLM-5.2 是不是 SOTA。重要的是:open weights 这个榜单的前三名,都是中国实验室。

hexwiki: 你把 Mistral Large 3、Llama 4 Behemoth、DeepSeek V4 Pro 拉同一张表,会发现 Anthropic 的 Fable 5 是唯一的非中国 frontier。这不是地缘政治叙事,是 MLPerf 趋势图。

lobste.rs_alum: Cache hit $0.26/M 是什么概念?我写 agent loop 平均 70% 都是 cache hit。真实成本比 Claude Fable 5 低 14 倍,比 GPT-5.5 低 8 倍。

eigenfoo: 我跑了他们给的两个 case(一个 PDF→JSON、一个 SQL migration),GLM-5.2 一次过。Fable 5 也是一次过。差距在千分之一级别。这不是宣传,是能用的。

注意这四条评论的语气。没有人在讨论这是「中国 AI」。他们在讨论 cache hit 性价比、agent loop、case pass rate。这是技术派在讨论一个工具。

半年前不是这样的。2025 年下半年,同样是中国模型上 HN,评论区第一条通常是「又 propaganda」「训练数据来源可疑」「中国算力都是美国卡」。这次没有。

三、三个让我觉得「这次真的不一样」的细节

第一,是发布节奏。GLM-5.2 不是从 5.1 升级上来的跳票,是 6 月 13 日 GLM 5.2 Is Out 那条 767 分、497 条评论先开的发布讨论(推特首发),6 月 17 日 Artificial Analysis 第三方背书跟进,6 月 17 日同一天 153 分的 GLM 5.2 Performance Benchmarks 把具体数字摆桌面上。三天三帖,分数递减但层级分明:发布 → 第三方背书 → benchmark 拆解。这是 frontier 厂商的发布节奏,不是中国大模型的发布节奏。

第二,是定价透明度。Cache hit $0.26/M 这种数字,Anthropic 和 OpenAI 都不公开。中国厂商把 cache hit 单列出来,是因为 cache hit 是 agent loop 的关键成本——Agent 在循环里反复读同一份上下文。这是给开发者看的价格,不是给投资人看的价格

第三,是评论区里的工程细节。有人贴出 GLM-5.2 在 1M context 下做 PDF OCR 的具体 latency 数字,有人贴出和 vLLM 一起跑 8×H100 的 throughput 实测。这些不是消费级用户在发帖,是MLOps 工程师在互相校准

四、几个我没买的账

说几个我觉得可能翻车的判断:

「开源追上闭源」这种话,少说。GLM-5.2 在综合分上和 DeepSeek、MiniMax-M3 并列 open weights 第一,但 Claude Fable 5 在子项(尤其是 coding agent)还是领先。准确说法是「open weights 这个层级里,第一梯队被中国厂商包了」。

「中国 AI 崛起」这种叙事,少用。DeepSeek、智谱、MiniMax 这三家是分别在做,三家思路也不一样(DeepSeek 押 MoE,智谱押 long context,MiniMax 押 reasoning),把三家打包讲「中国 AI」,是给投资人讲的故事,不是给开发者讲的故事。

「open weights = 开源」也要打折扣。GLM-5.2 是 open weights(权重公开),但 License 不是 Apache 2.0,是商用受限版本。能不能拿去部署 SaaS 还要看条款。open weights 和 open source 之间隔了一道法律墙,比性能 gap 大。

五、那对 builder 意味着什么

如果你在做 agent / coding agent / 长上下文检索类产品:

第一,重新算一遍成本。GLM-5.2 cache hit $0.26/M 配 1M context,agent loop 的真实成本可能比你现在用的 frontier 模型低一个数量级。不是说换就换,但值得拉个 Excel 算一下。

第二,把多模型 fallback 写进系统。过去两年大家都默认「主模型用 OpenAI/Anthropic,回退到本地」。2026 年下半年,回退链应该是「主模型 frontier,备选其他 frontier,回退到 open weights frontier,最后回退到本地小模型」。中间这层现在多了中国三家。

第三,关注 context window 的真实上限。1M context 是宣传数字,实际跑起来能稳定到 600K–800K 已经不错。但 1M 这个量级是真实可用的(不是 Claude 早期那种 200K 是上限、跑起来掉一半)。Agent loop 的设计可以重新想一遍了。

最后

昨天那个 858 分的帖子,我反复看了一件事:评论区前 30 条里,没有任何一条提「这是哪个国家的人做的」

这才是真正的「登顶」。不是你拿了第一名,是大家不再盯着你是谁,只盯着你能做什么。

半年前不是这样的。半年前中国模型上 HN,第一条永远是 geopolitics。

我同意 Anthropic 那个判断:AI 这件事的下一道墙不是模型能力,是合规、是落地、是工程细节。但模型能力这一关,至少在 open weights 这个层级,中国厂商已经坐进去了

接下来要看的是:北美三家会不会被迫把价格压下来、是不是会有「我用的是 DeepSeek 写代码、Claude 写 reasoning、Fable 做 agent」这种异构流水线成为常态、open weights License 谈判会不会成为新的战场。

参考链接