GLM-5.2 登顶 HN 首页：中国开源大模型，第一次跑进 Artificial Analysis 第一梯队

昨天 HN 首页第一条挂着《GLM-5.2 is the new leading open weights model on Artificial Analysis》，858 分、417 条评论。发帖人 himata4119，点进去是个新人，但来源不是谁都能上的：Artificial Analysis Intelligence Index v4.1，整个 AI 圈拿来给 frontier 模型排座次的那个第三方评测。

半年前这类话题在 HN 还能看到几条「又 propaganda」的回帖。这次没有。我把前 30 条评论翻完，技术派在认真比 Elo、价比、context window、API 限流。没有人讨论这是哪个国家的人做的。

这才是我想写这篇的原因。

一、这次登顶，不是「开源追上闭源」，是「开源在同一个榜单里坐了把交椅」

Artificial Analysis Intelligence Index v4.1 是这么算的：把 coding、reasoning、agentic、math、knowledge 一堆子项汇总成一个 0–100 的 Elo 分，每个模型拉出来一个综合数。Frontier 模型（GPT-5.5、Gemini 3、Claude Fable 5）一直霸在前五。Open weights 模型一直被压在第六往后。

GLM-5.2 这次干了三件事：

综合分 44，与 DeepSeek V4 Pro (max) 持平，并列 open weights 第一。DeepSeek 身后的 MiniMax-M3 也是 44，三家中国厂商把 open weights 第一梯队占满了。
在 GDPval-AA v2 这个专门比模型在真实经济任务上表现的子项里，GLM-5.2 「places in-line with proprietary models including GPT-5.5 (xhigh reasoning)」。in-line，AA 自己用的词，意思不是「接近」，是「同一档」。
价格$1.4 / $4.4 / $0.26（input / output / cache hit per 1M tokens），跟 GLM-5.1 持平。也就是说性能上去了，价格没变。

这三条叠在一起，意味着 2026 年中这个时间点，开源和闭源的 gap 不是「还有一年」，是「同一档的不同选项」。

二、HN 上讨论的，比 Artificial Analysis 写的更值得看

帖子本身没有悬念，看点是评论区。我摘了几条有技术含量的：

deepnet: 没人在意 GLM-5.2 是不是 SOTA。重要的是：open weights 这个榜单的前三名，都是中国实验室。

hexwiki: 你把 Mistral Large 3、Llama 4 Behemoth、DeepSeek V4 Pro 拉同一张表，会发现 Anthropic 的 Fable 5 是唯一的非中国 frontier。这不是地缘政治叙事，是 MLPerf 趋势图。

lobste.rs_alum: Cache hit $0.26/M 是什么概念？我写 agent loop 平均 70% 都是 cache hit。真实成本比 Claude Fable 5 低 14 倍，比 GPT-5.5 低 8 倍。

eigenfoo: 我跑了他们给的两个 case（一个 PDF→JSON、一个 SQL migration），GLM-5.2 一次过。Fable 5 也是一次过。差距在千分之一级别。这不是宣传，是能用的。

注意这四条评论的语气。没有人在讨论这是「中国 AI」。他们在讨论 cache hit 性价比、agent loop、case pass rate。这是技术派在讨论一个工具。

半年前不是这样的。2025 年下半年，同样是中国模型上 HN，评论区第一条通常是「又 propaganda」「训练数据来源可疑」「中国算力都是美国卡」。这次没有。

三、三个让我觉得「这次真的不一样」的细节

第一，是发布节奏。GLM-5.2 不是从 5.1 升级上来的跳票，是 6 月 13 日 GLM 5.2 Is Out 那条 767 分、497 条评论先开的发布讨论（推特首发），6 月 17 日 Artificial Analysis 第三方背书跟进，6 月 17 日同一天 153 分的 GLM 5.2 Performance Benchmarks 把具体数字摆桌面上。三天三帖，分数递减但层级分明：发布 → 第三方背书 → benchmark 拆解。这是 frontier 厂商的发布节奏，不是中国大模型的发布节奏。

第二，是定价透明度。Cache hit $0.26/M 这种数字，Anthropic 和 OpenAI 都不公开。中国厂商把 cache hit 单列出来，是因为 cache hit 是 agent loop 的关键成本——Agent 在循环里反复读同一份上下文。这是给开发者看的价格，不是给投资人看的价格。

第三，是评论区里的工程细节。有人贴出 GLM-5.2 在 1M context 下做 PDF OCR 的具体 latency 数字，有人贴出和 vLLM 一起跑 8×H100 的 throughput 实测。这些不是消费级用户在发帖，是MLOps 工程师在互相校准。

四、几个我没买的账

说几个我觉得可能翻车的判断：

「开源追上闭源」这种话，少说。GLM-5.2 在综合分上和 DeepSeek、MiniMax-M3 并列 open weights 第一，但 Claude Fable 5 在子项（尤其是 coding agent）还是领先。准确说法是「open weights 这个层级里，第一梯队被中国厂商包了」。

「中国 AI 崛起」这种叙事，少用。DeepSeek、智谱、MiniMax 这三家是分别在做，三家思路也不一样（DeepSeek 押 MoE，智谱押 long context，MiniMax 押 reasoning），把三家打包讲「中国 AI」，是给投资人讲的故事，不是给开发者讲的故事。

「open weights = 开源」也要打折扣。GLM-5.2 是 open weights（权重公开），但 License 不是 Apache 2.0，是商用受限版本。能不能拿去部署 SaaS 还要看条款。open weights 和 open source 之间隔了一道法律墙，比性能 gap 大。

五、那对 builder 意味着什么

如果你在做 agent / coding agent / 长上下文检索类产品：

第一，重新算一遍成本。GLM-5.2 cache hit $0.26/M 配 1M context，agent loop 的真实成本可能比你现在用的 frontier 模型低一个数量级。不是说换就换，但值得拉个 Excel 算一下。

第二，把多模型 fallback 写进系统。过去两年大家都默认「主模型用 OpenAI/Anthropic，回退到本地」。2026 年下半年，回退链应该是「主模型 frontier，备选其他 frontier，回退到 open weights frontier，最后回退到本地小模型」。中间这层现在多了中国三家。

第三，关注 context window 的真实上限。1M context 是宣传数字，实际跑起来能稳定到 600K–800K 已经不错。但 1M 这个量级是真实可用的（不是 Claude 早期那种 200K 是上限、跑起来掉一半）。Agent loop 的设计可以重新想一遍了。

最后

昨天那个 858 分的帖子，我反复看了一件事：评论区前 30 条里，没有任何一条提「这是哪个国家的人做的」。

这才是真正的「登顶」。不是你拿了第一名，是大家不再盯着你是谁，只盯着你能做什么。

半年前不是这样的。半年前中国模型上 HN，第一条永远是 geopolitics。

我同意 Anthropic 那个判断：AI 这件事的下一道墙不是模型能力，是合规、是落地、是工程细节。但模型能力这一关，至少在 open weights 这个层级，中国厂商已经坐进去了。

接下来要看的是：北美三家会不会被迫把价格压下来、是不是会有「我用的是 DeepSeek 写代码、Claude 写 reasoning、Fable 做 agent」这种异构流水线成为常态、open weights License 谈判会不会成为新的战场。

一、这次登顶，不是「开源追上闭源」，是「开源在同一个榜单里坐了把交椅」#

二、HN 上讨论的，比 Artificial Analysis 写的更值得看#

三、三个让我觉得「这次真的不一样」的细节#

四、几个我没买的账#

五、那对 builder 意味着什么#

最后#

参考链接#

一、这次登顶，不是「开源追上闭源」，是「开源在同一个榜单里坐了把交椅」

二、HN 上讨论的，比 Artificial Analysis 写的更值得看

三、三个让我觉得「这次真的不一样」的细节

四、几个我没买的账

五、那对 builder 意味着什么

最后

参考链接