实测一圈下来,结论是——如果你最近要写代码、搭 Agent、做原型,GLM-4.5 可能是 2025 年最值得先上手的国产大模型,没有之一。 这段时间国产 AI 模型非常热闹,各家都瞄着 Coding 和 Agent 场景,开源自己的最新模型。 是个好事,大幅拉近和国际模型的 Coding 差距。
GLM-4.6 昨夜低调放号,我们第一时间拉来 Claude 4.5 做 48 小时盲测。结果出乎意料:中文指令遵循率 GLM 领先 9.4%,代码一次性可运行率反超 7%,更在 2024 高考数学卷拿下 142 分,比 Claude 高 18 分;但在多轮逻辑推理和长程上下文回忆上,Claude 依旧守住“最像人”的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈