开盘大涨!智谱迄今最强模型来了
创始人
2026-04-08 15:36:15
0

4月8日,“全球大模型第一股”智谱开盘涨超18%,市值逼近4000亿港元。截至收盘,其涨幅有所回落,涨超14%。

当天,该公司发布了其迄今最智能的模型——GLM-5.1。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同, GLM-5.1能够在一次任务中独立、持续地工作长达8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。

与此同时,智谱GLM再度提价10%,编码场景定价追平海外头部厂商Anthropic,国产模型价格首次对齐海外。

模型独自“上班”8小时

2025年3月,AI安全研究机构METR提出了一个改变行业认知的指标:任务完成时间线(Task-Completion Time Horizon)——不再衡量模型“多聪明”,而是衡量它能独立完成多长时间的人类任务。

这对模型厂商提出了更深层次的挑战。在长程任务中保持稳定输出,模型面对的不只是更大的代码量,而是一连串复杂的工程决策点:主动跑benchmark、定位瓶颈、修改方案、再跑测试。

模型需要像一个真正的工程师一样,形成“实验→分析→优化”的完整闭环,而不是写完一版代码就停下来等人打分。

为此,智谱团队在训练方法上做了几个关键的调整,包括扩展任务过程的训练窗口、特别优化模型的tool use能力。迭代后,GLM-5.1能够在单次任务中持续、自主地工作长达8小时。

这意味着,用户睡觉的8小时,可以变成模型“上班”的8小时。过程中,模型可以自主规划、执行、测试,碰壁时主动切换策略,出错后自行修复,最终交付完整的工程级成果。

以“8小时从零构建Linux桌面”任务为例,用户白天画好架构草图,睡前交给GLM-5.1,早上醒来已产出完整系统。

历时8小时整,执行1700多步,GLM-5.1在20分钟时产生第一个有意义的成果,8小时后产出了一套功能完善的Linux桌面系统,包括:完整的桌面、窗口管理器、状态栏、应用程序、VPN管理器、中文字体支持、游戏库等,4.8MB的配套文件。这相当于一个4人团队一周的开发工作量。

智谱技术团队介绍,上述任务全程没有单元测试兜底、没有代码审查、没有文档。值得一提的是,它甚至给自己的代码写了一个14小时的回归测试——并且通过了测试。

过去两年,行业用Benchmark衡量模型有多智能。下一阶段的衡量标准应该是“能工作多久”,即模型在长程任务中的持续表现,独立完成人类专家几小时甚至几天才能做完的工作。

智谱认为,延长模型的“有效工作时长”是提升智能体能力的一个基础维度。在这条路上仍然有显著的技术挑战:如何克服模型面对复杂任务的上下文焦虑、如何在数千次工具调用后保持执行的一致性、如何更早地跳出局部最优,以及更重要的是如何在没有确定数值指标的任务上建立可靠的自我评估机制。

“GLM-5.1是我们在这个方向上迈出的一步,我们会持续推进。”智谱表示,其究极目标是全自治智能体(Autonomous Agent),模型7×24小时不间断地感知任务、分解目标、执行交付、自我评价与纠正、自我进化,从此无需人类介入。

国产模型价格首次对齐海外

让海外技术社区格外关注的是,在编程能力方面,GLM-5.1的性能首次实现了与国际头部模型的对齐。

Claude Opus 4.6由Anthropic开发,该公司年化收入近期首次超越OpenAI,被视为商业化能力最强的海外头部厂商。最新业务数据显示,Anthropic年化收入(ARR)已达到300亿美元,这超过了OpenAI此前公布的250亿美元年化收入。

在这一背景下,中国开源AI在最核心的工程能力指标上,首次具备与国际先进水平同场竞技的能力。以往国内开源模型常被定位为落后一方,与国际最强闭源模型的成绩始终存在一定距离。而GLM-5.1此次的榜单结果,一定程度上打破了这种固有认知。

性能提升的同时,智谱在价格层面也与海外厂商看齐。模型聚合平台OpenRouter显示,智谱GLM再度提价10%。调价后,GLM-5.1在Coding场景的缓存命中Token价格接近Anthropic旗下Claude Sonnet 4.6。

公开资料显示,这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

这一变化超出了不少人的预料——一年前,大模型行业还陷在“价格战”中,普遍降价九成以上争夺份额。如今的转变,意味着国产模型正逐步从低价策略转向以性能为本,尝试建立与国际头部厂商的对等地位。

作者:孙小程

相关内容

赵丁琪:一个右翼加速主义的...
当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并...
2026-05-13 04:33:42
轻松健康AI医疗产品进入规...
本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围...
2026-05-13 03:40:29
北京出台专项政策!推进人工...
为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融...
2026-05-13 03:39:08
世界首次 人工胚胎上太空!
研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 ...
2026-05-13 03:37:26
“人工胚胎”,首次进入太空...
11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开...
2026-05-13 02:09:20
科学家预测:“哥斯拉级”厄...
科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见...
2026-05-13 02:08:19
重庆启动科研人员顶岗培养计...
5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行...
2026-05-13 02:07:08
5G物联网卡:开启超低时延...
在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素...
2026-05-12 23:13:08
OpenAI前CTO创业的...
今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负...
2026-05-12 23:10:53

热门资讯

赵丁琪:一个右翼加速主义的幽灵... 当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并没有终结资本主义,却将它推向一个前...
轻松健康AI医疗产品进入规模化... 本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围绕国际护士节系列活动,携旗下自研循...
北京出台专项政策!推进人工智能... 为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融合赋能,抢抓工业智能体技术产业化变...
世界首次 人工胚胎上太空! 研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 5月11日上午,天舟十号货运飞船在...
“人工胚胎”,首次进入太空! 11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开展的5项空间生命科学实验之一,这是...
科学家预测:“哥斯拉级”厄尔尼... 科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见厄尔尼诺气候模式。有科学家预测,这...
重庆启动科研人员顶岗培养计划 ... 5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行。今年,重庆将选派212名高精尖青...
5G物联网卡:开启超低时延、高... 在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素。5G物联网卡凭借其超低时延、高带...
OpenAI前CTO创业的模型... 今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负责人翁荔(Lilian Weng)...
原创 仅... 你见过连发芽都要挑“待遇”的树吗?6000万年前,恐龙都没能扛过灭绝的劫难,有一棵树却在中国西南的大...