Meta策略转向后首个模型发布 部分指标超GPT-5.4
创始人
2026-04-10 04:13:34
0

[ 无论如何,这场剧烈的AI策略转向后,Muse Spark成为Meta拿出的第一个果实。此前Meta的Llama系列模型开源,而Muse Spark为闭源模型,新模型的推出也被外界视为Meta从开源到闭源的转向。 ]

当地时间4月8日,Meta发布多模态推理模型Muse Spark,标志着Meta AI策略转型后的阶段性成果。

“这是Meta Superintelligence Labs(超级智能实验室)开发的首款Muse模型,也是我们从零开始对AI业务全面改造后的首个产品。为了支持进一步扩展,从研究到模型训练、基础设施建设,我们正对整个技术栈进行战略投资。”Meta在一篇文章中介绍。

从模型表现看,Meta介绍,Muse Spark在多模态感知、推理、健康和代理(agentic)任务方面的表现具有竞争力。例如,在多模态基准测试CharXiv Reasoning中,Muse Spark思考模式得分为86.4,超过GPT-5.4的82.8和Gemini 3.1 Pro High的80.2,但在其他多个多模态基准测试中,其得分低于Gemini 3.1 Pro High。

在多项与推理能力相关的基准测试中,Muse Spark思考模式的部分得分超过Grok 4.2,但得分均低于Gemini 3.1 Pro High和GPT-5.4。与代理能力相关,Muse Spark思考模式DeepSearchQA测试得分74.8,超过Gemini 3.1 Pro High的69.7和GPT-5.4的73.6,在GDPval-AA Elo测试中的得分超过Gemini 3.1 Pro High和Grok 4.2,但在SWE-Bench Verified等四项基准测试中的得分接近或低于Opus 4.6、Gemini 3.1 Pro High和GPT-5.4。

从基准测试结果看,Muse Spark思考模式并未全面赶超谷歌和OpenAI的前沿模型,但在部分测试中的表现能与当前第一梯队的模型“掰手腕”。能力更强的将是尚未上线的沉思模式。Meta透露,Muse Spark沉思模式在无工具Humanity’s Last Exam(人类终极考试)和FrontierScience Research(前沿科学研究)中得分超过Gemini 3.1和GPT-5.4 Pro。

去年Meta的AI策略经历了转向。先是去年4月Llama 4被质疑训练测试集作弊、实际性能不及预期,Meta首席人工智能科学家杨立昆(Yann LeCun)又被质疑反对主流LLM路线、导致Meta在AI竞争中落后。多重刺激下,Meta对AI团队进行了重组。去年6月,Meta以近150亿美元的价格注资AI初创公司Scale AI,Scale AI创始人亚历山大·王(Alexandr Wang)加入Meta,担任超级智能实验室负责人,Meta CEO扎克伯格随即开启AI人才争夺战,为超级智能实验室招揽人才。去年底,在Meta战略转型中,杨立昆宣布离职。

AI战略的剧烈变动不仅涉及组织变动和人才流动,也涉及AI发展的方向。据杨立昆离职后透露,Meta管理层执着于稳妥、已被验证的方案,将重点放在大语言模型开发上,而不认可一些新颖的创意。

无论如何,这场剧烈的AI策略转向后,Muse Spark成为Meta拿出的第一个果实。此前Meta的Llama系列模型开源,而Muse Spark为闭源模型,新模型的推出也被外界视为Meta从开源到闭源的转向。美股4月8日收盘,Meta股价上涨6.5%。

不仅在模型策略上进行了转向,Meta在AI基础设施投入方面也有大动作。Meta是AI基础设施投入最激进的美国科技公司之一,Meta此前预告,2026年资本开支可能相比上一年翻一倍,预计在1150亿美元至1350亿美元之间。

不过,大模型竞争也趋于激烈,市场预计4月可能还会有多个新模型上线,Meta仍面临竞争对手的挑战。

虽然Muse Spark部分基准测试得分超过Anthropic的Opus 4.6,但Anthropic近期也取得新进展,该公司近日称未发布的前沿模型Mythos Preview编码能力达到了新的水准,有望重塑网络安全领域。近日还有未经证实的市场传言称,OpenAI的GPT-6可能在4月推出。4月8日,DeepSeek也低调更新了对话界面,新增“快速模式”和“专家模式”选项,被解读为可能是V4版本上线的前奏。

相关内容

赵丁琪:一个右翼加速主义的...
当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并...
2026-05-13 04:33:42
轻松健康AI医疗产品进入规...
本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围...
2026-05-13 03:40:29
北京出台专项政策!推进人工...
为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融...
2026-05-13 03:39:08
世界首次 人工胚胎上太空!
研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 ...
2026-05-13 03:37:26
“人工胚胎”,首次进入太空...
11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开...
2026-05-13 02:09:20
科学家预测:“哥斯拉级”厄...
科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见...
2026-05-13 02:08:19
重庆启动科研人员顶岗培养计...
5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行...
2026-05-13 02:07:08
5G物联网卡:开启超低时延...
在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素...
2026-05-12 23:13:08
OpenAI前CTO创业的...
今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负...
2026-05-12 23:10:53

热门资讯

赵丁琪:一个右翼加速主义的幽灵... 当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并没有终结资本主义,却将它推向一个前...
轻松健康AI医疗产品进入规模化... 本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围绕国际护士节系列活动,携旗下自研循...
北京出台专项政策!推进人工智能... 为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融合赋能,抢抓工业智能体技术产业化变...
世界首次 人工胚胎上太空! 研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 5月11日上午,天舟十号货运飞船在...
“人工胚胎”,首次进入太空! 11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开展的5项空间生命科学实验之一,这是...
科学家预测:“哥斯拉级”厄尔尼... 科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见厄尔尼诺气候模式。有科学家预测,这...
重庆启动科研人员顶岗培养计划 ... 5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行。今年,重庆将选派212名高精尖青...
5G物联网卡:开启超低时延、高... 在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素。5G物联网卡凭借其超低时延、高带...
OpenAI前CTO创业的模型... 今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负责人翁荔(Lilian Weng)...
原创 仅... 你见过连发芽都要挑“待遇”的树吗?6000万年前,恐龙都没能扛过灭绝的劫难,有一棵树却在中国西南的大...