微软为Copilot研究智能体增加多模型AI功能,提升准确性
创始人
2026-04-03 20:13:03
0

微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能,旨在提高AI生成研究输出的准确性和深度。

此次更新引入了"批评"系统,该系统为生成和评估分配单独的角色,同时还有一个"委员会"功能,可以比较多个模型的输出,并突出显示一致性、分歧点和独特见解。

使用DRACO基准测试的内部测试显示,配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%(7.0分)。

委员会功能并行运行多个模型以生成独立报告,通过判断系统综合关键差异和见解,帮助IT团队比较不同的解读。

"简单来说,这就像拥有一个聪明的专业人员加上一个严格的审查员,"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的,不是魔法。它减少了错误但不能完全消除错误。"

其他专家指出,仅仅模型协调可能不足以推动有意义的企业成果。

"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力,"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点,反映公司独特的市场地位、客户特征和决策者的具体要求。"

基准测试的局限性与现实考量

微软的DRACO基准测试结果看起来很强,但企业应该谨慎对待它们。

"将其视为最佳情况测试;它显示AI模型可以相互检查并发现错误,但真实的公司数据要复杂得多,包含冲突信息和过时文档,"Jain说道。"还存在判断偏见的风险;如果两个AI相似,审查员可能会错过相同的错误。虽然基准测试衡量逻辑,但它们无法捕捉真正的商业价值。"

向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大,但也更难管理。

组织现在必须跟踪包括初始草稿、批评和最终输出的交互链,而不是单一的输入输出流。

"这创建了更大的审计跟踪,安全和合规团队必须审查以了解决策是如何制定的,"Jain补充道。"它还增加了成本和延迟,因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题,很难知道哪个部分失败了,比如生成器、审查员还是管理它们的系统。"

分析师表示,这将要求企业重新思考围绕AI部署的治理框架。

"企业必须优先考虑对模型到输出选择过程的治理,以及如何混合或选择多个响应的细化,"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说,企业还需要结构化机制来评估输出及其现实影响,确保整个决策过程的可追溯性,并改善多模型系统随时间的管理方式。

Q&A

Q1:微软Copilot研究智能体的多模型功能是什么?

A:这是微软为Microsoft 365 Copilot"研究"智能体新增的功能,包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色,委员会功能则比较多个模型输出,突出一致性、分歧和独特见解,旨在提高AI研究输出的准确性和深度。

Q2:多模型AI系统会给企业带来哪些挑战?

A:主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链,审计跟踪更大,当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。

Q3:企业如何更好地部署多模型AI系统?

A:专家建议企业应与CRM、HRM等内部数据系统集成,确保AI洞察反映公司独特情况。需要重新思考治理框架,建立结构化评估机制,确保决策过程可追溯,并将持续监控和校准作为流程质量管理的基本组成部分。

相关内容

赵丁琪:一个右翼加速主义的...
当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并...
2026-05-13 04:33:42
轻松健康AI医疗产品进入规...
本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围...
2026-05-13 03:40:29
北京出台专项政策!推进人工...
为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融...
2026-05-13 03:39:08
世界首次 人工胚胎上太空!
研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 ...
2026-05-13 03:37:26
“人工胚胎”,首次进入太空...
11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开...
2026-05-13 02:09:20
科学家预测:“哥斯拉级”厄...
科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见...
2026-05-13 02:08:19
重庆启动科研人员顶岗培养计...
5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行...
2026-05-13 02:07:08
5G物联网卡:开启超低时延...
在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素...
2026-05-12 23:13:08
OpenAI前CTO创业的...
今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负...
2026-05-12 23:10:53

热门资讯

赵丁琪:一个右翼加速主义的幽灵... 当我们还未从AI技术的突飞猛进中回味过来时,却猛然发现:AI时代并没有终结资本主义,却将它推向一个前...
轻松健康AI医疗产品进入规模化... 本报讯 (记者袁传玺)5月12日,轻松健康集团(2661.HK)围绕国际护士节系列活动,携旗下自研循...
北京出台专项政策!推进人工智能... 为贯彻国家关于工业互联网的战略部署,深入推进人工智能与工业互联网融合赋能,抢抓工业智能体技术产业化变...
世界首次 人工胚胎上太空! 研究无重力是否影响早期胚胎发育 将回答人类能不能在太空生存繁衍 5月11日上午,天舟十号货运飞船在...
“人工胚胎”,首次进入太空! 11日,我国天舟十号成功发射。“人工胚胎”太空实验是本次任务重点开展的5项空间生命科学实验之一,这是...
科学家预测:“哥斯拉级”厄尔尼... 科学家近日发出警告,太平洋上空正在形成一种被称为“哥斯拉”级的罕见厄尔尼诺气候模式。有科学家预测,这...
重庆启动科研人员顶岗培养计划 ... 5月12日,重庆市科研人员顶岗培养计划2026年度行前启动仪式举行。今年,重庆将选派212名高精尖青...
5G物联网卡:开启超低时延、高... 在万物互联的浪潮中,网络性能成为决定物联网应用广度与深度的核心要素。5G物联网卡凭借其超低时延、高带...
OpenAI前CTO创业的模型... 今天,大模型圈再次被点燃,这一次的火花来自前OpenAI应用研究负责人翁荔(Lilian Weng)...
原创 仅... 你见过连发芽都要挑“待遇”的树吗?6000万年前,恐龙都没能扛过灭绝的劫难,有一棵树却在中国西南的大...