
阿里巴巴近日正式发布了千问系列最新力作——Qwen3.5-Omni全模态大模型,这款模型在人工智能领域引发巨大反响。Qwen3.5-Omni支持文本、图片、音频、音视频等多种模态的理解与交互,在215项音视频理解与交互任务中达到了业界最高水平SOTA,整体能力更是超越了谷歌的Gemini-3.1 Pro模型。
此次发布的Qwen3.5-Omni提供了三种不同尺寸的版本:Plus、Flash和Light,以满足不同场景下的计算需求。模型支持256k超长上下文,能够处理超过10小时的音频输入和400秒的720P音视频输入,这在多模态领域堪称突破性进展。用户可以通过阿里云百炼平台和Qwen Chat直接体验这一强大模型。
从技术架构来看,Qwen3.5-Omni采用了统一的多模态处理框架,实现了跨模态信息的深度融合与协同理解。该模型不仅在标准的图像识别、语音处理任务上表现出色,在复杂的音视频联合理解场景中也展现出惊人的能力,比如视频内容分析、多模态对话等前沿应用。
业内专家认为,阿里此次发布标志着国产大模型在多模态领域已经达到世界一流水平。Qwen3.5-Omni的发布不仅填补了国内全模态大模型的空白,更为各行各业的智能化升级提供了强大的技术支撑,预计将在教育、医疗、娱乐等领域催生大量创新应用。
随着人工智能技术的快速发展,多模态大模型正成为新的竞争高地。阿里千问团队表示,未来将继续优化模型性能,探索更多应用场景,让AI技术真正服务于千行百业的数字化转型需求。