
谷歌DeepMind在多模态AI领域再创里程碑,正式推出TIPSv2(Text-Image Pretraining with Spatial awareness v2)模型,该研究成果已被计算机视觉顶级会议CVPR 2026收录。
TIPSv2成功解决了多模态预训练中的核心痛点——Patch-Text对齐问题。在9项任务和20个数据集的测试中,该模型展现出统治级的性能表现,标志着视觉语言预训练技术的重要突破。
此次开源内容全面丰富,涵盖从86M到1.1B参数的多种模型权重、完整代码库以及在线体验Demo。开发者可以根据自身需求选择合适规模的模型,灵活应用于各类视觉语言任务场景。
TIPSv2的核心创新在于增强的空间感知能力,通过改进的Patch-Text对齐机制,实现了图像局部区域与文本描述的精准匹配。这一突破为下游应用如视觉问答、图像描述生成、多模态检索等领域带来显著提升。
DeepMind此次开源举措体现了科技巨头推动AI技术普惠化的决心。研究团队表示,希望通过开源加速多模态AI的研究进展,让更多开发者和研究者能够基于最先进的技术构建创新应用。
目前,TIPSv2的代码和模型已在GitHub公开发布,感兴趣的开发者可以前往体验和贡献。这一成果的出现,预示着2026年多模态AI将迎来更广阔的应用前景。