
数据,正在成为AI大模型竞争的新焦点。当模型架构趋于同质化、算力成为基础设施后,高质量数据的获取与生产方式,决定了一家AI公司的核心竞争力和长期壁垒。
2026年5月,具身智能底层基础设施公司Uncharted Dynamics完成数百万美元种子轮融资,由险峰长青领投。该公司提出了一个尖锐的问题:整个行业在Scaling,但没人问数据是否"成立"。过去两年,AI行业信奉"更多数据、更大模型、更强能力"的规模法则,这套逻辑在语言模型中已被反复验证。然而在具身智能领域,物理世界的复杂性使得数据的"真实性"和"准确性"变得至关重要。
5月10日,人民网与游族网络共建的"AI交互语料创新实验室"发布了国内首批"具身交互多模态语料数据集",直击具身智能从"会做事"到"懂人心"的关键瓶颈。该数据集涵盖了情感理解、场景适配、多轮对话等维度,为AI模型提供了更丰富、更细腻的训练素材。
与此同时,DeepSeek寻求首轮融资的消息也折射出数据战略的重要性。传闻创始人梁文锋计划自掏200亿元参与认购,这笔资金除了算力投入外,很大一部分将用于高质量数据的获取和标注。在AI大模型的下半场,数据壁垒正取代模型架构,成为护城河的核心。
行业观察人士指出,AI数据产业正在从粗放式采集走向精细化生产。合成数据、强化学习反馈、多模态对齐等新方法的涌现,正在重塑AI训练的效率和质量。未来,拥有独家数据资产和高效数据生产能力的公司,将在AI竞争中占据更有利的位置。
数据的战争已经打响。在AI模型能力趋同的时代,谁掌握了最优质的数据,谁就掌握了下一轮技术突破的钥匙。