豆包开源 VideoWorld：AI 视觉认知新突破视频生成效率提升 10 倍

轻松满足您的射频微波器件采购需求

整合全球优质射频微波芯片代理商现货渠道

聚焦知名射频微波器件品牌，强大的现货交付能力

豆包开源 VideoWorld：AI 视觉认知新突破视频生成效率提升 10 倍

（2026/6/8更新）

2月10日，豆包大模型团队联合北京交通大学、中国科学技术大学，发布了视频生成模型VideoWorld，并且已开源代码与模型。

射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道，实时查询射频微波器件代理商的真实库存，提供合理的行业价格，放心采购射频微波器件，是国内专业的射频微波芯片采购平台。

与Sora、DALL-E等主流多模态模型不同，VideoWorld开辟了新的路径，打破对语言模型的依赖，实现仅靠“视觉信息”认知世界。就像幼儿能在不依赖语言的情况下理解真实世界一样，VideoWorld通过浏览视频数据，让机器掌握推理、规划和决策等复杂能力。在仅有300M参数量时，它就已展现出可观的性能，达到专业5段9x9围棋水平，还能在多种环境中执行机器人任务。

在模型构建方面，团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。训练时，模型通过“观看”包含大量视频演示数据的离线数据集进行学习。其架Silicon Labs代理构采用朴素自回归模型，包含VQ-VAE编码器-解码器和自回归Transformer架构。

不过，研究初期发现视频序列知识挖掘效率低于文本形式，为此团队引入潜在动态模型（LDM）。LDM够将帧间视觉变化压缩为紧凑的潜在编码，提升知识挖掘效率，还能保留丰富视觉信息，让VideoWorld可以捕捉视觉序列中的长期依赖关系，从而更好地进行长期推理和规划。

通过细致分析，团队发现LDM不仅能建模训练集的数据模式，还能帮助模型在测试时进行前向规划，并且生成因果相关的编码。尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越，但团队也清醒地认识到，在真实世界的应用中，它还面临高质量视频生成和多环境泛化等挑战。不过，团队已明确未来将聚焦这些难题，致力于让视频生成模型成为真实世界的通用知识学习器。

当下，DeepSeek掀起的行业变革浪潮持续发酵，不仅在人工智能产业链内引发连锁反应，还向其他行业渗透。它的火爆并非源于性能优势，而是凭借创新性技术路线，以超低算力成本实现超预期效果输出，为行业发展带来全新思路。无独有偶，此次豆包发布的VideoWorld视觉模型同样开辟了全新技术路径，打破对语言模型的依赖，仅靠视觉信息就让机器实现对世界的认知并掌握复杂能力，有望进一步夯实了国产大模型在多模态领域的技术实力。

您可能也感兴趣的新闻头条：