2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学,发布了视频生成模型——VideoWorld,并且已开源代码与模型。
射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道,实时查询射频微波器件代理商的真实库存,提供合理的行业价格,放心采购射频微波器件,是国内专业的射频微波芯片采购平台。
与Sora、DALL-E等主流多模态模型不同,VideoWorld开辟了新的路径,打破对语言模型的依赖,实现仅靠“视觉信息”认知世界。就像幼儿能在不依赖语言的情况下理解真实世界一样,VideoWorld通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。在仅有300M参数量时,它就已展现出可观的性能,达到专业5段9x9围棋水平,还能在多种环境中执行机器人任务。
在模型构建方面,团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。训练时,模型通过“观看”包含大量视频演示数据的离线数据集进行学习。其架Silicon Labs代理构采用朴素自回归模型,包含VQ-VAE编码器-解码器和自回归Transformer架构。
不过,研究初期发现视频序列知识挖掘效率低于文本形式,为此团队引入潜在动态模型(LDM)。LDM够将帧间视觉变化压缩为紧凑的潜在编码,提升知识挖掘效率,还能保留丰富视觉信息,让VideoWorld可以捕捉视觉序列中的长期依赖关系,从而更好地进行长期推理和规划。
通过细致分析,团队发现LDM不仅能建模训练集的数据模式,还能帮助模型在测试时进行前向规划,并且生成因果相关的编码。尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越,但团队也清醒地认识到,在真实世界的应用中,它还面临高质量视频生成和多环境泛化等挑战。不过,团队已明确未来将聚焦这些难题,致力于让视频生成模型成为真实世界的通用知识学习器。
当下,DeepSeek掀起的行业变革浪潮持续发酵,不仅在人工智能产业链内引发连锁反应,还向其他行业渗透。它的火爆并非源于性能优势,而是凭借创新性技术路线,以超低算力成本实现超预期效果输出,为行业发展带来全新思路。无独有偶,此次豆包发布的VideoWorld视觉模型同样开辟了全新技术路径,打破对语言模型的依赖,仅靠视觉信息就让机器实现对世界的认知并掌握复杂能力,有望进一步夯实了国产大模型在多模态领域的技术实力。
- 研华 AIR-520 边缘 AI 服务器赋能智慧城市!GenAI 引擎提升市民服务效率 300%
- 蔚来在 2024 蔚来日推出 ET9 旗舰级轿车及萤火虫品牌
- 台积电牵头组建合资企业运营英特尔代工厂?美半导体产业重组引发多方博弈
- 慕尼黑电子展剧透:同期论坛亮点抢先看 汽车电子 / AI 芯片专场
- CoreWeave 提交 IPO!英伟达亲儿子去年收入暴涨 8 倍,AI 算力租赁市场爆发
- 比亚迪计划面向欧洲市场推出售价仅 2 万欧元车型,冲击欧洲市场?
- 2025 智能终端十大洞察:AI 重塑设备形态 边缘计算渗透率超 60%
- OpenAI 三周 12 场发布会剧透!AGI 突破路径曝光,自研芯片算力成本降低 70%
- 意法半导体与 HighTec EDV-Systeme 合作,助力打造更安全的软件定义汽车
- 英飞凌碳化硅 30 年:零碳技术领军者 新能源车电机成本下降 40%
- 高通破局苹果自研 5G 基带围剿!毫米波天线集成方案成本直降 45%,车联网成第二增长曲线
- 研华携手高通,引领工业 Wi-Fi 7 解决方案新时代
- 射频屏蔽(射频和无线)
- 通孔式电阻器(电阻器)
- 射频收发器模块和调制解调器(射频和无线)
- 端子块 > 端子块配件 > 端子块跳线(连接器
- 固定电感器(电感器,线圈,扼流圈)
- 二极管 > 整流器 > 二极管阵列(分立半导体
- 射频放大器(射频和无线)
- 端子块 > DIN 导轨,通道(连接器,互连器件
- 同轴连接器(射频) > 同轴连接器(RF)适配
- 固态继电器(继电器)
- 晶体管 > FET,MOSFET > 单 FET,MOSFET(分
- 麦克风(音频产品)
