摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。
射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道,实时查询射频微波器件代理商的真实库存,提供合理的行业价格,放心采购射频微波器件,是国内专业的射频微波芯片采购平台。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。
然而,长时间的交互暴露出两大显著问题:
首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;
其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

为此,摩尔线程提出了Round Attention,以解决这些问题。
首先,摩尔线程提出以轮次为分析单元研究AttADSANTEC代理商ention规律:
Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。
其次,摩尔线程提出了Round Attention推理流水线;
基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。
这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。
摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。
测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。


- 救英特尔,台积电的新机遇?韩媒担忧三星将面临更严峻挑战
- 台积电将推出新 CoWoS 封装技术:打造手掌大小高端芯片,封装技术创新
- 航嘉 Q10 拆解报告:真材实料越级性能,磁吸充电效率超 95%
- 英伟达 GB300 成本骤降:AI 芯片性价比革命 每机柜成本减少 35%
- iPhone 17 设计曝光:四款机型三种外观 灵动岛形态大改
- 中国成熟芯片反杀:28% 份额逼哭西方 14nm 以下制程良率超 95%
- Intel High-NA EUV 投产!2nm 制程产能规划曝光,台积电面临挑战
- OpenAI 正式发布 AI 视频生成工具 Sora,Plus 用户每月可生成 50 条,AI 视频新工具
- 消息称三星和 SK 海力士达成合作,联手推动 LPDDR6-PIM 内存,合作研发内存
- OpenAI 重磅出击,Operator 上线开启智能体模拟上网新战局
- 英伟达 Dynamo 开源:AI 工厂推理成本降低 60%
- 苹果 AI 负责人称公司对开发通用人工智能不感兴趣,短期内难实现,表明发展态度
同轴电缆(射频)(电缆组件)
温度传感器 > 温控器 - 机械式 - 工业(传感器,变送器)
同轴连接器(射频) > 同轴连接器(RF)适配器(连接器,互连器件)
固定电感器(电感器,线圈,扼流圈)
晶体管 > IGBT > 单 IGBT(分立半导体)
同轴电缆(射频)(电缆组件)
接口 > UART(通用异步接收器发送器)(集成电路(IC))
嵌入式 > CPLD(复杂可编程逻辑器件)(集成电路(IC))
晶闸管 > SCR 模块(分立半导体)
固定电感器(电感器,线圈,扼流圈)
接近传感器 - 工业(传感器,变送器)
风扇 > 防护网、滤网和套管(风扇,热管理)























