摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。
射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道,实时查询射频微波器件代理商的真实库存,提供合理的行业价格,放心采购射频微波器件,是国内专业的射频微波芯片采购平台。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。
然而,长时间的交互暴露出两大显著问题:
首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;
其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

为此,摩尔线程提出了Round Attention,以解决这些问题。
首先,摩尔线程提出以轮次为分析单元研究AttADSANTEC代理商ention规律:
Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。
其次,摩尔线程提出了Round Attention推理流水线;
基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。
这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。
摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。
测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。


- SK 海力士完成与英特尔最终交割,半导体产业格局新变化
- 奥迪裁员风暴:7500 人面临转岗 豪华车市场寒气逼人
- 安森美果断出手,成功收购 Qorvo 旗下 SiC JFET 技术,强化自身技术实力
- AI 投资热潮暗藏危机!专家警告:算力泡沫可能引发新一轮技术寒冬
- 肖特集团 2024 财年逆势前行,稳健拓展彰显韧性与实力
- LG 电子 OLED 称王:高端电视市占率突破 45% 击败索尼三星
- 长安汽车在中东市场火力全开,2024 年销量同比飙升 51%,展现强劲增长势头
- 是德科技 109 亿收购案落定!测试测量巨头整合完成,5G-A 测试成焦点
- 英飞凌 200mm 碳化硅(SiC)里程碑:首批产品交付,碳化硅技术再进阶
- 苹果 M4 Ultra 芯片胎死腹中?三大致命缺陷曝光:散热 / 成本 / 架构
- 英特尔施压,台积电被迫合作?且看台积电如何施展浑身解数,在合作中谋求自保与突破
- SK 海力士亮剑 HBM4!12 层堆叠技术登顶,下半年产能或达 10 万片 / 月
同轴电缆(射频)(电缆组件)
同轴连接器(射频) > 同轴连接器(RF)适配
二极管 > 整流器 > 二极管阵列(分立半导体
固定电感器(电感器,线圈,扼流圈)
端子块 > 专用(连接器,互连器件)
RF 定向耦合器(射频和无线)
电源管理(PMIC) > 栅极驱动器(集成电路(
同轴电缆(射频)(电缆组件)
接近传感器 - 工业(传感器,变送器)
射频收发器模块和调制解调器(射频和无线)
PTC 可复位保险丝(电路保护)
圆形连接器 > 圆形连接器组件(连接器,互连























