摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。
射频微波器件采购网(www.ic-king.com)专注整合国内外厂商的现货渠道,实时查询射频微波器件代理商的真实库存,提供合理的行业价格,放心采购射频微波器件,是国内专业的射频微波芯片采购平台。

近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。
然而,长时间的交互暴露出两大显著问题:
首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;
其次,尽管键值(KV)缓存技术能缓解冗余计算,但显著增加的GPU内存需求,导致推理批处理规模受限,同时GPU利用率低下。

为此,摩尔线程提出了Round Attention,以解决这些问题。
首先,摩尔线程提出以轮次为分析单元研究AttADSANTEC代理商ention规律:
Round Attention专为多轮对话场景推理需求设计,以轮次为自然边界划分KV缓存。研究发现,轮次粒度的Attention分布存在两个重要规律。
其次,摩尔线程提出了Round Attention推理流水线;
基于发现的两个规律,将稀疏性从Token级提升至块级,选取最相关的块参与attention计算,减少attention计算耗时,并将不相关的块卸载到CPU内存,以节省显存占用。
这在保持推理精度的情况下,减少了推理耗时,降低了显存占用。
摩尔线程认为,轮次块稀疏性有三大优势:自然边界的语义完整性、分水岭层的注意力稳定性、端到端的存储与传输优化。
测试显示,Round Attention的端到端延迟低于现在主流的Flash Attention推理引擎, kv-cache显存占用则节省55-82%,并且在主观评测和客观评测两个数据集上,模型推理准确率基本未受影响。


- 电动车革命进入深水区!充电技术 + 电池寿命双突破,续航焦虑成历史
- Manus 通用智能体刷屏:对话 + 图像 + 代码全能 日活破百万
- 智能家居下篇:1000 传感器构建未来生活,小米全屋智能方案落地
- “AI 教母” 挑战 DeepSeek!训练成本不到 50 美元,开源模型成新势力
- 华为云满血版 DeepSeek 上线!一键部署企业级 AI,推理速度提升 400%
- 斯巴鲁携手安森美,合作开发图像传感器,助力汽车科技升级
- 苹果三星超薄大战:7mm 机身挑战工业极限 谁能定义手机新形态?
- 传闻三星 2nm SF2 工艺初始良率达 30%,引发行业对其技术突破的期待
- iPhone 16 系列降价风暴:中国市场破局 苹果反击安卓阵营
- 全球巨头共赞!高通 X85 调制解调器震撼登场,合作伙伴纷纷畅言其引领 5G 新征程
- 台积电 A16 工艺 2026 量产!3nm 技术优化,功耗降低 40%
- 英特尔整合 ASML High-NA EUV 光刻设备,加速半导体制造技术升级
陶瓷电容器(电容器)
RF 配件(射频和无线)
EMI/RFI 滤波器(LC,RC 网络)(滤波器)
同轴电缆(射频)(电缆组件)
评估板 > 射频评估和开发套件,板(开发板,套件,编程器)
电源管理(PMIC) > 稳压器 - DC-DC 开关稳压器(集成电路(IC))
嵌入式 > CPLD(复杂可编程逻辑器件)(集成电路(IC))
二极管 > 整流器 > 二极管阵列(分立半导体)
PTC 可复位保险丝(电路保护)
专用隔离器(隔离器)
嵌入式 > 片上系统(SoC)(集成电路(IC))
同轴电缆(射频)(电缆组件)























