研究人员开发出一种创新性的内存压缩技术,能够提升人工智能模型在复杂任务中的准确率,同时显著节省能耗。
近日,爱丁堡大学与英伟达的专家团队取得一项重要突破:他们发现,在对大语言模型进行内存压缩后,即使其占用内存仅为未压缩模型的八分之一,在数学、科学及编程类测试中的表现反而更优,且推理耗时保持不变。
该方法为处理更多用户查询提供了新的可行路径,有助于降低单次任务所需的计算功耗。研究人员指出,除了节能效益,该技术还能增强人工智能系统在复杂任务中的处理能力,并适用于内存带宽有限或存储速度较慢的设备,例如智能家居终端与可穿戴设备。
技术背景:推理过程中的内存瓶颈
人工智能模型通常通过并行生成多条“推理线程”——即逐步解决问题的逻辑链,并以文本形式呈现——来提升其问题解决能力。在此过程中,模型需要将已生成的部分推理内容存储在名为“键值缓存”的内存中。然而,随着线程数量增加或线程长度扩展,键值缓存占用的内存急剧上升,导致从存储单元中检索数据的速度变慢,从而拖累整体推理效率。
动态稀疏化内存技术
为应对这一挑战,研究团队提出了一种名为“动态稀疏化内存”的创新压缩方法。该技术并非保留所有数据单元,而是动态评估各数据单元的重要性,仅保留关键部分,剔除冗余内容。在执行删除操作前,系统会预留一段极短的延迟时间,使得被删除数据中的有价值信息可转移至保留的数据单元中,从而减少信息损失。
通过智能管理数据的保留与丢弃,动态稀疏化内存使AI模型能够在无需额外计算资源的条件下,进行更深入的“思考”,或探索更多可能的解决方案。
实验验证与性能提升
研究团队在 Llama 与 Qwen 等多个AI模型版本上测试了动态稀疏化内存的效果,并与未压缩的原始模型进行对比。评估基于一系列标准化测试展开。结果显示,即使将内存压缩至原大小的八分之一,大语言模型在困难任务中的准确率仍完全保持,同时推理速度相比未压缩模型有所提升。
具体而言,在作为美国数学奥林匹克预赛的 AIME 24 数学测试中,压缩模型在相同键值缓存读取量的条件下,平均成绩提高了12分。在面对由博士级别专家编制的生物、化学、物理复杂题库 GPQA Diamond 时,模型成绩提升达8分。而在衡量编程能力的 LiveCode Bench 测试中,压缩模型平均得分较未压缩模型高出10分。
学者观点
爱丁堡大学信息学院自然语言处理方向的博士后研究员兼讲师爱德华多·庞蒂博士表示:“简而言之,我们的模型能够在保持输出质量不变的前提下更快地进行推理。这意味着在相同的推理时间预算内,它们能够探索更多、更长的推理路径,从而显著增强解决数学、科学及编程等领域复杂问题的能力。”
此项研究成果已通过同行评审,并在人工智能顶级会议 NeurIPS 上发表。庞蒂博士及其团队将继续深入研究大型AI系统如何更高效地表示与记忆信息,该工作也是欧洲研究委员会资助的150万欧元项目“AToM-FM”的重要组成部分,旨在推动AI系统向更高效、更可持续的方向发展。

