推广 热搜： 采购方式甲带滤芯气动隔膜泵带式称重给煤机减速机型号减速机链式给煤机履带无级变速机

Meta新发现: 大模型如何通过记忆提升表现

日期：2025-11-01 17:57:51 来源：网络整理作者：本站编辑评论：0

Meta在其新论文Continual Learning via Sparse Memory Finetuning中展示了如何对记忆层进行稀疏微调，从而能够针对不断学习进行有针对性的更新，同时对现有知识的影响极小。
虽然全面微调和 LoRA 在测试任务中的表现大幅下降（事实学习任务方面：微调 -89%，LoRA -71%），但记忆层的学习效果却保持不变，且遗忘程度大幅降低（-11%）。

研究背景：要学习新知识，我们无需对大型模型的所有参数进行精细调整。这促使出现了参数效率高的持续学习/记忆方法，比如 LoRA 和 Cartridges，它们会在模型中添加一小部分参数。然而，LoRA 的容量天生就较小——一个小型的适配器无法适用于长期学习的需求。

P2：在本文中，作者展示了近期提出的记忆层架构如何提供一种潜在的解决方案：用一个稀疏注意力查找机制来替代全连接神经网络（FFN），该查找机制会从一个庞大的已学习的记忆键值池中进行查找。这个架构能够对每个输入项所更新的参数进行精细控制。

P3: 利用这种稀疏性，作者提议仅更新那些特定于某一特定输入的内存槽位——这些槽位在该输入上被频繁访问，但在其他数据（例如预训练数据）上访问频率较低，并且利用 TFIDF 对这些槽位进行排序。这实现了记忆的选择性。当了解到有关贝拉克·奥巴马的新信息时，我们只需要微调那些“存储”该信息的槽位，而无需触及那些负责例如了解如何编程等功能的参数。

P4：作者针对两个持续性的事实学习任务进行了评估：从一系列“TriviaQA”事实数据中进行学习，以及从“SimpleQA”中的一系列维基百科文档中进行学习。稀疏记忆微调的效果与完全微调和 LoRA 一样好，但在未测试任务中的表现却要好得多，而且还能实现有选择性的更新，从而减少了性能的下降。

?Paper: arxiv.org/abs/2510.15103
Blog：https://jessylin.com/2025/10/20/continual-learning/
#博士生 #大模型 #gpt #持续学习 #论文分享 #meta #lora #多模态人工智能 #ai

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行