一、什么是 Engram?一句话解释
Engram,就是给 Transformer 加一个「原生知识查表模块」。
能查的别算,先查一下。
就像你做数学题,该用的公式不必每次从头推导,翻表代进去就行。
Transformer 之前没有这张表,只能每道题都从公理一步步走。Engram 等于把这张表直接交到模型手里。
二、为什么它能省算力、提效果?
DeepSeek 团队的核心观察:语言建模包含两种完全不同的任务。
第一种:需要深度动态计算的组合推理(比如解一道数学题)。
第二种:检索静态知识(比如知道「伦敦是英国首都」)。
之前的问题是,Transformer 把这两件事混在一起做。
模型识别「戴安娜王妃」,得走 6 层网络,先纠结一堆中间状态,最后一层才反应过来——这是戴安娜。
这种「用昂贵的运行时计算重建静态查找表」的苦力活,本来可以让深层网络去干更高阶的推理。
Engram 的做法:在 Transformer 第 2 层和第 15 层之间各插入一个查表模块,输入触发哈希查找,直接取出对应向量。
查不到?门控机制自动屏蔽。
三、实验结果有多惊艳?
团队做了一个关键实验:固定总参数,让 MoE 专家和 Engram 记忆「抢预算」,得到一条 U 形曲线。
结论:纯 MoE 不是最优解。把 20%-25% 的稀疏参数分给 Engram,模型 loss 达到最低点。
效果:
- 知识任务:MMLU +3.4,CMMLU +4.0
- 推理任务(超出预期):BBH +5.0,ARC-Challenge +3.7
- 代码:HumanEval +3.0
- 数学:MATH +2.4
- 长上下文:Multi-Query NIAH 从 84.2% 跃升到 97.0%
更关键的是,Engram 把模型早期层从「重建静态知识」的苦力活中解放出来——变相把网络加深了。
四、那 V4 为什么没用 Engram?
这就是最大的遗憾。
V4 技术报告里有 mHC、CSA、HCA、Muon、FP4……唯独没有 Engram。
网友第一时间 command+F 搜索,结果:没有。
但 Engram 没有消失。三个月里,三条路在铺:
- CXL 内存池化版本:北大、阿里云联合研究,把 Engram 放进多机共享的 CXL 内存池,解决多机部署存储问题。8 台服务器共享 4TB 内存池,吞吐损失小于 5%。
- 无冲突热层实验:独立研究者 Tao Lin 证伪了一个「看似显然」的优化方向——消除哈希冲突并不稳定提升模型表现。
- 视觉 Tiny Engram:AutoArk 团队把 Engram 从文本搬到 Stable Diffusion,达到同等效果只需 LoRA 15%-30% 的额外参数。
发明者最沉默,跟进者各自走了一步。
五、半百观视角:50 岁看 AI 架构演进
Engram 的本质,其实是「分类思想」——把「查」和「算」分开。
这在商业管理里,叫「让专业的人做专业的事」。
在 AI 架构里,这叫「条件记忆」。
DeepSeek 团队在论文结尾写了一句话:
"我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。"
下一代,可能是 V5,也可能是 V4.1。
但方向已经明确了——
与其让大模型每次从头算一遍「伦敦是英国首都」,不如让它查一下。
省下来的算力,去做更难的事。
这不只是技术思路,也是一种人生哲学。
📚 引用来源
- arXiv Engram: Augmenting LLMs with Conditioned Memory
- DeepSeek DeepSeek-V4 Technical Report
- 阿里云研究院 北大、阿里云:CXL 内存池化与 Engram 结合研究
本文引用的来源均为公开报道,供读者进一步阅读。