DeepSeek V4最大的遗憾

一、什么是 Engram？一句话解释

Engram，就是给 Transformer 加一个「原生知识查表模块」。

能查的别算，先查一下。

就像你做数学题，该用的公式不必每次从头推导，翻表代进去就行。

Transformer 之前没有这张表，只能每道题都从公理一步步走。Engram 等于把这张表直接交到模型手里。

DeepSeek 团队的核心观察：语言建模包含两种完全不同的任务。

第一种：需要深度动态计算的组合推理（比如解一道数学题）。

第二种：检索静态知识（比如知道「伦敦是英国首都」）。

之前的问题是，Transformer 把这两件事混在一起做。

模型识别「戴安娜王妃」，得走 6 层网络，先纠结一堆中间状态，最后一层才反应过来——这是戴安娜。

这种「用昂贵的运行时计算重建静态查找表」的苦力活，本来可以让深层网络去干更高阶的推理。

Engram 的做法：在 Transformer 第 2 层和第 15 层之间各插入一个查表模块，输入触发哈希查找，直接取出对应向量。

查不到？门控机制自动屏蔽。

团队做了一个关键实验：固定总参数，让 MoE 专家和 Engram 记忆「抢预算」，得到一条 U 形曲线。

结论：纯 MoE 不是最优解。把 20%-25% 的稀疏参数分给 Engram，模型 loss 达到最低点。

效果：

更关键的是，Engram 把模型早期层从「重建静态知识」的苦力活中解放出来——变相把网络加深了。

这就是最大的遗憾。

V4 技术报告里有 mHC、CSA、HCA、Muon、FP4……唯独没有 Engram。

网友第一时间 command+F 搜索，结果：没有。

但 Engram 没有消失。三个月里，三条路在铺：

CXL 内存池化版本：北大、阿里云联合研究，把 Engram 放进多机共享的 CXL 内存池，解决多机部署存储问题。8 台服务器共享 4TB 内存池，吞吐损失小于 5%。
无冲突热层实验：独立研究者 Tao Lin 证伪了一个「看似显然」的优化方向——消除哈希冲突并不稳定提升模型表现。
视觉 Tiny Engram：AutoArk 团队把 Engram 从文本搬到 Stable Diffusion，达到同等效果只需 LoRA 15%-30% 的额外参数。

发明者最沉默，跟进者各自走了一步。

Engram 的本质，其实是「分类思想」——把「查」和「算」分开。

这在商业管理里，叫「让专业的人做专业的事」。

在 AI 架构里，这叫「条件记忆」。

DeepSeek 团队在论文结尾写了一句话：

"我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。"

下一代，可能是 V5，也可能是 V4.1。

但方向已经明确了——

与其让大模型每次从头算一遍「伦敦是英国首都」，不如让它查一下。

省下来的算力，去做更难的事。

这不只是技术思路，也是一种人生哲学。

本文引用的来源均为公开报道，供读者进一步阅读。