DeepSeek V4最大的遗憾

为什么所有人都盼着 Engram,它却没来?——一个给 Transformer「加外挂字典」的天才想法

一、什么是 Engram?一句话解释

Engram,就是给 Transformer 加一个「原生知识查表模块」。

能查的别算,先查一下。

就像你做数学题,该用的公式不必每次从头推导,翻表代进去就行。

Transformer 之前没有这张表,只能每道题都从公理一步步走。Engram 等于把这张表直接交到模型手里。

二、为什么它能省算力、提效果?

DeepSeek 团队的核心观察:语言建模包含两种完全不同的任务。

第一种:需要深度动态计算的组合推理(比如解一道数学题)。

第二种:检索静态知识(比如知道「伦敦是英国首都」)。

之前的问题是,Transformer 把这两件事混在一起做。

模型识别「戴安娜王妃」,得走 6 层网络,先纠结一堆中间状态,最后一层才反应过来——这是戴安娜。

这种「用昂贵的运行时计算重建静态查找表」的苦力活,本来可以让深层网络去干更高阶的推理。

Engram 的做法:在 Transformer 第 2 层和第 15 层之间各插入一个查表模块,输入触发哈希查找,直接取出对应向量。

查不到?门控机制自动屏蔽。

三、实验结果有多惊艳?

团队做了一个关键实验:固定总参数,让 MoE 专家和 Engram 记忆「抢预算」,得到一条 U 形曲线。

结论:纯 MoE 不是最优解。把 20%-25% 的稀疏参数分给 Engram,模型 loss 达到最低点。

效果:

  • 知识任务:MMLU +3.4,CMMLU +4.0
  • 推理任务(超出预期):BBH +5.0,ARC-Challenge +3.7
  • 代码:HumanEval +3.0
  • 数学:MATH +2.4
  • 长上下文:Multi-Query NIAH 从 84.2% 跃升到 97.0%

更关键的是,Engram 把模型早期层从「重建静态知识」的苦力活中解放出来——变相把网络加深了。

四、那 V4 为什么没用 Engram?

这就是最大的遗憾。

V4 技术报告里有 mHC、CSA、HCA、Muon、FP4……唯独没有 Engram。

网友第一时间 command+F 搜索,结果:没有。

但 Engram 没有消失。三个月里,三条路在铺:

  • CXL 内存池化版本:北大、阿里云联合研究,把 Engram 放进多机共享的 CXL 内存池,解决多机部署存储问题。8 台服务器共享 4TB 内存池,吞吐损失小于 5%。
  • 无冲突热层实验:独立研究者 Tao Lin 证伪了一个「看似显然」的优化方向——消除哈希冲突并不稳定提升模型表现。
  • 视觉 Tiny Engram:AutoArk 团队把 Engram 从文本搬到 Stable Diffusion,达到同等效果只需 LoRA 15%-30% 的额外参数。

发明者最沉默,跟进者各自走了一步。

五、半百观视角:50 岁看 AI 架构演进

Engram 的本质,其实是「分类思想」——把「查」和「算」分开。

这在商业管理里,叫「让专业的人做专业的事」。

在 AI 架构里,这叫「条件记忆」。

DeepSeek 团队在论文结尾写了一句话:

"我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。"

下一代,可能是 V5,也可能是 V4.1。

但方向已经明确了——

与其让大模型每次从头算一遍「伦敦是英国首都」,不如让它查一下。

省下来的算力,去做更难的事。

这不只是技术思路,也是一种人生哲学。

📚 引用来源

本文引用的来源均为公开报道,供读者进一步阅读。

关注「半百观AI」

50 岁视角看 AI 工具落地实践,全平台同步更新

💬
微信公众号 深度图文、AI 工具测评
半百观AI
🎥
视频号 1-3 分钟 AI 教程
半百观AI
🎵
抖音 AI 效率提升短视频
半百观AI
📰
今日头条 AI 实践分享
半百观AI
🍉
西瓜视频 AI 项目实操
半百观AI
📺
B 站 AI 技术深度解析
半百观AI
📕
小红书 AI 工具推荐清单
半百观AI

🔍 在各平台搜索"半百观AI"即可找到我们