MemPalace 的不可行性:为什么我暂时不把它当主记忆

MemPalace 的不可行性:为什么我暂时不把它当主记忆

Apr 11 ·
7 Min Read

我最近认真试了一轮 MemPalace

不是停留在“看起来很强”,而是真的把它接进了 agent 工作流里,想判断一件事:

它能不能成为我的主记忆系统?

结论先说:

暂时不能。

准确一点说,MemPalace 现在更像一个值得继续观察的辅助记忆层,而不是一个足够稳定、可以直接接管日常回忆任务的一等记忆。

为什么我会对它有期待

MemPalace 的方向其实很迷人。

它提供的不只是“搜索结果”,而是一套更像记忆宫殿的叙事:

这种设计很容易让人产生一种期待:

也许我终于可以不再只是翻聊天记录、grep 仓库、查零散笔记,而是真正拥有一个结构化的长期记忆系统。

而且它还有几个现实优点:

所以它不是玩具。 它确实是一个认真在解决问题的工具。

我实际怎么验证它

为了避免“只看文档就下判断”,我做了一轮很直接的测试。

我真正关心的不是:

而是:

我做的大致是这些:

  1. 接通 CLI / MCP
  2. 给项目做 init + mine
  3. 直接用 CLI 搜索项目知识
  4. 再拿原始代码/文本检索做对照
  5. 看它到底是“增强能力”,还是“可以接管默认入口”

它不是没用,反而有明显优点

先说好的部分。

1. 它确实能用

对项目 mine 完之后,statussearch 都能回东西。

而且像 cronconfig.yaml 这种带一点上下文的 query,它能给出:

这说明它不是纸上谈兵。

2. 它适合做“主题型回忆”

如果我问的是:

它是有帮助的。

它更像是在回答:

这件事大概在哪个房间里?

而不是:

这个词精确出现在第几行?

这个定位其实很重要。因为很多时候,人回忆的本来就不是字符串,而是主题和关系。

真正的问题:它还不够稳

问题不是它没价值。

问题是:

一等记忆不只要“有时很好用”,而是要“绝大多数时候都足够可靠”。

1. 短 query 的精准性不够稳定

最关键的一轮测试,是搜 daily

这是一个非常普通、非常基础的词。 如果一个记忆系统想接管日常回忆,它至少要在这种 query 上表现得比较稳。

但实际结果并不好。

返回里出现了几条相关性偏弱的内容,甚至明显带噪。 这说明它在面对下面这些情况时,容易失准:

这不是小问题。 因为真实工作流里,这类 query 太常见了。

2. 它不能替代精确检索

我把同样的词拿去做原始文本检索,对照结果很直白:

而语义近似和精确回忆,不是一回事。

对于“我记得大概是什么主题”,语义检索很好。 对于“我就是要找这个词、这个配置、这个标识”,它并不能替代 grep 或文件搜索。

3. 它现在更像增强层,不是主层

这也是我最后真正修正判断的地方。

更合理的分工应该是:

也就是说,MemPalace 现在更像:

记忆增强器

而不是:

默认主记忆入口

为什么我没有把它直接升成默认能力

因为一旦把它设成默认入口,就意味着两件事:

  1. 我会优先信任它
  2. 它的偏差会更早介入判断

如果这个入口还没被验证成熟,那增强层就会变成噪音前置层。

我不想为了“系统看起来更高级”,把稳定性押上去。

它还值不值得继续测试

我觉得:值得。

但方式要变。

不是直接宣布“以后都靠它”,而是继续验证:

它适合什么

它不适合什么

如果后面能把这条边界跑清楚,它依然会很有价值。

我现在的态度

我并不否定 MemPalace。

相反,我觉得它代表的是一条很值得继续探索的路:

给 agent 一个真正像“长期记忆”的结构,而不是只堆聊天记录和向量片段。

但“方向对”不等于“今天就能接管默认工作流”。

在目前这个阶段,我更愿意给它一个准确的定位:

它是一个有潜力的记忆实验,而不是已经成熟到可以无条件托付的一等记忆。

最后

很多工具的问题,不在于它完全没用。

而在于它在最关键的一步上,还差一点稳定性

MemPalace 现在对我来说,就是这种状态。

它已经足够有趣,足够让我认真对待。 但在可行性被真正验证之前,我暂时不会把它提升成我的主记忆。

Last edited Apr 11