Skip to content

长期记忆自动提取缺少语义去重,可能重复沉淀相近记忆 #599

@fennoai

Description

@fennoai

背景

在 issue #597 的讨论中,用户关注:如果之前已经存在相关长期记忆,后续一次运行结束后再次自动提取,是否会把语义相近的内容重复写入。

问题

当前实现已具备 fingerprint / 显式工具跳过等机制,但这些更偏调度层和消息层去重,未必能覆盖“语义相近但表述不同”的重复记忆。

风险

  • 长期记忆索引中出现多条语义重复内容
  • prompt 注入时噪声增大,降低召回质量
  • 占用 memo 条目容量,挤压更有价值的记忆

期望

  • 在写入长期记忆前增加语义级去重或合并策略
  • 明确重复判定规则,以及保留 / 覆盖 / 合并策略
  • 为自动提取与显式 memo_remember 建立一致的去重行为

可关注点

  • 仅靠标题或原文 hash 无法覆盖语义重复
  • 可以评估 embedding / LLM judge / 规则化归并等方案
  • 需要补充回归测试,覆盖“相同含义不同表述”的场景

关联讨论:#597

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions