Reddit, MemPalace를 memory infrastructure 이슈로 띄우다… 핵심은 96.6% raw score와 README self-correction
Original: An actress Milla Jovovich just released a free open-source AI memory system that scored 100% on LongMemEval, beating every paid solution View original →
높은 추천을 받은 r/singularity post는 MemPalace를 메인 AI 피드로 끌어올리며 “무료 open-source AI memory system이 LongMemEval 100%를 기록했고 paid product까지 앞섰다”는 강한 headline을 붙였다. 연결된 GitHub repo는 장기 memory retrieval에 관한 인상적인 수치를 제시하지만, 더 흥미로운 부분은 maintainers가 launch 직후 README 안에서 스스로 claim을 다시 좁혔다는 점이다.
MemPalace의 핵심 아이디어는 LLM에게 무엇을 기억할지 먼저 고르게 하지 않는 것이다. 대신 raw conversation text를 local에 ChromaDB로 저장하고, 나중에 retrieval로 필요한 구절을 찾는다. README와 benchmark document에 따르면 system은 raw verbatim mode에서 API call 없이 LongMemEval recall@5 96.6%를 기록했고, optional한 Haiku 또는 Sonnet rerank를 붙이면 100%까지 도달할 수 있다고 한다. maintainers는 이를 현재 AI-memory tool 업계의 기본 가정, 즉 다른 model이 먼저 fact나 summary를 추출해 context를 버려야 한다는 생각에 대한 반론으로 제시한다.
이 이야기가 pure hype로만 끝나지 않은 이유는 repo의 own correction note 때문이다. 2026년 4월 7일자 note에서 maintainers는 기존 README가 “30x lossless compression” 표현을 과장했고, AAAK token-count example도 잘못됐으며, raw mode 96.6%와 rerank result를 충분히 구분하지 못했다고 인정했다. 또 “100% with Haiku rerank” 결과는 실제로 존재하지만, note 시점에는 public benchmark scripts에 그 pipeline이 아직 fully reflected되지 않았다고 적었다. 이 caveat는 중요하다. repo는 state-of-the-art를 주장하는 동시에, launch 시점의 presentation이 공개 재현 경로보다 앞서 나간 부분도 문서로 남기고 있는 셈이다.
그런데도 Reddit가 반응한 이유
그럼에도 Reddit가 크게 반응한 이유는 이해하기 어렵지 않다. subscription 없이, data를 device에 남겨 두고, MCP tools를 노출하면서, cloud-heavy memory product와 경쟁할 수 있다는 이야기는 지금 AI power users가 가장 듣고 싶어 하는 infrastructure narrative다. 이 post는 celebrity gossip보다는 시장 신호에 가까웠다. developers는 increasingly summary-first memory system에 회의적이고, MemPalace는 raw-first baseline이 더 강할 수 있다고 주장한다. 무엇보다 repo가 스스로 correction을 남기면서 trade-off를 숨기지 않았다는 점이, 오히려 이 project를 더 진지한 토론 대상으로 만들고 있다.
Related Articles
Hacker News에 오른 Nanocode는 tokenizer training, pretraining, synthetic data generation, agentic SFT, DPO를 pure JAX와 TPU workflow로 묶어 Claude Code 스타일 coding model을 재현하려는 end-to-end open project다.
Hacker News의 Show HN 글이 8.7M 파라미터, 60K 합성 대화 데이터셋, Colab 노트북을 갖춘 GuppyLM을 조명했다. 목표는 성능 경쟁이 아니라 LLM 훈련 과정을 블랙박스가 아닌 학습 가능한 절차로 보여주는 데 있다.
LocalLLaMA에서는 Gemma 4 초기 문제의 일부가 model 자체보다 llama.cpp runtime bugs와 support lag에서 비롯됐을 수 있다는 지적이 나왔다. 여러 pull request와 user report가 early benchmark를 다시 해석해야 한다는 근거로 제시됐다.
Comments (0)
No comments yet. Be the first to comment!