메뉴
BL
r/singularity 53일 전

밀라 요보비치, 유료 AI 능가 오픈소스 기억 시스템 출시

IMP
7/10
핵심 요약

할리우드 배우 밀라 요보비치가 모든 대화 내용을 요약 없이 그대로 저장하는 로컬 오픈소스 AI 메모리 시스템인 'MemPalace(메모리 팰리스)'를 무료로 공개했습니다. 이 시스템은 유료 서비스들을 제치고 긴 문맥 기억력을 평가하는 LongMemEval 벤치마크에서 96.6%의 역대 최고 기록을 달성했습니다. 프로젝트는 출시 초기의 과장된 홍보에 대해 솔직하게 인정하고 수정하는 투명한 태도를 보여주며, AI가 대화를 잊지 않도록 돕는 실용적인 솔루션을 제공합니다.

번역된 본문

MemPalace(메모리 팰리스): 벤치마크 역사상 최고 점수를 기록한 AI 메모리 시스템. 그리고 완전 무료입니다.

AI와 나눈 모든 대화, 모든 결정, 모든 디버깅 과정, 모든 아키텍처 토론은 세션이 끝나면 사라집니다. 6개월간의 작업 기록이 한순간에 날아갑니다. 매번 처음부터 다시 시작해야만 합니다.

다른 메모리 시스템들은 AI가 무엇을 기억할 가치가 있는지 결정하도록 내버려 두는 방식으로 이 문제를 해결하려고 합니다. "사용자가 Postgres를 선호한다"는 정보만 추출해 내고, 왜 그것을 선호하는지 설명했던 대화의 맥락은 폐기해 버리는 식입니다.

MemPalace는 전혀 다른 접근 방식을 취합니다: 모든 것을 저장하고, 찾을 수 있게 만드는 것입니다.

팰리스(The Palace) — 고대 그리스 연설가들은 상상 속 건물의 여러 방에 아이디어들을 배치시켜 전체 연설문을 암기했습니다. 건물을 걸어 다니며 아이디어를 찾았죠. MemPalace는 이와 동일한 원리를 AI 메모리에 적용합니다. 당신의 대화는 윙(wings, 사람 및 프로젝트), 홀(halls, 기억의 유형), 룸(rooms, 특정 아이디어)으로 체계적으로 구성됩니다. AI가 무엇이 중요한지 결정하지 않습니다. 모든 단어를 그대로 보존하며, 이 구조는 평면적인 검색 인덱스가 아닌 탐색 가능한 지도를 제공합니다.

원문 그대로의 저장(Raw verbatim storage) — MemPalace는 요약이나 추출 과정 없이 ChromaDB에 실제 대화 내용을 그대로 저장합니다. 96.6%라는 LongMemEval 결과가 바로 이 원문 모드에서 나온 것입니다. 무엇이 '기억할 만한 가치'가 있는지 결정하기 위해 LLM을 낭비하지 않습니다. 모든 것을 보존하고 의미론적 검색(semantic search)을 통해 찾아내게 합니다.

AAAK (실험적 기능) — 대규모 환경에서 반복되는 엔티티(entity)를 더 적은 토큰으로 압축하기 위한 손실 압축(lossy) 약어 방언입니다. 텍스트를 읽을 수 있는 모든 LLM(Claude, GPT, Gemini, Llama, Mistral 등)이 읽을 수 있으며, 별도의 디코더가 필요 없습니다. AAAK는 기본 저장 방식이 아닌 별도의 압축 계층이며, 현재 LongMemEval 벤치마크에서는 원문 모드보다 성능이 저하됩니다 (84.2% vs 96.6%). 저희는 계속 개선하고 있습니다.

로컬, 오픈소스, 적응성 — MemPalace는 외부 API나 서비스를 사용하지 않고, 사용자의 컴퓨터에서 로컬 데이터를 대상으로 완전히 실행됩니다. 대화 내용에 대해 테스트되었지만 다른 유형의 데이터 저장소에도 적용할 수 있도록 조정할 수 있습니다. 이것이 저희가 오픈소스로 공개하는 이유입니다.

빠른 시작 · 팰리스 · AAAK 방언 · 벤치마크 · MCP 도구

유료든 무료든 발표된 LongMemEval 최고 점수입니다.

  • 96.6% LongMemEval R@5 원문 모드, API 호출 제로(0)
  • 500개 질문 테스트 독립적 재현 완료
  • $0 (구독료 없음, 클라우드 없음, 로컬 전용)
  • 재현성 — 벤치마크 실행 코드는 benchmarks/에 공개됨. 전체 결과 보기
  • 96.6%는 원문 그대로의 모드에서 나온 것이며 AAAK나 룸 모드가 아님 (해당 모드들은 점수가 낮음 — 위 참고).

밀라(Milla) & 벤(Ben)의 메모 — 2026년 4월 7일 커뮤니티에서는 출시 후 몇 시간 만에 이 README에서 실제 문제점들을 찾아냈으며, 저희는 이를 직접적으로 다루고 인정하고 싶습니다.

저희가 틀렸던 부분:

  • AAAK 토큰 예시가 잘못되었습니다. 실제 토크나이저 대신 대략적인 휴리스틱(len(text)//3)을 사용해 토큰 수를 계산했습니다. OpenAI 토크나이저를 통한 실제 토큰 수는 영어 예시가 66개, AAAK 예시가 73개입니다. AAAK는 소규모에서는 토큰을 절약하지 않으며 대규모 반복 엔티티를 위해 설계되었습니다. README의 예시는 이를 제대로 보여주지 못했습니다. 현재 수정 중입니다.
  • "30배 무손실 압축"은 과장되었습니다. AAAK는 손실 압축 약어 시스템(엔티티 코드화, 문장 자르기)입니다. 독립적인 벤치마크에 따르면 AAAK 모드는 LongMemEval에서 원문 모드의 96.6%에 비해 84.2% R@5를 기록했으며, 이는 12.4 포인트의 성능 회귀입니다. 솔직한 표현은 다음과 같습니다: AAAK는 충실도를 토큰 밀도와 교환하는 실험적 압축 계층이며, 96.6%라는 제목의 수치는 AAAK가 아닌 RAW 모드에서 나온 것입니다.
  • "+34% 팰리스 부스트"는 오해의 소지가 있었습니다. 이 수치는 필터링되지 않은 검색과 wing+room 메타데이터 필터링을 비교한 것입니다. 메타데이터 필터링은 새로운 검색 메커니즘이 아니라 표준 ChromaDB 기능입니다. 실제로 유용하지만 방어벽(경쟁 우위)은 아닙니다.
  • "모순 감지"는 별도의 유틸리티(fact_checker.py)로 존재하지만, 현재 README가 암시했던 것처럼 지식 그래프 작업에 연동되어 있지는 않습니다.
  • "Haiku 재순위화(re-rank) 사용 시 100%"는 실제 결과입니다(결과 파일이 있음). 하지만 이 재순위화 파이프라인은 공개 벤치마크 스크립트에 포함되어 있지 않습니다. 현재 추가 중입니다.

여전히 사실이며 재현 가능한 부분:

  • 원문 모드에서 LongMemEval 96.6% R@5, 500개 질문, API 호출 제로(0) — M2 Ultra 환경에서 독립적으로 재현됨
원문 보기
원문 보기 (영어)
MemPalace The highest-scoring AI memory system ever benchmarked. And it's free. Every conversation you have with an AI — every decision, every debugging session, every architecture debate — disappears when the session ends. Six months of work, gone. You start over every time. Other memory systems try to fix this by letting AI decide what's worth remembering. It extracts "user prefers Postgres" and throws away the conversation where you explained why . MemPalace takes a different approach: store everything, then make it findable. The Palace — Ancient Greek orators memorized entire speeches by placing ideas in rooms of an imaginary building. Walk through the building, find the idea. MemPalace applies the same principle to AI memory: your conversations are organized into wings (people and projects), halls (types of memory), and rooms (specific ideas). No AI decides what matters — you keep every word, and the structure gives you a navigable map instead of a flat search index. Raw verbatim storage — MemPalace stores your actual exchanges in ChromaDB without summarization or extraction. The 96.6% LongMemEval result comes from this raw mode. We don't burn an LLM to decide what's "worth remembering" — we keep everything and let semantic search find it. AAAK (experimental) — A lossy abbreviation dialect for packing repeated entities into fewer tokens at scale. Readable by any LLM that reads text — Claude, GPT, Gemini, Llama, Mistral — no decoder needed. AAAK is a separate compression layer, not the storage default , and on the LongMemEval benchmark it currently regresses vs raw mode (84.2% vs 96.6%). We're iterating. See the note above for the honest status. Local, open, adaptable — MemPalace runs entirely on your machine, on any data you have locally, without using any external API or services. It has been tested on conversations — but it can be adapted for different types of datastores. This is why we're open-sourcing it. Quick Start · The Palace · AAAK Dialect · Benchmarks · MCP Tools Highest LongMemEval score ever published — free or paid. 96.6% LongMemEval R@5 raw mode , zero API calls 500/500 questions tested independently reproduced $0 No subscription No cloud. Local only. Reproducible — runners in benchmarks/ . Full results . The 96.6% is from raw verbatim mode , not AAAK or rooms mode (those score lower — see note above ). A Note from Milla & Ben — April 7, 2026 The community caught real problems in this README within hours of launch and we want to address them directly. What we got wrong: The AAAK token example was incorrect. We used a rough heuristic ( len(text)//3 ) for token counts instead of an actual tokenizer. Real counts via OpenAI's tokenizer: the English example is 66 tokens, the AAAK example is 73. AAAK does not save tokens at small scales — it's designed for repeated entities at scale , and the README example was a bad demonstration of that. We're rewriting it. "30x lossless compression" was overstated. AAAK is a lossy abbreviation system (entity codes, sentence truncation). Independent benchmarks show AAAK mode scores 84.2% R@5 vs raw mode's 96.6% on LongMemEval — a 12.4 point regression. The honest framing is: AAAK is an experimental compression layer that trades fidelity for token density, and the 96.6% headline number is from RAW mode, not AAAK . "+34% palace boost" was misleading. That number compares unfiltered search to wing+room metadata filtering. Metadata filtering is a standard ChromaDB feature, not a novel retrieval mechanism. Real and useful, but not a moat. "Contradiction detection" exists as a separate utility ( fact_checker.py ) but is not currently wired into the knowledge graph operations as the README implied. "100% with Haiku rerank" is real (we have the result files) but the rerank pipeline is not in the public benchmark scripts. We're adding it. What's still true and reproducible: 96.6% R@5 on LongMemEval in raw mode , on 500 questions, zero API calls — independently reproduced on M2 Ultra in under 5 minutes by @gizmax . Local, free, no subscription, no cloud, no data leaving your machine. The architecture (wings, rooms, closets, drawers) is real and useful, even if it's not a magical retrieval boost. What we're doing: Rewriting the AAAK example with real tokenizer counts and a scenario where AAAK actually demonstrates compression Adding mode raw / aaak / rooms clearly to the benchmark documentation so the trade-offs are visible Wiring fact_checker.py into the KG ops so the contradiction detection claim becomes true Pinning ChromaDB to a tested range (Issue #100), fixing the shell injection in hooks (#110), and addressing the macOS ARM64 segfault (#74) Thank you to everyone who poked holes in this. Brutal honest criticism is exactly what makes open source work, and it's what we asked for. Special thanks to @panuhorsmalahti , @lhl , @gizmax , and everyone who filed an issue or a PR in the first 48 hours. We're listening, we're fixing, and we'd rather be right than impressive. — Milla Jovovich & Ben Sigman Quick Start pip install mempalace # Set up your world — who you work with, what your projects are mempalace init ~ /projects/myapp # Mine your data mempalace mine ~ /projects/myapp # projects — code, docs, notes mempalace mine ~ /chats/ --mode convos # convos — Claude, ChatGPT, Slack exports mempalace mine ~ /chats/ --mode convos --extract general # general — classifies into decisions, milestones, problems # Search anything you've ever discussed mempalace search " why did we switch to GraphQL " # Your AI remembers mempalace status Three mining modes: projects (code and docs), convos (conversation exports), and general (auto-classifies into decisions, preferences, milestones, problems, and emotional context). Everything stays on your machine. How You Actually Use It After the one-time setup (install → init → mine), you don't run MemPalace commands manually. Your AI uses it for you. There are two ways, depending on which AI you use. With Claude, ChatGPT, Cursor, Gemini (MCP-compatible tools) # Connect MemPalace once claude mcp add mempalace -- python -m mempalace.mcp_server Now your AI has 19 tools available through MCP. Ask it anything: "What did we decide about auth last month?" Claude calls mempalace_search automatically, gets verbatim results, and answers you. You never type mempalace search again. The AI handles it. MemPalace also works natively with Gemini CLI (which handles the server and save hooks automatically) — see the Gemini CLI Integration Guide . With local models (Llama, Mistral, or any offline LLM) Local models generally don't speak MCP yet. Two approaches: 1. Wake-up command — load your world into the model's context: mempalace wake-up > context.txt # Paste context.txt into your local model's system prompt This gives your local model ~170 tokens of critical facts (in AAAK if you prefer) before you ask a single question. 2. CLI search — query on demand, feed results into your prompt: mempalace search " auth decisions " > results.txt # Include results.txt in your prompt Or use the Python API: from mempalace . searcher import search_memories results = search_memories ( "auth decisions" , palace_path = "~/.mempalace/palace" ) # Inject into your local model's context Either way — your entire memory stack runs offline. ChromaDB on your machine, Llama on your machine, AAAK for compression, zero cloud calls. The Problem Decisions happen in conversations now. Not in docs. Not in Jira. In conversations with Claude, ChatGPT, Copilot. The reasoning, the tradeoffs, the "we tried X and it failed because Y" — all trapped in chat windows that evaporate when the session ends. Six months of daily AI use = 19.5 million tokens. That's every decision, every debugging session, every architecture debate. Gone. Approach Tokens loaded Annual cost Paste everything 19.5M — doesn't fit any context window Impossible LLM summaries ~650K ~$507/yr MemPalace wake-up ~170 tokens ~$0.70/yr MemPalace + 5 searches ~13,500 tokens ~$10/y