밀라 요보비치, 유료 AI 능가 오픈소스 기억 시스템 출시
할리우드 배우 밀라 요보비치가 모든 대화 내용을 요약 없이 그대로 저장하는 로컬 오픈소스 AI 메모리 시스템인 'MemPalace(메모리 팰리스)'를 무료로 공개했습니다. 이 시스템은 유료 서비스들을 제치고 긴 문맥 기억력을 평가하는 LongMemEval 벤치마크에서 96.6%의 역대 최고 기록을 달성했습니다. 프로젝트는 출시 초기의 과장된 홍보에 대해 솔직하게 인정하고 수정하는 투명한 태도를 보여주며, AI가 대화를 잊지 않도록 돕는 실용적인 솔루션을 제공합니다.
MemPalace(메모리 팰리스): 벤치마크 역사상 최고 점수를 기록한 AI 메모리 시스템. 그리고 완전 무료입니다.
AI와 나눈 모든 대화, 모든 결정, 모든 디버깅 과정, 모든 아키텍처 토론은 세션이 끝나면 사라집니다. 6개월간의 작업 기록이 한순간에 날아갑니다. 매번 처음부터 다시 시작해야만 합니다.
다른 메모리 시스템들은 AI가 무엇을 기억할 가치가 있는지 결정하도록 내버려 두는 방식으로 이 문제를 해결하려고 합니다. "사용자가 Postgres를 선호한다"는 정보만 추출해 내고, 왜 그것을 선호하는지 설명했던 대화의 맥락은 폐기해 버리는 식입니다.
MemPalace는 전혀 다른 접근 방식을 취합니다: 모든 것을 저장하고, 찾을 수 있게 만드는 것입니다.
팰리스(The Palace) — 고대 그리스 연설가들은 상상 속 건물의 여러 방에 아이디어들을 배치시켜 전체 연설문을 암기했습니다. 건물을 걸어 다니며 아이디어를 찾았죠. MemPalace는 이와 동일한 원리를 AI 메모리에 적용합니다. 당신의 대화는 윙(wings, 사람 및 프로젝트), 홀(halls, 기억의 유형), 룸(rooms, 특정 아이디어)으로 체계적으로 구성됩니다. AI가 무엇이 중요한지 결정하지 않습니다. 모든 단어를 그대로 보존하며, 이 구조는 평면적인 검색 인덱스가 아닌 탐색 가능한 지도를 제공합니다.
원문 그대로의 저장(Raw verbatim storage) — MemPalace는 요약이나 추출 과정 없이 ChromaDB에 실제 대화 내용을 그대로 저장합니다. 96.6%라는 LongMemEval 결과가 바로 이 원문 모드에서 나온 것입니다. 무엇이 '기억할 만한 가치'가 있는지 결정하기 위해 LLM을 낭비하지 않습니다. 모든 것을 보존하고 의미론적 검색(semantic search)을 통해 찾아내게 합니다.
AAAK (실험적 기능) — 대규모 환경에서 반복되는 엔티티(entity)를 더 적은 토큰으로 압축하기 위한 손실 압축(lossy) 약어 방언입니다. 텍스트를 읽을 수 있는 모든 LLM(Claude, GPT, Gemini, Llama, Mistral 등)이 읽을 수 있으며, 별도의 디코더가 필요 없습니다. AAAK는 기본 저장 방식이 아닌 별도의 압축 계층이며, 현재 LongMemEval 벤치마크에서는 원문 모드보다 성능이 저하됩니다 (84.2% vs 96.6%). 저희는 계속 개선하고 있습니다.
로컬, 오픈소스, 적응성 — MemPalace는 외부 API나 서비스를 사용하지 않고, 사용자의 컴퓨터에서 로컬 데이터를 대상으로 완전히 실행됩니다. 대화 내용에 대해 테스트되었지만 다른 유형의 데이터 저장소에도 적용할 수 있도록 조정할 수 있습니다. 이것이 저희가 오픈소스로 공개하는 이유입니다.
빠른 시작 · 팰리스 · AAAK 방언 · 벤치마크 · MCP 도구
유료든 무료든 발표된 LongMemEval 최고 점수입니다.
- 96.6% LongMemEval R@5 원문 모드, API 호출 제로(0)
- 500개 질문 테스트 독립적 재현 완료
- $0 (구독료 없음, 클라우드 없음, 로컬 전용)
- 재현성 — 벤치마크 실행 코드는 benchmarks/에 공개됨. 전체 결과 보기
- 96.6%는 원문 그대로의 모드에서 나온 것이며 AAAK나 룸 모드가 아님 (해당 모드들은 점수가 낮음 — 위 참고).
밀라(Milla) & 벤(Ben)의 메모 — 2026년 4월 7일 커뮤니티에서는 출시 후 몇 시간 만에 이 README에서 실제 문제점들을 찾아냈으며, 저희는 이를 직접적으로 다루고 인정하고 싶습니다.
저희가 틀렸던 부분:
- AAAK 토큰 예시가 잘못되었습니다. 실제 토크나이저 대신 대략적인 휴리스틱(len(text)//3)을 사용해 토큰 수를 계산했습니다. OpenAI 토크나이저를 통한 실제 토큰 수는 영어 예시가 66개, AAAK 예시가 73개입니다. AAAK는 소규모에서는 토큰을 절약하지 않으며 대규모 반복 엔티티를 위해 설계되었습니다. README의 예시는 이를 제대로 보여주지 못했습니다. 현재 수정 중입니다.
- "30배 무손실 압축"은 과장되었습니다. AAAK는 손실 압축 약어 시스템(엔티티 코드화, 문장 자르기)입니다. 독립적인 벤치마크에 따르면 AAAK 모드는 LongMemEval에서 원문 모드의 96.6%에 비해 84.2% R@5를 기록했으며, 이는 12.4 포인트의 성능 회귀입니다. 솔직한 표현은 다음과 같습니다: AAAK는 충실도를 토큰 밀도와 교환하는 실험적 압축 계층이며, 96.6%라는 제목의 수치는 AAAK가 아닌 RAW 모드에서 나온 것입니다.
- "+34% 팰리스 부스트"는 오해의 소지가 있었습니다. 이 수치는 필터링되지 않은 검색과 wing+room 메타데이터 필터링을 비교한 것입니다. 메타데이터 필터링은 새로운 검색 메커니즘이 아니라 표준 ChromaDB 기능입니다. 실제로 유용하지만 방어벽(경쟁 우위)은 아닙니다.
- "모순 감지"는 별도의 유틸리티(fact_checker.py)로 존재하지만, 현재 README가 암시했던 것처럼 지식 그래프 작업에 연동되어 있지는 않습니다.
- "Haiku 재순위화(re-rank) 사용 시 100%"는 실제 결과입니다(결과 파일이 있음). 하지만 이 재순위화 파이프라인은 공개 벤치마크 스크립트에 포함되어 있지 않습니다. 현재 추가 중입니다.
여전히 사실이며 재현 가능한 부분:
- 원문 모드에서 LongMemEval 96.6% R@5, 500개 질문, API 호출 제로(0) — M2 Ultra 환경에서 독립적으로 재현됨