오픈마이토스: 770M 파라미터로 1.3B 모델 맞먹는 성능 구현
오픈소스 프로젝트 '오픈마이토스(OpenMythos)'는 클로드 마이토스(Claude Mythos) 아키텍처를 반복-깊이 트랜스포머(RDT) 이론에 기반해 코드로 처음 재구현한 결과물입니다. 이 모델은 동일한 가중치를 여러 번 반복 적용해 연산 깊이를 확보하는 방식을 사용하여, 770M 파라미터라는 적은 크기로도 1.3B 파라미터를 가진 기존 트랜스포머와 동등한 성능을 냅니다. 완전한 오픈소스로 공개되어 AI 아키텍처 설계의 새로운 가능성을 제시한다는 점에서 큰 의미를 갖습니다.
에디터 추천: 에이전트 AI, 인공지능, AI 인프라 기술, AI 쇼츠, 애플리케이션, 언어 모델, 대형 언어 모델(LLM), 머신러닝, 신규 출시, 오픈소스, 소프트웨어 엔지니어링, 스태프 기술 뉴스
앤스로픽(Anthropic)은 클로드 마이토스(Claude Mythos)에 대한 기술 논문을 발표한 적이 없습니다. 하지만 이것이 연구 커뮤니티가 이론을 세우는 것을 막지는 못했습니다. Kye Gomez이 깃허브(GitHub)에 공개한 새로운 오픈소스 프로젝트인 '오픈마이토스(OpenMythos)'는 야심 찬 시도를 합니다. 동료 평가 논문(Peer-reviewed research)을 기반으로 파이토치(PyTorch)로 완전히 구축된, 클로드 마이토스 아키텍처의 실제 모습에 대한 제1원리(first-principles) 이론적 재구성입니다.
이 프로젝트는 유출된 모델, 미세조정(fine-tune) 모델 또는 증류(distillation) 모델이 아닙니다. 이는 코드로 구현된 가설입니다. 그리고 이 가설은 반증 가능할(falsifiable) 만큼 구체적입니다. 이것이 바로 이 프로젝트가 흥미로운 이유입니다.
주요 주장: 클로드 마이토스는 반복-깊이 트랜스포머(Recurrent-Depth Transformer)이다 오픈마이토스는 클로드 마이토스가 문헌에서 루프드 트랜스포머(Looped Transformers)라고도 불리는 '반복-깊이 트랜스포머(RDT)'라는 아키텍처 부류에 속한다고 제안합니다. 이 개념은 표준 트랜스포머 스택과는 확연히 다릅니다. GPT, LLaMA, 미스트랄(Mistral)과 같은 기존 트랜스포머에서는 모델이 고유한 레이어들의 시퀀스를 통해 입력을 통과시키며, 각 레이어는 자체적인 독립적인 가중치를 가집니다. 일반적으로 기능이 뛰어나다는 것은 더 많은 레이어와 더 많은 파라미터를 의미합니다.
반면 반복-깊이 트랜스포머에서는 고정된 가중치 세트가 단일 순전파(forward pass) 내에서 T번의 루프 단계에 걸쳐 반복적으로 적용됩니다. 즉, 동일한 가중치가 여러 번 실행되는 것입니다. 여기서 추론 깊이는 저장된 파라미터의 수에 따라 결정되는 것이 아니라, 추론 시 실행되는 반복 횟수에 따라 결정됩니다. 책을 읽는 것보다는 초안을 다듬는 것에 가깝게 생각하면 됩니다. 모델이 동일한 계산 블록으로 계속 돌아가면서 매 패스마다 내부 표현을 개선하는 식입니다.
아키텍처의 구조 오픈마이토스는 이를 세 부분 구조로 구현합니다: 전주곡(Prelude) → 반복 블록(Recurrent Block) → 코다(Coda). 전주곡과 코다는 정확히 한 번만 실행되는 표준 트랜스포머 레이어입니다. 반복 블록은 계산의 핵심으로, 최대 T=16번까지 루프가 돕니다. 각 루프 단계 t에서 은닉 상태(hidden state)는 다음 규칙을 사용하여 업데이트됩니다.
h_t+1 = A·h_t + B·e + Transformer(h_t, e)
여기서 h_t는 루프 반복 t 이후의 은닉 상태이며, e는 전주곡(Prelude)에서 나온 인코딩된 입력으로, 매 단계마다 다시 주입됩니다. 이러한 재주입은 의도적인 것입니다. 재주입이 없다면 깊은 루프를 거치면서 은닉 상태가 원래의 입력 신호에서 멀어지게(표류하게) 됩니다. 학습된 행렬 A와 B는 이전 은닉 상태와 인코딩된 입력이 각 단계에서 얼마나 전달되는지를 제어합니다.
반복 블록 내부의 FFN(피드포워드 신경망)은 표준 피드포워드 레이어가 아닙니다. 오픈마이토스는 DeepSeekMoE에서 도입된 설계를 따르는 혼합 전문가(MoE, Mixture-of-Experts) 레이어로 이를 대체합니다. 즉, 세분화된 라우팅된 전문가(routed experts)들의 큰 풀을 두고, 토큰당 희소(sparsely) 상위-K(top-K) 하위 집합만 활성화하며, 교차 도메인 패턴을 흡수하는 항상 활성화된 공유 전문가(small set of always-active shared experts)들의 작은 세트를 함께 둡니다.
결정적으로, 라우터는 각 루프 깊이에서 서로 다른 전문가 하위 집합을 선택합니다. 이는 기본 가중치를 공유함에도 불구하고 각 반복이 계산적으로 구별됨을 의미합니다. MoE는 도메인의 폭을 제공하고, 루핑은 추론 깊이를 제공합니다. 어텐션(Attention)은 기본적으로 DeepSeek-V2의 다중 잠재 어텐션(MLA, Multi-Latent Attention)을 따르며, 이는 전체 키/값 텐서 대신 압축된 저계수 KV 잠재(latent)를 캐시하여 프로덕션 규모에서 KV 메모리를 10~20배 줄여줍니다.
연속적인 잠재 공간에서의 추론 이 아키텍처의 가장 중요한 특징 중 하나는 추론이 완전히 연속적인 잠재 공간(continuous latent space)에서 이루어진다는 것입니다. 루프 단계 사이에 중간 토큰 생성이 없습니다. 즉, 모델이 생각의 중간에 텍스트를 생성한 다음 다시 읽지 않습니다. 이는 추론이 토큰 시퀀스로 외부화되는 '사고 사슬(chain-of-thought)' 프롬프팅과 구조적으로 다르며, Saunshi et al. (2025)과 COCONUT (2024)에서 공식적으로 분석된 바 있습니다. Saunshi et al. (2025)은 RDT의 각 루프 반복이 기능적으로 동등하다는 것을 공식적으로 보여줍니다.