메뉴
BL
MarkTechPost 41일 전

오픈마이토스: 770M 파라미터로 1.3B 모델 맞먹는 성능 구현

IMP
8/10
핵심 요약

오픈소스 프로젝트 '오픈마이토스(OpenMythos)'는 클로드 마이토스(Claude Mythos) 아키텍처를 반복-깊이 트랜스포머(RDT) 이론에 기반해 코드로 처음 재구현한 결과물입니다. 이 모델은 동일한 가중치를 여러 번 반복 적용해 연산 깊이를 확보하는 방식을 사용하여, 770M 파라미터라는 적은 크기로도 1.3B 파라미터를 가진 기존 트랜스포머와 동등한 성능을 냅니다. 완전한 오픈소스로 공개되어 AI 아키텍처 설계의 새로운 가능성을 제시한다는 점에서 큰 의미를 갖습니다.

번역된 본문

에디터 추천: 에이전트 AI, 인공지능, AI 인프라 기술, AI 쇼츠, 애플리케이션, 언어 모델, 대형 언어 모델(LLM), 머신러닝, 신규 출시, 오픈소스, 소프트웨어 엔지니어링, 스태프 기술 뉴스

앤스로픽(Anthropic)은 클로드 마이토스(Claude Mythos)에 대한 기술 논문을 발표한 적이 없습니다. 하지만 이것이 연구 커뮤니티가 이론을 세우는 것을 막지는 못했습니다. Kye Gomez이 깃허브(GitHub)에 공개한 새로운 오픈소스 프로젝트인 '오픈마이토스(OpenMythos)'는 야심 찬 시도를 합니다. 동료 평가 논문(Peer-reviewed research)을 기반으로 파이토치(PyTorch)로 완전히 구축된, 클로드 마이토스 아키텍처의 실제 모습에 대한 제1원리(first-principles) 이론적 재구성입니다.

이 프로젝트는 유출된 모델, 미세조정(fine-tune) 모델 또는 증류(distillation) 모델이 아닙니다. 이는 코드로 구현된 가설입니다. 그리고 이 가설은 반증 가능할(falsifiable) 만큼 구체적입니다. 이것이 바로 이 프로젝트가 흥미로운 이유입니다.

주요 주장: 클로드 마이토스는 반복-깊이 트랜스포머(Recurrent-Depth Transformer)이다 오픈마이토스는 클로드 마이토스가 문헌에서 루프드 트랜스포머(Looped Transformers)라고도 불리는 '반복-깊이 트랜스포머(RDT)'라는 아키텍처 부류에 속한다고 제안합니다. 이 개념은 표준 트랜스포머 스택과는 확연히 다릅니다. GPT, LLaMA, 미스트랄(Mistral)과 같은 기존 트랜스포머에서는 모델이 고유한 레이어들의 시퀀스를 통해 입력을 통과시키며, 각 레이어는 자체적인 독립적인 가중치를 가집니다. 일반적으로 기능이 뛰어나다는 것은 더 많은 레이어와 더 많은 파라미터를 의미합니다.

반면 반복-깊이 트랜스포머에서는 고정된 가중치 세트가 단일 순전파(forward pass) 내에서 T번의 루프 단계에 걸쳐 반복적으로 적용됩니다. 즉, 동일한 가중치가 여러 번 실행되는 것입니다. 여기서 추론 깊이는 저장된 파라미터의 수에 따라 결정되는 것이 아니라, 추론 시 실행되는 반복 횟수에 따라 결정됩니다. 책을 읽는 것보다는 초안을 다듬는 것에 가깝게 생각하면 됩니다. 모델이 동일한 계산 블록으로 계속 돌아가면서 매 패스마다 내부 표현을 개선하는 식입니다.

아키텍처의 구조 오픈마이토스는 이를 세 부분 구조로 구현합니다: 전주곡(Prelude) → 반복 블록(Recurrent Block) → 코다(Coda). 전주곡과 코다는 정확히 한 번만 실행되는 표준 트랜스포머 레이어입니다. 반복 블록은 계산의 핵심으로, 최대 T=16번까지 루프가 돕니다. 각 루프 단계 t에서 은닉 상태(hidden state)는 다음 규칙을 사용하여 업데이트됩니다.

h_t+1 = A·h_t + B·e + Transformer(h_t, e)

여기서 h_t는 루프 반복 t 이후의 은닉 상태이며, e는 전주곡(Prelude)에서 나온 인코딩된 입력으로, 매 단계마다 다시 주입됩니다. 이러한 재주입은 의도적인 것입니다. 재주입이 없다면 깊은 루프를 거치면서 은닉 상태가 원래의 입력 신호에서 멀어지게(표류하게) 됩니다. 학습된 행렬 A와 B는 이전 은닉 상태와 인코딩된 입력이 각 단계에서 얼마나 전달되는지를 제어합니다.

반복 블록 내부의 FFN(피드포워드 신경망)은 표준 피드포워드 레이어가 아닙니다. 오픈마이토스는 DeepSeekMoE에서 도입된 설계를 따르는 혼합 전문가(MoE, Mixture-of-Experts) 레이어로 이를 대체합니다. 즉, 세분화된 라우팅된 전문가(routed experts)들의 큰 풀을 두고, 토큰당 희소(sparsely) 상위-K(top-K) 하위 집합만 활성화하며, 교차 도메인 패턴을 흡수하는 항상 활성화된 공유 전문가(small set of always-active shared experts)들의 작은 세트를 함께 둡니다.

결정적으로, 라우터는 각 루프 깊이에서 서로 다른 전문가 하위 집합을 선택합니다. 이는 기본 가중치를 공유함에도 불구하고 각 반복이 계산적으로 구별됨을 의미합니다. MoE는 도메인의 폭을 제공하고, 루핑은 추론 깊이를 제공합니다. 어텐션(Attention)은 기본적으로 DeepSeek-V2의 다중 잠재 어텐션(MLA, Multi-Latent Attention)을 따르며, 이는 전체 키/값 텐서 대신 압축된 저계수 KV 잠재(latent)를 캐시하여 프로덕션 규모에서 KV 메모리를 10~20배 줄여줍니다.

연속적인 잠재 공간에서의 추론 이 아키텍처의 가장 중요한 특징 중 하나는 추론이 완전히 연속적인 잠재 공간(continuous latent space)에서 이루어진다는 것입니다. 루프 단계 사이에 중간 토큰 생성이 없습니다. 즉, 모델이 생각의 중간에 텍스트를 생성한 다음 다시 읽지 않습니다. 이는 추론이 토큰 시퀀스로 외부화되는 '사고 사슬(chain-of-thought)' 프롬프팅과 구조적으로 다르며, Saunshi et al. (2025)과 COCONUT (2024)에서 공식적으로 분석된 바 있습니다. Saunshi et al. (2025)은 RDT의 각 루프 반복이 기능적으로 동등하다는 것을 공식적으로 보여줍니다.

원문 보기
원문 보기 (영어)
Editors Pick Agentic AI Artificial Intelligence AI Infrastructure Technology AI Shorts Applications Language Model Large Language Model Machine Learning New Releases Open Source Software Engineering Staff Tech News Anthropic has never published a technical paper on Claude Mythos. That has not stopped the research community from theorizing. A new open-source project called OpenMythos , released on GitHub by Kye Gomez , attempts something ambitious: a first-principles theoretical reconstruction of what the Claude Mythos architecture might actually be, built entirely in PyTorch and grounded in peer-reviewed research. The project is not a leaked model, a fine-tune, or a distillation. It is a hypothesis rendered in code — and the hypothesis is specific enough to be falsifiable, which is what makes it interesting. The Main Claim: Claude Mythos Is a Recurrent-Depth Transformer OpenMythos proposes that Claude Mythos belongs to a class of architectures called Recurrent-Depth Transformers (RDTs) , also referred to in the literature as Looped Transformers. The concept is meaningfully different from standard transformer stacks. In a conventional transformer — GPT, LLaMA, Mistral — the model passes input through a sequence of unique layers, one after another, each with its own independent weights. More capability generally means more layers and more parameters. In a Recurrent-Depth Transformer, a fixed set of weights is applied iteratively across T loop steps within a single forward pass. The same weights run multiple times. Reasoning depth is not a function of how many parameters are stored, but of how many iterations are run at inference time. Think of it less like reading a book and more like refining a draft: the model returns to the same computational block again and again, improving its internal representation with each pass. How the Architecture is Structured OpenMythos instantiates this as a three-part structure: Prelude → Recurrent Block → Coda . The Prelude and Coda are standard transformer layers that run exactly once. The Recurrent Block is the computational core, looped up to T=16 times. At each loop step t, the hidden state is updated using the following rule: h t+1 = A·h t + B·e + Transformer(h t , e) Here, h t is the hidden state after loop iteration t, and e is the encoded input from the Prelude — re-injected at every step. The re-injection is deliberate: without it, the hidden state would drift away from the original input signal across deep loops. The learned matrices A and B govern how much of the previous hidden state and the encoded input carry forward at each step. The FFN inside the Recurrent Block is not a standard feedforward layer. OpenMythos replaces it with a Mixture-of-Experts (MoE) layer following the design introduced in DeepSeekMoE : a large pool of fine-grained routed experts, with only a sparse top-K subset activated per token, alongside a small set of always-active shared experts that absorb common cross-domain patterns. Crucially, the router selects distinct expert subsets at each loop depth, meaning each iteration is computationally distinct despite sharing the same base weights. MoE provides domain breadth; looping provides reasoning depth. Attention defaults to Multi-Latent Attention from DeepSeek-V2, which caches a compressed low-rank KV latent rather than full key/value tensors, yielding a 10–20× reduction in KV memory at production scale. Reasoning in Continuous Latent Space One of the most important properties of this architecture is that reasoning occurs entirely in continuous latent space. There is no intermediate token emission between loop steps — the model does not produce text mid-thought and then re-read it. This is structurally distinct from chain-of-thought prompting, where reasoning is externalized as token sequences, and has been formally analyzed in both Saunshi et al. (2025) and COCONUT (2024). Saunshi et al. (2025) formally show that each loop iteration in an RDT is functionally equivalent to one step of chain-of-thought, but operating over real-valued vectors rather than discrete tokens. Continuous latent thoughts can also encode multiple alternative next steps simultaneously, enabling something closer to breadth-first search over the reasoning space within a single forward pass. This also explains a concrete capability advantage. A standard transformer trained on 5-hop reasoning chains fails when tested on 10-hop chains at inference time — it has no mechanism to extend its depth beyond what it saw during training. A Recurrent-Depth Transformer handles this naturally: running more inference-time loops extends the reasoning chain without any retraining. Harder problems receive more compute; simpler ones exit early. Solving the Stability Problem Training looped models has historically been brittle. The hidden state h t can grow unboundedly across iterations — a failure mode called residual explosion. OpenMythos addresses this using a Linear Time-Invariant (LTI) injection constraint borrowed from the Parcae architecture (Prairie et al., 2026): the spectral radius of A, denoted ρ(A), is enforced to be less than 1 by construction, guaranteeing stability regardless of learning rate or gradient noise. A second failure mode also exists at the other extreme: beyond a certain loop depth, excessive recurrence degrades predictions — the hidden state drifts past the solution and into noise. This is the ‘overthinking' problem. Adaptive Computation Time (ACT) halting addresses it with a learned scalar per position that dynamically decides when to stop looping. Positions that are harder to process receive more computation; tokens that have already converged halt early. Finally, Depth-Wise LoRA adapters introduce a small rank-r adaptation matrix at each iteration depth, giving each loop step slightly distinct behavior without adding substantial parameters — bridging the gap between pure weight-tying and fully distinct layers. Why Parameter Efficiency Matters The Parcae paper (Prairie et al., 2026) provides empirical grounding for the efficiency claim. At 770M parameters, an RDT matches a 1.3B standard transformer trained on identical data — roughly half the parameters for equivalent downstream quality. Optimal recurrence and optimal token count both follow power laws with consistent exponents across scales, establishing the first predictable scaling laws for looped training. The implication is significant: reasoning depth scales with inference-time compute, not stored parameter count. This reframes one of the dominant assumptions in the scaling debate. The relevant axis may not be parameter count at training, but loop depth at inference. What OpenMythos Contributes OpenMythos provides four concrete research artifacts: a fully configurable PyTorch implementation of the RDT hypothesis with MoE FFN and Multi-Latent Attention; LTI-stable recurrent injection integrated as a first-class training primitive; depth-wise LoRA adapters enabling per-iteration behavioral differentiation; and a reproducible research baseline for studying looped transformer dynamics and inference-time reasoning depth. Whether or not Mythos is actually an RDT, OpenMythos gives the research community something concrete and runnable — an implementation of an architecture class the literature increasingly suggests is underexplored, and one that may represent a fundamentally different path to capable AI than simply training bigger models. Check out the Full Codes with Notebook here . Also, feel free to follow us on Twitter and don’t forget to join our 130k+ ML SubReddit and Subscribe to our Newsletter . Wait! are you on telegram? now you can join us on telegram as well. Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us