오픈소스 에이전트 Dirac, TerminalBench 1위 달성
오픈소스 코딩 에이전트인 Dirac이 gemini-3-flash-preview 모델 기준 TerminalBench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다. 이 에이전트는 문맥 길이가 길어질 때 발생하는 추론 능력 저하 문제를 해결하기 위해 컨텍스트를 최적화하고, AST(추상 구문 트리) 조작 및 해시 기반 편집을 활용합니다. 그 결과 경쟁 모델 대비 64.8% 낮은 비용으로 더 빠르고 정확한 코딩 작업을 수행할 수 있음을 입증했습니다.
Dirac - 정확성과 토큰 효율성을 극대화한 오픈소스 AI 에이전트
Dirac이 gemini-3-flash-preview 기준 Terminal-Bench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다! 모델의 추론 능력은 컨텍스트 길이가 길어질수록 저하되는 현상은 이미 잘 알려져 있습니다. 컨텍스트를 철저하게 관리(조율)하면 정확도와 비용을 모두 개선하면서도 단일 작업으로 대규모 변경을 수행할 수 있게 됩니다. Dirac은 바로 이러한 점을 고려하여 개발된 오픈소스 코딩 에이전트입니다. 더 나은 품질의 결과물을 더 빠르게 생성하면서도 평균적으로 API 비용을 64.8%나 절감합니다. 해시 앵커 기반 병렬 편집, AST(추상 구문 트리) 조작, 그리고 다양한 고급 최적화 기술을 활용합니다. 참고로 MCP는 사용하지 않습니다.
우리의 목표: 맹목적으로 최소화하는 대신, 최소한의 프롬프트로 도구의 가성비(비용 대비 효과)를 극대화하는 것입니다.
📊 평가 (Evals) Dirac은 복잡한 실제 리팩토링 작업을 기반으로 다른 주요 오픈소스 에이전트들과 벤치마크를 진행했습니다. Dirac은 극히 일부의 비용으로 일관되게 100%의 정확도를 달성했습니다. 이러한 평가는 공개된 GitHub 리포지토리에서 진행되었으므로 누구나 재현할 수 있습니다.
🏆 TerminalBench 2.0 리더보드 Dirac은 최근 gemini-3-flash-preview를 사용하여 Terminal-Bench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다. 이는 구글의 공식 베이스라인(47.6%)과 최고 수준의 폐쇄형 소스 에이전트인 Junie CLI(64.3%)를 모두 능가하는 성과입니다. 이 결과는 벤치마크에 특화된 정보나 AGENTS.md 파일을 주입 없이 달성되었습니다.
아래 비용 표에 대한 참고 사항: 평가를 실행한 후 상위 리포지토리인 Cline에서 버그(이슈 #10314)가 발견되었습니다. 우리는 이를 수정하기 위해 PR #10315를 제출했습니다. 이 버그로 인해 Dirac과 Cline의 평가 비용이 실제보다 약간 낮게 측정되었습니다 (백만 토큰 캐시 읽기당 $0.03 vs $0.05). 큰 차이는 없겠지만, 곧 평가 수치를 업데이트할 예정입니다.
(표 요약: 총 8개의 복잡한 Task(리팩토링) 테스트 결과, Dirac은 8개 모두 성공(🟢)했으며 총 평균 비용은 $0.18로 기록되었습니다. 이는 8/8의 성공률을 기록한 Opencode(평균 $0.44)와 비교해도 매우 저렴하며, 절반 이하의 성공률을 보인 다른 경쟁 에이전트들(Cline, Kilo 등, 평균 $0.38~$0.73)과 비교했을 때 압도적인 가성비를 보여줍니다.)
비용 비교: Dirac은 경쟁 에이전트들보다 64.8% 더 저렴합니다 (비용이 2.8배 절감됨).
- 작업 완료를 위해 수정/생성해야 하는 예상 파일 수입니다. 자세한 작업 설명 및 방법론은 evals/README.md를 참조하세요.
🚀 주요 기능
- 해시 앵커 기반 편집 (Hash-Anchored Edits): Dirac은 안정적인 라인 해시를 사용하여 매우 정밀하게 편집 대상을 지정하며, 기존 라인 번호 기반 편집의 '번역 상실(오인)' 문제를 피합니다.
- 네이티브 AST 정밀도 (AST-Native Precision): 언어 구문(TypeScript, Python, C++ 등)에 대한 기본적인 이해를 바탕으로 함수 추출이나 클래스 리팩토링과 같은 구조적 조작을 100%의 정확도로 수행합니다.
- 멀티 파일 배치 (Multi-File Batching): 단일 LLM 왕복(roundtrip)으로 여러 파일을 처리하고 편집할 수 있어 지연 시간과 API 비용을 크게 줄입니다.
- 고대역폭 컨텍스트 (High-Bandwidth Context): 최적화된 컨텍스트 관리를 통해 에이전트를 가볍고 빠르게 유지하여 LLM이 항상 (최적의 정보를 갖도록 합니다.)