메뉴
HN
Hacker News 34일 전

오픈소스 에이전트 Dirac, TerminalBench 1위 달성

IMP
8/10
핵심 요약

오픈소스 코딩 에이전트인 Dirac이 gemini-3-flash-preview 모델 기준 TerminalBench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다. 이 에이전트는 문맥 길이가 길어질 때 발생하는 추론 능력 저하 문제를 해결하기 위해 컨텍스트를 최적화하고, AST(추상 구문 트리) 조작 및 해시 기반 편집을 활용합니다. 그 결과 경쟁 모델 대비 64.8% 낮은 비용으로 더 빠르고 정확한 코딩 작업을 수행할 수 있음을 입증했습니다.

번역된 본문

Dirac - 정확성과 토큰 효율성을 극대화한 오픈소스 AI 에이전트

Dirac이 gemini-3-flash-preview 기준 Terminal-Bench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다! 모델의 추론 능력은 컨텍스트 길이가 길어질수록 저하되는 현상은 이미 잘 알려져 있습니다. 컨텍스트를 철저하게 관리(조율)하면 정확도와 비용을 모두 개선하면서도 단일 작업으로 대규모 변경을 수행할 수 있게 됩니다. Dirac은 바로 이러한 점을 고려하여 개발된 오픈소스 코딩 에이전트입니다. 더 나은 품질의 결과물을 더 빠르게 생성하면서도 평균적으로 API 비용을 64.8%나 절감합니다. 해시 앵커 기반 병렬 편집, AST(추상 구문 트리) 조작, 그리고 다양한 고급 최적화 기술을 활용합니다. 참고로 MCP는 사용하지 않습니다.

우리의 목표: 맹목적으로 최소화하는 대신, 최소한의 프롬프트로 도구의 가성비(비용 대비 효과)를 극대화하는 것입니다.

📊 평가 (Evals) Dirac은 복잡한 실제 리팩토링 작업을 기반으로 다른 주요 오픈소스 에이전트들과 벤치마크를 진행했습니다. Dirac은 극히 일부의 비용으로 일관되게 100%의 정확도를 달성했습니다. 이러한 평가는 공개된 GitHub 리포지토리에서 진행되었으므로 누구나 재현할 수 있습니다.

🏆 TerminalBench 2.0 리더보드 Dirac은 최근 gemini-3-flash-preview를 사용하여 Terminal-Bench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다. 이는 구글의 공식 베이스라인(47.6%)과 최고 수준의 폐쇄형 소스 에이전트인 Junie CLI(64.3%)를 모두 능가하는 성과입니다. 이 결과는 벤치마크에 특화된 정보나 AGENTS.md 파일을 주입 없이 달성되었습니다.

아래 비용 표에 대한 참고 사항: 평가를 실행한 후 상위 리포지토리인 Cline에서 버그(이슈 #10314)가 발견되었습니다. 우리는 이를 수정하기 위해 PR #10315를 제출했습니다. 이 버그로 인해 Dirac과 Cline의 평가 비용이 실제보다 약간 낮게 측정되었습니다 (백만 토큰 캐시 읽기당 $0.03 vs $0.05). 큰 차이는 없겠지만, 곧 평가 수치를 업데이트할 예정입니다.

(표 요약: 총 8개의 복잡한 Task(리팩토링) 테스트 결과, Dirac은 8개 모두 성공(🟢)했으며 총 평균 비용은 $0.18로 기록되었습니다. 이는 8/8의 성공률을 기록한 Opencode(평균 $0.44)와 비교해도 매우 저렴하며, 절반 이하의 성공률을 보인 다른 경쟁 에이전트들(Cline, Kilo 등, 평균 $0.38~$0.73)과 비교했을 때 압도적인 가성비를 보여줍니다.)

비용 비교: Dirac은 경쟁 에이전트들보다 64.8% 더 저렴합니다 (비용이 2.8배 절감됨).

  • 작업 완료를 위해 수정/생성해야 하는 예상 파일 수입니다. 자세한 작업 설명 및 방법론은 evals/README.md를 참조하세요.

🚀 주요 기능

  • 해시 앵커 기반 편집 (Hash-Anchored Edits): Dirac은 안정적인 라인 해시를 사용하여 매우 정밀하게 편집 대상을 지정하며, 기존 라인 번호 기반 편집의 '번역 상실(오인)' 문제를 피합니다.
  • 네이티브 AST 정밀도 (AST-Native Precision): 언어 구문(TypeScript, Python, C++ 등)에 대한 기본적인 이해를 바탕으로 함수 추출이나 클래스 리팩토링과 같은 구조적 조작을 100%의 정확도로 수행합니다.
  • 멀티 파일 배치 (Multi-File Batching): 단일 LLM 왕복(roundtrip)으로 여러 파일을 처리하고 편집할 수 있어 지연 시간과 API 비용을 크게 줄입니다.
  • 고대역폭 컨텍스트 (High-Bandwidth Context): 최적화된 컨텍스트 관리를 통해 에이전트를 가볍고 빠르게 유지하여 LLM이 항상 (최적의 정보를 갖도록 합니다.)
원문 보기
원문 보기 (영어)
Dirac - Accurate & Highly Token Efficient Open Source AI Agent Dirac topped the Terminal-Bench-2 leaderboard for gemini-3-flash-preview with a 65.2% score! It is a well studied phenomenon that any given model's reasoning ability degrades with the context length. If we can keep context tightly curated, we improve both accuracy and cost while making larger changes tractable in a single task. Dirac is an open-source coding agent built with this in mind. It reduces API costs by 64.8% on average while producing better and faster work. Using hash-anchored parallel edits, AST manipulation, and a suite of advanced optimizations. Oh, and no MCP. Our goal: Optimize for bang-for-the-buck on tooling with bare minimum prompting instead of going blindly minimalistic. 📊 Evals Dirac is benchmarked against other leading open-source agents on complex, real-world refactoring tasks. Dirac consistently achieves 100% accuracy at a fraction of the cost. These evals are run on public github repos and should be reproducible by anyone. 🏆 TerminalBench 2.0 Leaderboard : Dirac recently topped the Terminal-Bench-2 leaderboard with a 65.2% score using gemini-3-flash-preview . This outperforms both Google's official baseline ( 47.6% ) and the top closed-source agent Junie CLI ( 64.3% ). This was achieved without any benchmark-specific info or any AGENTS.md files being inserted. Note on the cost table below : A bug was discovered in Cline, the parent repo, after running these evals ( issue #10314 ). We have submitted a PR #10315 to fix this. This bug caused the evals for Dirac and Cline to slightly underreport the numbers ($0.03 vs $0.05 per million token cache read). Although there won't be a large difference, we will update the evals soon. Task (Repo) Files* Cline Kilo Ohmypi Opencode Pimono Roo Dirac Task1 ( transformers ) 8 🟢 (diff) [$0.37] 🔴 (diff) [N/A] 🟡 (diff) [$0.24] 🟢 (diff) [$0.20] 🟢 (diff) [$0.34] 🟢 (diff) [$0.49] 🟢 (diff) [$0.13] Task2 ( vscode ) 21 🟢 (diff) [$0.67] 🟡 (diff) [$0.78] 🟢 (diff) [$0.63] 🟢 (diff) [$0.40] 🟢 (diff) [$0.48] 🟡 (diff) [$0.58] 🟢 (diff) [$0.23] Task3 ( vscode ) 12 🟡 (diff) [$0.42] 🟢 (diff) [$0.70] 🟢 (diff) [$0.64] 🟢 (diff) [$0.32] 🟢 (diff) [$0.25] 🟡 (diff) [$0.45] 🟢 (diff) [$0.16] Task4 ( django ) 14 🟢 (diff) [$0.36] 🟢 (diff) [$0.42] 🟡 (diff) [$0.32] 🟢 (diff) [$0.24] 🟡 (diff) [$0.24] 🟢 (diff) [$0.17] 🟢 (diff) [$0.08] Task5 ( vscode ) 3 🔴 (diff) [N/A] 🟢 (diff) [$0.71] 🟢 (diff) [$0.43] 🟢 (diff) [$0.53] 🟢 (diff) [$0.50] 🟢 (diff) [$0.36] 🟢 (diff) [$0.17] Task6 ( transformers ) 25 🟢 (diff) [$0.87] 🟡 (diff) [$1.51] 🟢 (diff) [$0.94] 🟢 (diff) [$0.90] 🟢 (diff) [$0.52] 🟢 (diff) [$1.44] 🟢 (diff) [$0.34] Task7 ( vscode ) 13 🟡 (diff) [$0.51] 🟢 (diff) [$0.77] 🟢 (diff) [$0.74] 🟢 (diff) [$0.67] 🟡 (diff) [$0.45] 🟢 (diff) [$1.05] 🟢 (diff) [$0.25] Task8 ( transformers ) 3 🟢 (diff) [$0.25] 🟢 (diff) [$0.19] 🟢 (diff) [$0.17] 🟢 (diff) [$0.26] 🟢 (diff) [$0.23] 🟢 (diff) [$0.29] 🟢 (diff) [$0.12] Total Correct 5/8 5/8 6/8 8/8 6/8 6/8 8/8 Avg Cost $0.49 $0.73 $0.51 $0.44 $0.38 $0.60 $0.18 🟢 Success | 🟡 Incomplete | 🔴 Failure Cost Comparison : Dirac is 64.8% cheaper than the competition (a 2.8x cost reduction). * Expected number of files to be modified/created to complete the task. See evals/README.md for detailed task descriptions and methodology. 🚀 Key Features Hash-Anchored Edits : Dirac uses stable line hashes to target edits with extreme precision, avoiding the "lost in translation" issues of traditional line-number based editing. AST-Native Precision : Built-in understanding of language syntax (TypeScript, Python, C++, etc.) allows Dirac to perform structural manipulations like function extraction or class refactoring with 100% accuracy. Multi-File Batching : Dirac can process and edit multiple files in a single LLM roundtrip, significantly reducing latency and API costs. High-Bandwidth Context : Optimized context curation keeps the agent lean and fast, ensuring the LLM always has the most relevant information without wasting tokens. Autonomous Tool Use : Dirac can read/write files, execute terminal commands, use a headless browser, and more - all while keeping you in control with an approval-based workflow. 📦 Installation VS Code Extension Install Dirac from the VS Code Marketplace . CLI (Terminal) Install the Dirac CLI globally using npm: npm install -g dirac-cli Alternatively, use our official installation script (macOS/Linux): curl -fsSL https://raw.githubusercontent.com/dirac-run/dirac/master/scripts/install.sh | bash 🚀 CLI Quick Start Authenticate : dirac auth Run your first task : dirac " Analyze the architecture of this project " Configuration (Environment Variables) You can provide API keys via environment variables to skip the dirac auth step. This is ideal for CI/CD or non-persistent environments: ANTHROPIC_API_KEY OPENAI_API_KEY OPENROUTER_API_KEY GEMINI_API_KEY GROQ_API_KEY MISTRAL_API_KEY XAI_API_KEY (x.ai) HF_TOKEN (HuggingFace) ... and others (see src/shared/storage/env-config.ts for the full list). Common Commands dirac "prompt" : Start an interactive task. dirac -p "prompt" : Run in Plan Mode to see the strategy before executing. dirac -y "prompt" : Yolo Mode (auto-approve all actions, great for simple fixes). git diff | dirac "Review these changes" : Pipe context directly into Dirac. dirac history : View and resume previous tasks. 🛠️ Getting Started Open the Dirac sidebar in VS Code. Configure your preferred AI provider (Anthropic, OpenAI, OpenRouter, etc.). Start a new task by describing what you want to build or fix. Watch Dirac go! 📄 License Dirac is open source and licensed under the Apache License 2.0 . 🤝 Acknowledgments Dirac is a fork of the excellent Cline project. We are grateful to the Cline team and contributors for their foundational work. Built with ❤️ by Max Trivedi at Dirac Delta Labs