메뉴
BL
MarkTechPost 22일 전

2026년 최고의 명세서 주도 개발 AI 툴 9선

IMP
8/10
핵심 요약

코드 생성 속도는 빨라졌지만 실제 요구사항과 불일치하는 문제를 해결하기 위해 '명세서 주도 개발(SDD)'이 주목받고 있습니다. 이는 구조화된 명세서를 진실의 원천으로 삼고 코드를 그 결과물로 취급하는 방식입니다. 본문은 2026년 현재 개발자들이 실제로 사용하며 SDD 워크플로우를 구현하는 데 활용하는 9가지 핵심 AI 툴을 소개합니다.

번역된 본문

에디터 추천 | 에이전트형 AI | 소프트웨어 엔지니어링 | 스태프 추천 | 상위권

AI 코딩 에이전트의 성능이 발전함에 따라 하나의 구조적 문제가 대두되었습니다. 바로 '명확성 없는 속도'입니다. 개발자들은 몇 분 만에 작동하는 코드를 생성해내지만, 며칠이 지나고 나서야 그것이 시스템이 실제로 필요로 했던 것과 일치하지 않는다는 사실을 깨닫곤 합니다. 명세서 주도 개발(Spec-driven development, 이하 SDD)은 이 문제를 직접적으로 해결합니다. 구조화된 명세서(Spec)를 진실의 원천(Source of truth)으로 취급하고 코드를 그에 따른 생성된 결과물로 간주하는 방식으로, 기존의 접근법을 완전히 뒤바꾸는 것입니다.

이 목록은 2026년 현재 개발자들이 SDD 워크플로우를 구현하기 위해 실제로 사용하고 있는 9가지 AI 툴을 다룹니다.

AWS Kiro 🔗 kiro.dev | Docs | Models 키로(Kiro)는 SDD를 중심으로 구축된 에이전트형 IDE입니다. 반복적인 프롬프트 입력 대신 구조화된 엄격함을 통해 개발자를 컨셉 단계에서 프로덕션 단계로 이끌도록 설계되었습니다. 코드를 작성하며 AI에게 도움을 요청하는 대신, 키로는 개발자가 먼저 의도를 공식화하도록 요구합니다. 요구사항(Requirements), 설계(Design), 작업(Tasks)의 3단계 프로세스를 거치며 각각 requirements.md, design.md, tasks.md라는 세 가지 구조화된 결과물을 생성합니다.

주목할 만한 기술적 세부 사항으로, 키로는 EARS(요구사항 구문을 위한 쉬운 접근법) 표기법을 사용하여 사용자 스토리를 생성합니다. 이를 통해 개발자가 수동으로 다뤘을 법한 엣지 케이스(Edge cases)까지 아우르는 구조화된 수락 기준을 만들어냅니다. 또 다른 큰 차별점은 '에이전트 훅(Agent hooks)' 시스템입니다. 파일이 저장되거나 생성될 때 트리거되는 이벤트 중심 자동화 기능으로, 수동 프롬프트 없이도 테스트 업데이트, README 새로고침, 보안 스캔 등의 작업을 자동으로 처리합니다.

모델 선택 측면에서 키로의 기본값은 클로드 소네트(Claude Sonnet), 큐웬(Qwen), 딥시크(DeepSeek), GLM, 미니맥스(MiniMax) 등 여러 최첨단 모델을 결합하여 작업에 최적화된 모델을 선택해 품질과 비용의 균형을 맞추는 '자동 라우터(Auto router)'입니다. 개발자는 일관된 동작을 위해 특정 모델을 고정해 둘 수도 있습니다. Code OSS를 기반으로 구축되어 VS Code 사용자라면 즉시 익숙하게 사용할 수 있습니다. CLI 및 웹 인터페이스도 지원하며 사용을 위해 AWS 계정이 필요하지 않습니다. 친숙한 개발 환경에서 공식적인 명세서 워크플로우가 필요한 팀에 가장 적합합니다.

GitHub Spec Kit 🔗 github.com/github/spec-kit | Blog Post 깃허브 스펙 키트(GitHub Spec Kit)는 SDD를 위해 커뮤니티에서 가장 널리 채택된 오픈소스 옵션입니다. 93,000개 이상의 스타를 보유한 파이썬 CLI 툴로, 2026년 5월 7일 기준 최신 버전은 v0.8.7이며 클로드 코드(Claude Code), 깃허브 코파일럿(GitHub Copilot), 아마존 큐(Amazon Q), 제미니 CLI(Gemini CLI)를 포함한 30개 이상의 AI 코딩 에이전트를 지원합니다.

이 워크플로우는 명확한 검증 포인트를 가진 4단계로 실행됩니다. 비즈니스 컨텍스트와 성공 기준을 캡처하는 명세(Specify), 명세서를 아키텍처 결정으로 변환하는 계획(Plan), 계획을 테스트 및 검토 가능한 단위로 분해하는 작업(Tasks), 그리고 해당 제약 조건 내에서 AI 에이전트를 실행하는 구현(Implement) 단계입니다. 스펙 키트 워크플로우의 기반에는 '컨스티튜션(Constitution, 헌장)'이 있습니다. 이는 모든 세션에서 모든 변경 사항에 적용되는 변경 불가능한 상위 원칙들이 담긴 마크다운 규칙 파일입니다. 이것이 개발자와 에이전트 간의 지속적인 계약 역할을 합니다.

코드가 이제 마지막 단계의 결과물이라는 것이 깃허브가 제시한 스펙 키트의 철학입니다. 즉, 의도(Intent)가 진실의 원천이며 명세서는 실행 가능하다는 것입니다. 이 툴은 SDD를 처음 도입하는 팀에게 기본 시작점으로 적합하며, 기존 IDE를 그대로 유지하고자 하는 팀에게 가장 이식성이 뛰어난 옵션입니다.

BMAD-METHOD 🔗 github.com/bmad-code-org/BMAD-METHOD | Docs 비매드 메서드(BMAD-METHOD, Build More Architect Dreams의 약자)는 전체 소프트웨어 개발 수명 주기(SDLC)에 걸쳐 12개 이상의 특수화된 AI 에이전트를 조율하는 MIT 라이선스 기반의 오픈소스 프레임워크입니다. 2026년 4월 29일에 버전 6.6.0이 출시되었으며, 이 프로젝트는 46,700개 이상의 깃허브 스타와 5,500개 이상의 포크를 기록하고 있습니다.

12개 이상의 에이전트는 제품 관리, 아키텍처, UX, 개발, QA, 스크럼 마스터 기능 등 고유한 SDLC 역할을 담당합니다. 또한 구조화된 파일 기반의 인계 방식을 통해 함께 작동합니다. 각 에이전트는 이전 에이전트의 출력 문서를 읽고 자신의 문서를 작성하여, 요구사항부터 최종 인도까지 추적 가능한 연결 고리를 유지합니다. 버전 6(V6)에서는 '크로스 플랫폼 에이전트 팀(Cross Platform Agent Team)'을 도입하여, 클로드 코드(Claude Code), 커서(Cursor), 코덱스(Codex) 등 다양한 환경에서 동일한 에이전트 구성을 작동시킬 수 있게 되었습니다.

원문 보기
원문 보기 (영어)
Editors Pick Agentic AI Software Engineering Staff Top As AI coding agents grow more capable, a structural problem has emerged: speed without clarity. Developers generate working code in minutes, only to discover days later that it doesn't match what the system actually needed. Spec-driven development (SDD) addresses this directly — by treating a structured specification as the source of truth and code as its generated output, rather than the other way around. This list covers the 9 AI tools that developers are actually using to implement SDD workflows in 2026. AWS Kiro 🔗 kiro.dev | Docs | Models Kiro is an agentic IDE built around spec-driven development, designed to take developers from concept to production with structured rigor instead of iterative prompting. Rather than writing code and asking an AI to help along the way, Kiro requires developers to formalize intent first. It guides them through a three-phase process — Requirements, Design, and Tasks — producing three structured artifacts: requirements.md, design.md, and tasks.md. A notable technical detail: Kiro generates user stories using EARS (Easy Approach to Requirements Syntax) notation, which produces structured acceptance criteria covering edge cases that developers would otherwise handle manually. A major differentiator is its agent hooks system — event-driven automations that fire when files are saved or created, handling tasks like test updates, README refreshes, and security scans without manual prompting. For model selection, Kiro's default is an Auto router that combines multiple frontier models — including Claude Sonnet, Qwen, DeepSeek, GLM, and MiniMax — and selects the optimal model per task to balance quality and cost. Developers can also pin a specific model for consistent behavior. Built on Code OSS, VS Code users will feel at home immediately. Kiro also supports a CLI and a web interface, and does not require an AWS account to use. Best for teams that need formal spec workflows in a familiar development environment. GitHub Spec Kit 🔗 github.com/github/spec-kit | Blog Post GitHub Spec Kit is the most community-adopted open-source option for spec-driven development — a Python CLI with 93,000+ stars, the latest release being v0.8.7 (May 7, 2026), supporting 30+ AI coding agents including Claude Code, GitHub Copilot, Amazon Q, and Gemini CLI. The workflow runs through four phases with clear checkpoints: Specify (captures business context and success criteria), Plan (translates specs into architectural decisions), Tasks (decomposes plans into testable, reviewable units), and Implement (runs AI agents under those constraints). At the foundation of every Spec Kit workflow is a "constitution" — a markdown rules file containing high-level immutable principles that apply to every change across every session. This becomes the persistent contract between the developer and the agent. Spec Kit's philosophy, as GitHub framed it, is that code is now the last-mile output: intent is the source of truth, and specifications are executable. It's the default starting point for teams new to SDD and the most portable option for teams that want to keep their existing IDE. BMAD-METHOD 🔗 github.com/bmad-code-org/BMAD-METHOD | Docs BMAD-METHOD (Build More Architect Dreams) is an MIT-licensed open-source framework that orchestrates 12+ specialized AI agents across the full software development lifecycle. Version 6.6.0 shipped on April 29, 2026, with the project reaching 46,700+ GitHub stars and more than 5,500 forks. The 12+ agents cover distinct SDLC roles — including product management, architecture, UX, development, QA, and scrum master functions — and work together through structured, file-based handoffs: each agent reads the previous agent's output document and writes its own, maintaining a traceable chain from requirements through delivery. V6 introduced the Cross Platform Agent Team, allowing the same agent configuration to operate across Claude Code, Cursor, Codex, and other hosts without reconfiguration. The V6 architecture also separates concerns into three layers: BMad Core (the universal human-AI collaboration framework), BMad Method (the agile development module built on Core), and BMad Builder (which lets teams create and share custom agents and workflows). BMAD is the go-to framework for teams that want highly structured, role-separated multi-agent workflows without vendor lock-in. The framework is entirely free with no paywalls. Augment Code 🔗 augmentcode.com | SDD Guide Augment Code approaches spec-driven development from the context layer rather than the spec authoring layer. Its Context Engine maintains a persistent architectural understanding across 400,000+ files — addressing the cross-repository context gap that breaks most specification workflows at scale, particularly in multi-service brownfield codebases. Augment reports 70.6% on SWE-bench (compared to a 54% industry average) and a 59% F-score on an AI code review benchmark; these figures are vendor-reported and should be treated accordingly. Its BYOA (Bring Your Own Agent) model lets teams plug in Claude Code, Codex, or OpenCode alongside its native Auggie agent. Augment Code does not author specs natively — teams still need a tool like Spec Kit or Kiro for structured spec management — but it provides the semantic foundation that makes those specs accurate across large codebases. Best suited for enterprise teams running complex multi-service architectures where context drift, not spec creation, is the primary failure mode. Claude Code 🔗 claude.ai/code | Docs Claude Code is Anthropic's agentic command-line tool, and unlike tools such as Cursor or GitHub Copilot that augment a developer's workflow, it is designed for fully autonomous development — planning, orchestrating multi-step workflows, and asking follow-up questions without constant prompting. For spec-driven workflows, Claude Code handles large specification documents well within a single session, processing complete requirement sets and generating implementations in one coherent pass. Developers typically use CLAUDE.md files as the spec layer — a lightweight approach that enforces persistent project context, coding standards, and architectural constraints across every session. This means many developers are already practicing a form of SDD with Claude Code without formally labeling it as such. Claude Code also serves as a commonly supported execution agent across SDD frameworks including BMAD, GSD, and GitHub Spec Kit. GSD (Get Shit Done) 🔗 github.com/gsd-build/get-shit-done GSD is a spec-driven meta-prompting and context engineering framework built primarily for Claude Code and compatible agents, positioning itself as the lean, low-ceremony alternative to BMAD. The project has crossed 61,000 GitHub stars — growing from zero to that figure in under five months since its December 2025 initial commit. It installs via npx get-shit-done-cc@latest and works across Claude Code, OpenCode, Gemini CLI, Codex, Copilot, Cursor, Windsurf, Augment, and Cline. Its multi-agent orchestration spawns parallel researchers, planners, executors, and verifiers, each operating in a fresh context window with up to 200K tokens dedicated to implementation. The model-agnostic design — including support for OpenRouter and local models — decouples the workflow from any single LLM vendor. Where BMAD adds sprint ceremonies and stakeholder coordination, GSD's philosophy is that complexity should live in the system, not the workflow. It also fills a gap that Claude Code itself doesn't cover natively: context rotation, quality gates, and planning state persistence across sessions. Cursor (with Plan Mode + Project Rules) 🔗 cursor.com | Agent Best Practices Cursor remains one of the most widely used AI editors, and its Plan Mode makes it a practical entry point for teams adopting spec-first habits without switching toolchains. Plan Mode creates a detailed implementation plan before any code is wr