코파일럿킷(CopilotKit)은 AI 에이전트가 단순한 텍스트 출력을 넘어 애플리케이션 내부에 상주하며 사용자와 직접 상호작용할 수 있는 새로운 아키텍처를 제시했습니다. 이를 통해 AG-UI 프로토콜로 사용자-에이전트 간 상호작용 계층을 표준화하고, AIMock으로 복잡한 에이전트 테스트의 불편한 진실을 지적하며 프로덕션급 AI 시스템 구축을 위한 핵심 인프라를 선도하고 있습니다.
번역된 본문
수년 동안 소프트웨어 내부의 AI는 애플리케이션 한쪽 구석에 덧붙여진 채팅 위젯을 의미했습니다. 사용자가 텍스트를 입력하면 모델이 텍스트로 응답하고, 그 출력을 실제로 필요한 작업에 수동으로 반영해야 했습니다. 이는 계산기가 유용한 것과 같은 방식이었습니다. 기능적이지만 근본적으로 수동적이었습니다.
아타이 바르카이(Atai Barkai)와 울리 바르카이(Uli Barkai)가 공동 창립한 시애틀 기반 스타트업 코파일럿킷(CopilotKit)은 지난 2년 동안 이러한 패러다임이 잘못되었다고 주장해 왔으며, 2026년이 된 지금 개발자 커뮤니티 역시 이에 크게 공감하고 있습니다. (GitHub에서 CopilotKit에 ⭐️를 주세요)
이 회사의 접근 방식은 매우 명확합니다. 나아가야 할 길은 에이전트가 애플리케이션 내부에 상주하면서 사용자가 하는 일을 이해하고, 직접 작업을 수행하며, 긴 텍스트 블록을 반환하는 대신 유용한 인터페이스를 보여주도록 만드는 것입니다. 이러한 접근 방식은 2026년에 지식 검색, 테스트 안정성, 런타임 지속성이라는 세 가지 인프라 간극을 해결하는 빠른 제품 출실 주기로 이어졌으며, 각 릴리즈는 단순한 에이전트 데모와 프로덕션급 시스템을 구분하는 눈에 띄지 않지만 종종 건너뛰었던 핵심 아키텍처를 겨냥했습니다.
프로토콜의 기반: AG-UI가 빈자리를 채우다
새로운 도구가 의미를 가지려면 그 아래에 있는 프로토콜 계층이 먼저 자리 잡아야 합니다. 에이전트 생태계는 조용히 3개 계층(Layer)으로 구성된 스택을 형성해 왔습니다. MCP는 에이전트가 외부 도구와 데이터베이스에 액세스하는 방식을 표준화합니다. A2A는 에이전트 간의 조정을 담당합니다. 그리고 코파일럿킷이 만든 AG-UI는 세 번째이자 이전에는 다루어지지 않았던 문제, 즉 소프트웨어 애플리케이션 내부에서 에이전트와 인간 사용자 간의 상호작용 계층을 다룹니다.
MCP와 A2A가 컨텍스트와 에이전트 조정을 처리하는 동안, AG-UI는 사용자, 애플리케이션 및 에이전트 간의 상호작용 계층을 정의하여 사용자가 에이전트와 상호작용하는 가장 중요한 경계에서 투명성, 안전성 및 제어력을 제공합니다. 구체적으로 이 프로토콜은 실시간 스트리밍 응답, 동적 UI 컴포넌트 생성, 양방향 상태 동기화를 가능하게 하며, 에이전트가 진행하기 전에 사용자의 확인을 기다리는 휴먼 인 더 루프(Human-in-the-loop) 일시 정지 기능을 제공합니다.
이 프로토콜은 현재 Google, Microsoft, Amazon, Oracle과 같은 주요 AI 인프라 제공업체와 LangChain, Mastra, PydanticAI, Agno를 포함한 인기 프레임워크에서 지원됩니다. 자사(First-party) SDK는 LangGraph, CrewAI, Mastra, Agno 및 Pydantic AI를 지원합니다. 커뮤니티 측면에서는 Kotlin, Go, Dart, Java, Rust, Ruby 및 C++에 대한 완전한 구현이 존재하며, .NET, Nim, Flowise 및 Langflow는 현재 개발 진행 중입니다. 이는 이 단계의 대부분의 프로토콜이 주장할 수 있는 것을 훨씬 뛰어넘는 커뮤니티 SDK 범위입니다.
AWS는 AG-UI를 FAST(Fullstack AgentCore Solution Template) 예제 및 Bedrock AgentCore에 통합하여 실험적 표준이 아닌 프로덕션 인프라로서의 역할을 확고히 했습니다. 생태계는 교육 분야로도 확장되었습니다. 아타이 바르카이는 DeepLearning.AI에서 LangChain 백엔드, React 프론트엔드 및 런타임으로서의 AG-UI를 다루는 풀스택 AG-UI 과정을 가르치고 있습니다. 이는 해당 프로토콜이 단순히 평가되는 수준을 넘어 가르칠 만큼 성숙해졌다는 확실한 신호입니다.
과거에는 MCP와 A2A, 그리고 AG-UI가 서로 경쟁한다는 프레이밍이 있었지만, 이제는 이러한 프로토콜이 근본적으로 다른 문제를 해결한다는 인식으로 바뀌었습니다. 이는 TCP, HTTP 및 HTML이 웹의 서로 다른 계층에서 작동하는 방식과 유사합니다. AG-UI는 바로 그 스택의 HTML과 같습니다. 즉, 하위 계층이 가능하게 하지만 그 자체로는 제공할 수 없는 프레젠테이션 및 상호작용 계층인 것입니다.
AIMock: 당신의 테스트 스위트는 거짓말을 하고 있었다
2026년 4월에 출시된 AIMock은 대부분의 팀이 에이전트를 구축하는 방식의 불편한 진실을 드러내는 도구를 기꺼이 출시하려는 코파일럿킷의 의지를 가장 직접적으로 보여줍니다. 여기서 말하는 불편한 진실은 에이전트 테스트 스위트(Test suites)가 대부분 형식적인 쇼에 불과하다는 것입니다. 2026년의 단일 에이전트 요청은 응답을 반환하기 전에 LLM, MCP 도구 서버, 벡터 데이터베이스, 재순위 지정기(Reranker), 웹 검색 API, 콘텐츠 조정 레이어, A2A를 통한 하위 에이전트 등 6~7개의 서비스를 거칠 수 있습니다. 하지만 대부분의 팀은 그 중 단 하나만 모킹(Mock)하고 있습니다.
Editors Pick Agentic AI AI Agents Promote Software Engineering Sponsored Staff Tech News For years, AI inside software meant a chat widget bolted onto the corner of an application. You typed, the model responded with text, and you manually translated that output into whatever you actually needed it to do. It was useful the way a calculator is useful: functional, but fundamentally passive. CopilotKi t, a Seattle-based startup co-founded by Atai Barkai and Uli Barkai, has spent the last two years arguing that the model is broken — and in 2026, the developer community is agreeing loudly. Give CopilotKit a ⭐️ on GitHub The company's approach is straightforward: the way forward is to enable agents to live inside applications, understand what users are doing, take actions, and show useful interfaces instead of just returning long blocks of text. That approach has produced a sharp 2026 shipping cycle covering three distinct infrastructure gaps, knowledge retrieval, testing reliability, and runtime persistence with each release targeting the unglamorous, often-skipped architecture that separates agent demos from production-grade systems. The Protocol Foundation: AG-UI Fills the Missing Slot Before the new tooling makes sense, the protocol layer underneath it needs to. The agentic ecosystem has quietly assembled a three-layer stack. MCP standardizes how agents access external tools and databases. A2A handles coordination between agents. AG-UI , created by CopilotKit, handles the third and previously unaddressed problem: the interaction layer between agents and human users inside software applications. While MCP and A2A handle context and agent coordination, AG-UI defines the layer of interaction between the user, the application, and the agent, providing transparency, safety, and control at the most critical boundary, where users interact with agents. Concretely, it enables real-time streaming responses, dynamic UI component generation, bidirectional state synchronization, and human-in-the-loop pauses where agents wait for user confirmation before proceeding. The protocol is today supported by major AI infrastructure providers like Google, Microsoft, Amazon, and Oracle, as well as popular frameworks including LangChain, Mastra, PydanticAI, and Agno. First-party SDKs cover LangGraph, CrewAI, Mastra, Agno, and Pydantic AI. On the community side, fully supported implementations now exist for Kotlin, Go, Dart, Java, Rust, Ruby, and C++, with .NET, Nim, Flowise, and Langflow currently in progress — a community SDK surface that goes well beyond what most protocols at this stage can claim. AWS has integrated AG-UI into its FAST (Fullstack AgentCore Solution Template) examples and Bedrock AgentCore, cementing its role as production infrastructure rather than an experimental standard. The ecosystem has also expanded into education: Atai Barkai teaches a full-stack AG-UI course on DeepLearning.AI, covering a LangChain backend, React frontend, and AG-UI as the runtime — a tangible signal that the protocol is mature enough to be taught, not just evaluated. The framing that once pitted MCP against A2A against AG-UI has given way to a recognition that these protocols solve fundamentally different problems — analogous to how TCP, HTTP, and HTML operate at different layers of the web. AG-UI is the HTML of that stack: the presentation and interaction layer that the lower layers make possible but cannot themselves provide. AIMock: Your Test Suite Was a Lie Released in April 2026, AIMock is the most direct manifestation of CopilotKit's willingness to ship tools that expose uncomfortable truths about how most teams are building. The uncomfortable truth here is that agentic test suites are mostly theater. A single agent request in 2026 can touch six or seven services before returning a response: the LLM, an MCP tool server, a vector database, a reranker, a web search API, a moderation layer, and a sub-agent over A2A. Most teams mock one of them. The other six are live, non-deterministic, and quietly making the test suite a lie. AIMock is the fix. One JSON config file. One port. Every service your AI app depends on. The tool covers eleven LLM providers — including OpenAI, Claude, Gemini, Bedrock, Azure, Vertex AI, Ollama, and Cohere — alongside full MCP JSON-RPC 2.0, A2A agent card discovery and SSE streaming, AG-UI event stream mocking for frontend testing, vector database simulation for deterministic RAG retrieval (Pinecone, Qdrant, ChromaDB compatible), and search, rerank, and moderation endpoints. Zero dependencies — everything built from Node.js builtins. Three capabilities separate it from every prior mocking tool in this space. Record-and-replay proxies real API calls, saves them as fixtures, and replays them in CI forever without touching live APIs again. Drift detection runs daily against real provider APIs and catches response format changes within 24 hours, before users encounter them — because LLM providers regularly update their schemas without notice. Chaos testing lets developers inject 500 errors, malformed JSON, and mid-stream disconnects to verify their application handles failures gracefully rather than discovering that edge case in production. AG-UI itself uses AIMock for its own end-to-end test suite, verifying agent behavior across LLM providers with fixture-driven responses. When the protocol uses the tool to test itself, the self-referential signal is hard to dismiss. Pathfinder: Agent-Native Knowledge Infrastructure The third pillar of the 2026 cycle addresses how agents find accurate, current information about the software and documentation they are supposed to work with — a problem that rarely surfaces in demos but consistently blocks production deployments. Pathfinder is a self-hosted MCP server that indexes docs, code, Notion pages, Slack threads, and Discord forums into searchable, agent-accessible knowledge via MCP — one config file, one command, compatible with any AI coding agent. GitHub repositories are ingested at the document level — Markdown, MDX, HTML, and source code — while conversational sources like Slack and Discord are distilled into searchable question-and-answer pairs that surface institutional knowledge usually trapped in chat history. The search architecture combines hybrid vector and keyword retrieval, which matters in practice because pure semantic search fails on exact identifiers, error codes, and API names that appear verbatim in queries. Pluggable embeddings support OpenAI, Ollama, and local transformers.js, meaning fully air-gapped deployments that require no external API key are a first-class option rather than an afterthought. Configuration lives entirely in a single pathfinder.yaml file. GitHub push events trigger incremental reindexing through webhook integration. Auto-generated endpoints — /llms.txt, /llms-full.txt, and /.well-known/skills/default/skill.md — give agents and clients standard discovery paths without additional configuration. CopilotKit runs Pathfinder for its own public documentation, accessible at mcp.pathfinder.copilotkit.dev, making it a live proof-of-concept rather than a reference architecture. The self-hosted privacy model is explicit: self-hosted Pathfinder sends nothing externally. Telemetry is gated on a CopilotKit-internal environment variable that is not set in any publicly distributed image or package. The Stack That Closes the Production Gap The throughline across these three releases is not obvious from any single tool in isolation. Pathfinder addresses knowledge retrieval — agents need accurate, queryable context about the systems they operate within. AIMock addresses testing reliability — every service in the agentic call chain needs to be mockable, deterministic, and observable before shipping. CopilotKit Enterprise Intelligence, the persistence layer, addresses runtime memory — agents need to carry context across sessions and devices without engineering teams building that infrastructure