MCP: 관측 가능성의 새로운 인터페이스로 부상
AI 에이전트가 인프라 데이터에 직접 접근할 수 있도록 돕는 '모델 컨텍스트 프로토콜(MCP)'이 관측 가능성(Observability) 분야의 새로운 표준 인터페이스로 자리 잡고 있습니다. 기존 플랫폼을 래핑하는 방식을 넘어, eBPF 등을 활용해 MCP 자체가 관측 가능성 계층 역할을 하도록 구축하는 'MCP 네이티브' 접근 방식이 근본적인 원인을 파악하는 데 훨씬 효과적임을 보여줍니다.
TL;DR MCP는 AI 에이전트와 인프라 데이터 사이의 인터페이스가 되고 있습니다. 데이타독(Datadog)은 대시보드를 AI 에이전트에 연결하는 MCP 서버를 출시했고, 퀄리스(Qualys)는 MCP 서버를 새로운 섀도우 IT(Shadow IT) 위험으로 지목했습니다. 우리는 두 주장 모두 맞다고 생각하지만, 아키텍처는 한 단계 더 발전해야 한다고 봅니다. 즉, MCP 서버가 기존의 관측 가능성 플랫폼을 단순히 래핑(Wrapping)하는 데 그치는 것이 아니라, 그 자체로 관측 가능성 계층(Observability layer)이 되어야 합니다. 이 글에서는 기존의 메트릭 파이프라인을 완전히 우회하여, MCP가 커널 트레이스포인트(Kernel tracepoints)에 직접 연결되는 관측 가능성 인터페이스로 어떻게 작동할 수 있는지 탐구합니다.
일주일에 나타난 세 가지 신호 2026년 3월의 어느 한 주 동안, 관측 가능성 분야의 향후 방향을 암시하는 세 가지 사건이 일어났습니다. 첫째, 데이타독이 MCP 서버를 출시했습니다. 이 구현은 실시간 관측 가능성 데이터를 AI 에이전트와 연결하여 자동화된 탐지 및 해결을 가능하게 합니다. 이제 AI 에이전트는 MCP(모델 컨텍스트 프로토콜)를 통해 데이타독 대시보드를 쿼리하고, 메트릭을 가져와서, 응답을 트리거할 수 있습니다. 이는 대기업이 하나의 작은 프로토콜을 검증한 것입니다.
둘째, 퀄리스가 MCP 서버에 대한 보안 분석을 발표했습니다. 그들의 TotalAI 팀은 MCP 서버를 'AI를 위한 새로운 섀도우 IT'라고 불렀으며, 서버의 53% 이상이 인증에 정적 시크릿(Static secrets)에 의존하고 있음을 발견했습니다. 그들은 MCP 서버에 관측 가능성을 추가할 것을 권장했습니다. 즉, 기능 검색 이벤트의 로깅, 호출 패턴 모니터링, 이상 징후에 대한 경고 등입니다.
셋째, Cloud Native Now에서 쿠버네티스(Kubernetes) 네트워크 관측 가능성을 위한 eBPF를 다루었습니다. 마이크로소프트의 Retina는 DaemonSet으로 배포되어, 애플리케이션 변경 없이 eBPF를 통해 네트워크 원격 측정 데이터를 캡처하고 커널 수준의 패킷 손실(Drop) 원인을 제공합니다. 이 기사는 '모니터링(미리 정의된 질문)'과 '관측 가능성(아무도 예상치 못한 질문을 던지는 것)'의 명확한 경계를 그었습니다.
이 세 가지를 연결하는 공통된 실마리는 바로 이것입니다. AI 에이전트는 인프라 원격 측정 데이터(Telemetry)에 직접 접근해야 하며, MCP가 그 방법이 되고 있다는 것입니다.
MCP 관측 가능성을 위한 두 가지 접근 방식 MCP를 통해 관측 가능성 데이터를 AI 에이전트에 연결하는 방법에는 두 가지가 있습니다.
접근 방식 1: 기존 플랫폼 래핑하기. 데이타독의 전략입니다. 이미 수집되고 집계된 기존의 메트릭, 로그, 트레이스를 가져와서 MCP 도구를 통해 노출시킵니다. AI 에이전트는 대시보드 API를 쿼리하여 전처리된 데이터를 얻고, 이를 바탕으로 행동합니다. 이 방식은 성숙한 관측 가능성 스택을 갖춘 팀이 그 위에 AI 기반 자동화를 추가하고자 할 때 적합합니다.
접근 방식 2: MCP 네이티브 관측 가능성 구축. 우리가 트레이서(Tracer)로 구현한 방식입니다. 기존 플랫폼을 래핑하는 대신, uprobes를 통해 CUDA 런타임 및 드라이버 API를 추적하는 eBPF 에이전트를 구축하고, 결과를 SQLite에 저장한 다음 7개의 MCP 도구를 통해 모든 것을 노출했습니다. MCP 인터페이스는 단순한 어댑터 계층이 아니라 기본 인터페이스입니다.
어느 쪽이 틀렸다는 것은 아닙니다. 이들은 각기 다른 문제를 해결합니다. 래퍼(Wrapper) 접근 방식은 집계 분석, 예를 들어 '지난 1시간 동안 서비스 X의 p99 지연 시간(Latency)은 얼마였나?'와 같은 질문에 잘 작동합니다. 데이터가 이미 요약되고, 인덱싱되어 있으며 쿼리가 가능하기 때문입니다.
반면, 네이티브 접근 방식은 근본 원인 조사에 더 적합합니다. 예를 들어, '이 특정 GPU 요청은 왜 예상보다 14.5배 더 오래 걸렸을까?'와 같은 질문에는 요약 데이터가 아니라 원시 커널 이벤트, CUDA 콜 스택(Call stack), 인과 관계 체인(Causal chains)이 필요합니다. AI 에이전트는 데이터를 롤업(요약)하는 것이 아니라 더 깊이 파고들어야 합니다.
실제 사례에서의 MCP 네이티브 관측 가능성 구체적인 예시를 들어보겠습니다. 우리는 vLLM TTFT(Time To First Token) 회귀(Regression) 문제를 추적했는데, 첫 번째 토큰이 베이스라인보다 14.5배 더 오래 걸렸습니다. 트레이스 데이터베이스는 모든 CUDA API 호출, 모든 커널 컨텍스트 스위치(Context switch), 모든 메모리 할당을 캡처했습니다.
클로드(Claude)가 MCP 서버에 연결하여 이 데이터베이스를 로드하면 다음과 같은 작업을 수행할 수 있습니다.
- get_trace_stats – 전체 트레이스 요약 확인 (12,847개의 CUDA 이벤트, 4개의 인과 관계 체인, 총 GPU 시간)
- get_causal_chains – 왜 지연 시간이 급증했는지 설명하는 인과 관계 체인을 일상적인 영어(Plain English)로 읽기
- run_sql – 원시 이벤트 데이터에 대해 사용자 지정 쿼리 실행 (예: '100ms 이상의 모든 cudaMemcpyAsync 호출 보여줘')
- get_stacks – 플래그가 지정된 이벤트에 대한 콜 스택 검사
클로드는 30초 안에 근본 원인을 파악했습니다. 핵심 경로(Critical path)에서 logprobs 연산이 디코딩 루프(Decode loop)를 차단하여 256배의 속도 저하를 일으킨 것입니다. 이 근본 원인은 어떤 집계 메트릭에서도 볼 수 없었습니다. 오직 [원시 데이터에서만 확인할 수 있었습니다.]