클라우드플레어, 에이전트 최적화 통합 AI 추론 플랫폼 발표
클라우드플레어가 단 하나의 API로 여러 AI 제공업체의 모델을 사용할 수 있는 통합 추론(Inference) 레이어를 발표했습니다. 이 플랫폼은 코딩 에이전트 등 복잡한 AI 워크플로우에서 발생하는 지연 시간 증가와 비용 관리 문제를 해결하는 데 초점을 맞추고 있습니다. 개발자는 이제 클라우드플레어 인프라 내에서 오픈소스 모델부터 상용 모델까지 자유롭게 전환하며 멀티모달 애플리케이션을 구축할 수 있습니다.
클라우드플레어의 AI 플랫폼: 에이전트를 위해 설계된 추론 레이어
2026-04-16 Ming Lu, Michelle Chen (읽는 데 5분 소요)
AI 모델은 매우 빠르게 변화하고 있습니다. 오늘 에이전트 코딩(Agentic coding)에 가장 적합한 모델이 3개월 뒤에는 완전히 다른 제공업체의 다른 모델이 될 수도 있습니다. 게다가 실제 사용 사례에서는 하나 이상의 모델을 호출해야 하는 경우가 많습니다. 고객 지원 챗봇의 경우, 사용자 메시지를 분류할 때는 빠르고 저렴한 모델을 사용하고, 다음 행동을 계획할 때는 대형 추론(Reasoning) 모델을 사용하며, 개별 작업을 실행할 때는 가벼운 모델을 사용할 수 있습니다.
이는 재정적, 운영적으로 단일 제공업체에 종속되지 않으면서 모든 모델에 액세스할 수 있어야 함을 의미합니다. 또한 제공업체 전반에 걸쳐 비용을 모니터링하고, 한 제공업체에 장애가 발생했을 때 안정성을 보장하며, 사용자가 어디에 있든 지연 시간(Latency)을 관리할 수 있는 적절한 시스템이 필요합니다.
이러한 문제는 AI를 활용해 애플리케이션을 구축할 때마다 발생하지만, 에이전트를 구축할 때 특히 더 시급해집니다. 단순한 챗봇은 사용자 프롬프트당 하나의 추론 호출(Inference call)을 수행할 수 있습니다. 반면 에이전트는 단일 작업을 완료하기 위해 10개의 호출을 연결(Chain)할 수 있으며, 단일 느린 제공업체가 50ms가 아닌 500ms의 지연을 추가하게 됩니다. 하나의 실패한 요청은 단순한 재시도로 끝나는 것이 아니라 갑자기 다운스트림 장애의 연쇄(Cascade)를 일으키게 됩니다.
AI 게이트웨이(AI Gateway)와 워커스 AI(Workers AI)를 출시한 이후, 클라우드플레어에서 AI 기반 애플리케이션을 구축하는 개발자들의 엄청난 호응을 보았고 이에 발맞추어 빠르게 제품을 출시하고 있습니다! 지난 몇 달 동안 대시보드를 새로 고치고, 설정이 필요 없는 기본 게이트웨이, 업스트림 장애 시 자동 재시도, 더 세분화된 로깅 제어 기능을 추가했습니다.
오늘 우리는 클라우드플레어를 통합 추론 레이어로 만들고 있습니다. 즉, 빠르고 안정적으로 구축된 단 하나의 API로 모든 제공업체의 AI 모델에 액세스할 수 있습니다.
하나의 카탈로그, 하나의 통합 엔드포인트 오늘부터 여러분은 이미 워커스 AI에서 사용 중인 동일한 AI.run() 바인딩을 사용하여 타사 모델을 호출할 수 있습니다. 워커스를 사용 중이라면, 클라우드플레어에서 호스팅하는 모델에서 OpenAI, Anthropic 또는 다른 제공업체의 모델로 전환하는 것이 단 한 줄의 코드 변경으로 가능합니다.
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } );
워커스를 사용하지 않는 분들을 위해, 앞으로 몇 주 내에 REST API 지원을 릴리스할 예정이므로 모든 환경에서 전체 모델 카탈로그에 액세스할 수 있습니다. 또한 이제 단 하나의 API를 통해 12개 이상의 제공업체에서 제공하는 70개 이상의 모델에 액세스할 수 있게 되었으며, 이들 간을 전환하는 데 단 한 줄의 코드만 필요하고 결제도 하나의 크레딧으로 통합할 수 있게 되었습니다. 앞으로도 이를 빠르게 확장해 나갈 것입니다.
클라우드플레어 워커스 AI에서 호스팅되는 오픈소스 모델부터 주요 모델 제공업체의 독점 모델에 이르기까지, 모델 카탈로그를 탐색하여 사용 사례에 가장 적합한 모델을 찾을 수 있습니다. 우리는 알리바바 클라우드(Alibaba Cloud), 어셈블리AI(AssemblyAI), 바이트댄스(Bytedance), 구글(Google), 인월드(InWorld), 미니맥스(MiniMax), 오픈AI(OpenAI), 픽스버스(Pixverse), 리크래프트(Recraft), 런웨이(Runway), 비두(Vidu) 등으로부터 AI 게이트웨이를 통해 모델을 제공받아 접근성을 확장하게 된 것을 기쁘게 생각합니다. 특히 멀티모달 애플리케이션을 구축할 수 있도록 이미지, 비디오 및 음성 모델을 포함하도록 모델 제품군을 확장하고 있습니다.
단일 API를 통해 모든 모델에 액세스한다는 것은 모든 AI 지출을 한 곳에서 관리할 수 있음을 의미합니다. 오늘날 대부분의 기업은 여러 제공업체에 걸쳐 평균 3.5개의 모델을 호출하고 있으며, 이는 어떤 단일 제공업체도 전체적인 AI 사용 현황을 파악할 수 없다는 것을 뜻합니다. AI 게이트웨이를 사용하면 AI 지출을 모니터링하고 관리할 수 있는 중앙 집중식 환경을 제공받습니다. 요청에 사용자 정의 메타데이터를 포함하면 무료 사용자와 유료 사용자, 개별 고객 또는 애플리케이션 내 특정 워크플로우 등 가장 중요한 속성을 기준으로 비용을 세분화하여 확인할 수 있습니다.
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } );
자체 모델 가져오기(Bring your own model) AI 게이트웨이를 통해 단일 API로 모든 제공업체의 모델에 액세스할 수 있습니다. 하지만 때로는 직접 모델을 실행해야 할 필요도 있습니다...