메뉴
HN
Hacker News 44일 전

클라우드플레어, 에이전트 최적화 통합 AI 추론 플랫폼 발표

IMP
8/10
핵심 요약

클라우드플레어가 단 하나의 API로 여러 AI 제공업체의 모델을 사용할 수 있는 통합 추론(Inference) 레이어를 발표했습니다. 이 플랫폼은 코딩 에이전트 등 복잡한 AI 워크플로우에서 발생하는 지연 시간 증가와 비용 관리 문제를 해결하는 데 초점을 맞추고 있습니다. 개발자는 이제 클라우드플레어 인프라 내에서 오픈소스 모델부터 상용 모델까지 자유롭게 전환하며 멀티모달 애플리케이션을 구축할 수 있습니다.

번역된 본문

클라우드플레어의 AI 플랫폼: 에이전트를 위해 설계된 추론 레이어

2026-04-16 Ming Lu, Michelle Chen (읽는 데 5분 소요)

AI 모델은 매우 빠르게 변화하고 있습니다. 오늘 에이전트 코딩(Agentic coding)에 가장 적합한 모델이 3개월 뒤에는 완전히 다른 제공업체의 다른 모델이 될 수도 있습니다. 게다가 실제 사용 사례에서는 하나 이상의 모델을 호출해야 하는 경우가 많습니다. 고객 지원 챗봇의 경우, 사용자 메시지를 분류할 때는 빠르고 저렴한 모델을 사용하고, 다음 행동을 계획할 때는 대형 추론(Reasoning) 모델을 사용하며, 개별 작업을 실행할 때는 가벼운 모델을 사용할 수 있습니다.

이는 재정적, 운영적으로 단일 제공업체에 종속되지 않으면서 모든 모델에 액세스할 수 있어야 함을 의미합니다. 또한 제공업체 전반에 걸쳐 비용을 모니터링하고, 한 제공업체에 장애가 발생했을 때 안정성을 보장하며, 사용자가 어디에 있든 지연 시간(Latency)을 관리할 수 있는 적절한 시스템이 필요합니다.

이러한 문제는 AI를 활용해 애플리케이션을 구축할 때마다 발생하지만, 에이전트를 구축할 때 특히 더 시급해집니다. 단순한 챗봇은 사용자 프롬프트당 하나의 추론 호출(Inference call)을 수행할 수 있습니다. 반면 에이전트는 단일 작업을 완료하기 위해 10개의 호출을 연결(Chain)할 수 있으며, 단일 느린 제공업체가 50ms가 아닌 500ms의 지연을 추가하게 됩니다. 하나의 실패한 요청은 단순한 재시도로 끝나는 것이 아니라 갑자기 다운스트림 장애의 연쇄(Cascade)를 일으키게 됩니다.

AI 게이트웨이(AI Gateway)와 워커스 AI(Workers AI)를 출시한 이후, 클라우드플레어에서 AI 기반 애플리케이션을 구축하는 개발자들의 엄청난 호응을 보았고 이에 발맞추어 빠르게 제품을 출시하고 있습니다! 지난 몇 달 동안 대시보드를 새로 고치고, 설정이 필요 없는 기본 게이트웨이, 업스트림 장애 시 자동 재시도, 더 세분화된 로깅 제어 기능을 추가했습니다.

오늘 우리는 클라우드플레어를 통합 추론 레이어로 만들고 있습니다. 즉, 빠르고 안정적으로 구축된 단 하나의 API로 모든 제공업체의 AI 모델에 액세스할 수 있습니다.

하나의 카탈로그, 하나의 통합 엔드포인트 오늘부터 여러분은 이미 워커스 AI에서 사용 중인 동일한 AI.run() 바인딩을 사용하여 타사 모델을 호출할 수 있습니다. 워커스를 사용 중이라면, 클라우드플레어에서 호스팅하는 모델에서 OpenAI, Anthropic 또는 다른 제공업체의 모델로 전환하는 것이 단 한 줄의 코드 변경으로 가능합니다.

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } );

워커스를 사용하지 않는 분들을 위해, 앞으로 몇 주 내에 REST API 지원을 릴리스할 예정이므로 모든 환경에서 전체 모델 카탈로그에 액세스할 수 있습니다. 또한 이제 단 하나의 API를 통해 12개 이상의 제공업체에서 제공하는 70개 이상의 모델에 액세스할 수 있게 되었으며, 이들 간을 전환하는 데 단 한 줄의 코드만 필요하고 결제도 하나의 크레딧으로 통합할 수 있게 되었습니다. 앞으로도 이를 빠르게 확장해 나갈 것입니다.

클라우드플레어 워커스 AI에서 호스팅되는 오픈소스 모델부터 주요 모델 제공업체의 독점 모델에 이르기까지, 모델 카탈로그를 탐색하여 사용 사례에 가장 적합한 모델을 찾을 수 있습니다. 우리는 알리바바 클라우드(Alibaba Cloud), 어셈블리AI(AssemblyAI), 바이트댄스(Bytedance), 구글(Google), 인월드(InWorld), 미니맥스(MiniMax), 오픈AI(OpenAI), 픽스버스(Pixverse), 리크래프트(Recraft), 런웨이(Runway), 비두(Vidu) 등으로부터 AI 게이트웨이를 통해 모델을 제공받아 접근성을 확장하게 된 것을 기쁘게 생각합니다. 특히 멀티모달 애플리케이션을 구축할 수 있도록 이미지, 비디오 및 음성 모델을 포함하도록 모델 제품군을 확장하고 있습니다.

단일 API를 통해 모든 모델에 액세스한다는 것은 모든 AI 지출을 한 곳에서 관리할 수 있음을 의미합니다. 오늘날 대부분의 기업은 여러 제공업체에 걸쳐 평균 3.5개의 모델을 호출하고 있으며, 이는 어떤 단일 제공업체도 전체적인 AI 사용 현황을 파악할 수 없다는 것을 뜻합니다. AI 게이트웨이를 사용하면 AI 지출을 모니터링하고 관리할 수 있는 중앙 집중식 환경을 제공받습니다. 요청에 사용자 정의 메타데이터를 포함하면 무료 사용자와 유료 사용자, 개별 고객 또는 애플리케이션 내 특정 워크플로우 등 가장 중요한 속성을 기준으로 비용을 세분화하여 확인할 수 있습니다.

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } );

자체 모델 가져오기(Bring your own model) AI 게이트웨이를 통해 단일 API로 모든 제공업체의 모델에 액세스할 수 있습니다. 하지만 때로는 직접 모델을 실행해야 할 필요도 있습니다...

원문 보기
원문 보기 (영어)
Cloudflare’s AI Platform: an inference layer designed for agents 2026-04-16 Ming Lu Michelle Chen 5 min read AI models are changing quickly: the best model to use for agentic coding today might in three months be a completely different model from a different provider. On top of this, real-world use cases often require calling more than one model. Your customer support agent might use a fast, cheap model to classify a user's message; a large, reasoning model to plan its actions; and a lightweight model to execute individual tasks. This means you need access to all the models, without tying yourself financially and operationally to a single provider. You also need the right systems in place to monitor costs across providers, ensure reliability when one of them has an outage, and manage latency no matter where your users are. These challenges are present whenever you’re building with AI, but they get even more pressing when you’re building agents . A simple chatbot might make one inference call per user prompt. An agent might chain ten calls together to complete a single task and suddenly, a single slow provider doesn't add 50ms, it adds 500ms. One failed request isn't a retry, but suddenly a cascade of downstream failures. Since launching AI Gateway and Workers AI, we’ve seen incredible adoption from developers building AI-powered applications on Cloudflare and we’ve been shipping fast to keep up! In just the past few months, we've refreshed the dashboard, added zero-setup default gateways, automatic retries on upstream failures, and more granular logging controls. Today, we’re making Cloudflare into a unified inference layer: one API to access any AI model from any provider, built to be fast and reliable. One catalog, one unified endpoint Starting today, you can call third-party models using the same AI.run() binding you already use for Workers AI. If you’re using Workers, switching from a Cloudflare-hosted model to one from OpenAI, Anthropic, or any other provider is a one-line change. const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } ); For those who don’t use Workers, we’ll be releasing REST API support in the coming weeks, so you can access the full model catalog from any environment. We’re also excited to share that you'll now have access to 70+ models across 12+ providers — all through one API, one line of code to switch between them, and one set of credits to pay for them. And we’re quickly expanding this as we go. You can browse through our model catalog to find the best model for your use case, from open-source models hosted on Cloudflare Workers AI to proprietary models from the major model providers. We’re excited to be expanding access to models from Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, and Vidu — who will provide their models through AI Gateway. Notably, we’re expanding our model offerings to include image, video, and speech models so that you can build multimodal applications Accessing all your models through one API also means you can manage all your AI spend in one place. Most companies today are calling an average of 3.5 models across multiple providers, which means no one provider is able to give you a holistic view of your AI usage. With AI Gateway, you’ll get one centralized place to monitor and manage AI spend. By including custom metadata with your requests, you can get a breakdown of your costs on the attributes that you care about most, like spend by free vs. paid users, by individual customers, or by specific workflows in your app. const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } } ); Bring your own model AI Gateway gives you access to models from all the providers through one API. But sometimes you need to run a model you've fine-tuned on your own data or one optimized for your specific use case. For that, we are working on letting users bring their own model to Workers AI. The overwhelming majority of our traffic comes from dedicated instances for Enterprise customers who are running custom models on our platform, and we want to bring this to more customers. To do this, we leverage Replicate’s Cog technology to help you containerize machine learning models. Cog is designed to be quite simple: all you need to do is write down dependencies in a cog.yaml file, and your inference code in a Python file. Cog abstracts away all the hard things about packaging ML models, such as CUDA dependencies, Python versions, weight loading, etc. Example of a cog.yaml file: build: python_version: "3.13" python_requirements: requirements.txt predict: "predict.py:Predictor" Example of a predict.py file, which has a function to set up the model and a function that runs when you receive an inference request (a prediction): from cog import BasePredictor, Path, Input import torch class Predictor(BasePredictor): def setup(self): """Load the model into memory to make running multiple predictions efficient""" self.net = torch.load("weights.pth") def predict(self, image: Path = Input(description="Image to enlarge"), scale: float = Input(description="Factor to scale image by", default=1.5) ) -> Path: """Run a single prediction on the model""" # ... pre-processing ... output = self.net(input) # ... post-processing ... return output Then, you can run cog build to build your container image, and push your Cog container to Workers AI. We will deploy and serve the model for you, which you then access through your usual Workers AI APIs. We’re working on some big projects to be able to bring this to more customers, like customer-facing APIs and wrangler commands so that you can push your own containers, as well as faster cold starts through GPU snapshotting. We’ve been testing this internally with Cloudflare teams and some external customers who are guiding our vision. If you’re interested in being a design partner with us, please reach out! Soon, anyone will be able to package their model and use it through Workers AI. The fast path to first token Using Workers AI models with AI Gateway is particularly powerful if you’re building live agents – where a user's perception of speed hinges on time to first token or how quickly the agent starts responding, rather than how long the full response takes. Even if total inference is 3 seconds, getting that first token 50ms faster makes the difference between an agent that feels zippy and one that feels sluggish. Cloudflare's network of data centers in 330 cities around the world means AI Gateway is positioned close to both users and inference endpoints, minimizing the network time before streaming begins. Workers AI also hosts open-source models on its public catalog, which now includes large models purpose-built for agents, including Kimi K2.5 and real-time voice models. When you call these Cloudflare-hosted models through AI Gateway, there's no extra hop over the public Internet since your code and inference run on the same global network, giving your agents the lowest latency possible. Built for reliability with automatic failover When building agents, speed is not the only factor that users care about – reliability matters too. Every step in an agent workflow depends on the steps before it. Reliable inference is crucial for agents because one call failing can affect the entire downstream chain. Through AI Gateway, if you're calling a model that's available on multiple providers and one provider goes down, we'll automatically route to another available provider without you having to write any failover logic of your own. If you’re building long-running agents with Agents SDK , your streaming inference calls are also resilient to disconnects. AI Gateway buffers streaming responses as they’re generated, independently of your agent