메뉴
BL
The Decoder 38일 전

구글, 8세대 TPU 및 에이전트 플랫폼 공개

IMP
9/10
핵심 요약

구글이 'Cloud Next 26' 컨퍼런스에서 학습과 추론을 분리한 8세대 TPU, 자율 AI 에이전트 개발을 위한 'Gemini Enterprise Agent Platform', 그리고 앱 간 정보를 연결하는 'Workspace Intelligence'를 발표했습니다. 이번 발표는 최대 100만 개의 칩을 연결하는 압도적인 확장성과 단일 플랫폼에서 안전하게 에이전트를 구축 및 운영하려는 구글의 'Agentic Enterprise' 전략을 핵심으로 다룹니다.

번역된 본문

구글, Cloud Next '26에서 8세대 TPU, 에이전트 플랫폼 및 워크스페이스 AI 레이어 공개 작성자: Maximilian Schreiner | 2026년 4월 22일

Google Key Points (핵심 요약)

  • 구글은 처음으로 8세대 TPU를 학습용과 추론용 칩으로 분리했습니다.
  • 단일 칩의 최고 성능을 추구하기보다는 규모의 경제(Scale)에 집중하며, 최대 100만 개의 칩을 거대 클러스터로 연결하고자 합니다.
  • 새로운 Gemini Enterprise Agent Platform은 자율 AI 에이전트의 생성과 안전한 운영을 간소화하기 위해 설계되었습니다. 이 플랫폼은 다단계 프로세스를 위한 장기 기억을 에이전트에 제공하며, 암호화된 신원 확인과 이상 탐지를 통해 시스템 보안을 유지합니다.
  • 또한 구글은 Workspace Intelligence를 도입했습니다. 이 레이어는 Gmail, 문서, 드라이브 등 다양한 앱의 정보를 중앙에서 연결하여 AI 모델이 여러 앱에 걸친 데이터의 관계를 이해할 수 있도록 돕습니다.

본문

구글은 'Cloud Next 26' 컨퍼런스를 통해 8세대 TPU, 리뉴얼된 에이전트 플랫폼, 그리고 워크스페이스를 위한 새로운 AI 레이어를 공개했습니다. 회사는 이 모든 패키지를 "Agentic Enterprise"라는 배너 아래에 내세우고 있습니다.

구글은 처음으로 텐서 처리 장치(TPU)를 TPU 8t(학습용)와 TPU 8i(추론용) 두 가지 변형으로 분리했습니다. AI 및 인프라 수석 부사장 겸 최고 기술 책임자(CTO)인 아민 바다트(Amin Vahdat)에 따르면, 이러한 변화는 계획, 행동, 학습을 반복하는 루프 구조의 에이전트로부터 급증하는 추론 수요에 대응하기 위한 것입니다.

엔비디아(Nvidia)와 비교할 때, 구글은 순수 단일 칩의 성능보다는 규모 확장에 더 큰 베팅을 하고 있습니다. The Register가 지적했듯, 엔비디아의 차세대 Rubin GPU는 칩당 더 많은 컴퓨팅 파워와 상당히 높은 메모리 대역폭을 TPU 8t보다 제공합니다. 하지만 최첨단 프론티어 모델(Frontier model)을 학습할 때 중요한 것은 얼마나 많은 칩을 효율적으로 함께 연결할 수 있는가입니다.

The Register에 따르면 바로 이 부분에서 구글이 우위를 점하고 있습니다. 엔비디아의 최신 GPU는 느린 이더넷이나 인피니밴드(InfiniBand) 링크가 필요해지기 전까지 단일 NVLink 도메인에 최대 576개의 가속기를 연결합니다. 반면 구글은 광 회로 스위치(Optical circuit switches)를 사용하여 단일 포드(Pod)에 9,600개의 TPU를 연결합니다. 새로운 Virgo 네트워크는 여러 데이터센터를 묶어 최대 100만 개의 TPU 클러스터를 구성할 수 있게 합니다. 관리형 Lustre 스토리지 시스템은 데이터를 가속기 메모리로 직접 밀어 넣습니다. 구글은 약 97%의 '굿풋(Goodput)' 비율을 목표로 하고 있습니다. 이는 칩이 오류로 인한 복구나 체크포인트 대기 상태에 머무는 대신 실제 학습에 소비하는 시간의 비율을 의미합니다.

TPU 8i 추론 칩은 일부 컴퓨팅 파워를 포기하는 대신 더 많은 온칩 SRAM과 더 빠른 HBM을 탑재했습니다. 더 큰 용량의 SRAM은 핵심-값 캐시(Key-value cache, 본질적으로 모델이 이전 응답을 기억하는 메모리)의 더 많은 부분을 칩에 직접 유지하므로, 코어가 데이터를 기다리며 유휴 상태가 되는 것을 방지합니다. 전담 가속 엔진(Collective Acceleration Engine)은 MoE(Mixture-of-Experts) 모델의 속도를 높이도록 설계되었습니다. 또한 구글은 칩 간 지연 시간을 줄이기 위해 'Boardfly'라는 네트워크 토폴로지를 개발했습니다. 이제 두 가지 TPU 모두 처음으로 구글의 Arm 기반 Axion CPU에서 구동됩니다.

에이전트 구축 및 실행을 위한 단일 플랫폼 소프트웨어 측면에서 구글은 기존 AI 서비스를 Vertex AI 기반으로 구축된 'Gemini Enterprise Agent Platform'에 통합했습니다. 구축과 관련해서 개발자들이 여러 에이전트가 함께 작동하는 방식을 순서도(Flowchart)로 매핑할 수 있는 도구와, 자연어를 통해 에이전트를 생성하는 'Agent Studio'라는 인터페이스가 제공됩니다. 중앙 레지스트리는 조직 내에 거의 동일한 수십 개의 에이전트가 양산되는 것을 방지합니다.

에이전트 실행 측면에서 구글은 잘 알려진 취약점들을 개선하고자 합니다. 장기 실행 에이전트는 이제 모든 단계에서 사람의 입력을 기다리며 일시 정지하는 대신 다단계 프로세스를 자체적으로 처리할 수 있습니다. 샌드박스(Sandbox) 테스트 환경은 호스트 시스템을 위험에 빠뜨리지 않고도 에이전트가 자체 코드나 브라우저 자동화를 실행할 수 있게 합니다. 또한 메모리 뱅크(Memory Bank)는 에이전트에게 장기 기억을 제공하여 매 세션마다 처음부터 다시 시작할 필요가 없게 만듭니다.

자율 에이전트는 새로운 보안 취약점(Attack surface)을 노출시킬 수 있기 때문에, 구글은 이에 상응하는 제어 기능도 제공합니다. 암호화된 신원 확인 및...

원문 보기
원문 보기 (영어)
Google unveils 8th-gen TPUs, agent platform, and Workspace AI layer at Cloud Next '26 Maximilian Schreiner View the LinkedIn Profile of Maximilian Schreiner Apr 22, 2026 Google Key Points For the first time, Google is splitting its eighth-generation TPUs into separate chips for training and inference. Instead of chasing peak single-chip performance, the company is betting on scale, linking up to one million chips in massive clusters. The new Gemini Enterprise Agent Platform is built to simplify the creation and safe operation of autonomous AI agents. It gives agents long-term memory for multi-step processes and aims to keep systems secure through cryptographic identities and anomaly detection. Google is also introducing Workspace Intelligence, a layer that centrally connects information across apps like Gmail, Docs, and Drive, so AI models can understand relationships that span multiple apps. Ask about this article… Search Google used its Cloud Next '26 conference to unveil its eighth-generation TPUs, a revamped agent platform, and a new AI layer for Workspace. The company is pitching the whole package under the banner "Agentic Enterprise." For the first time, Google is splitting its Tensor Processing Units into two variants: TPU 8t for training and TPU 8i for inference. According to Amin Vahdat , SVP and chief technologist for AI and infrastructure, the move is a response to rising inference demands from agents that plan, act, and learn in loops. Compared to Nvidia, Google is betting less on raw single-chip performance and more on scale. As The Register notes , Nvidia's upcoming Rubin GPUs offer more compute and significantly more memory bandwidth per chip than the TPU 8t. But when training frontier models, what matters is how many chips you can efficiently link together. Ad That's where Google has the edge, according to The Register. Nvidia's latest GPUs connect up to 576 accelerators in a single NVLink domain before slower Ethernet or InfiniBand links kick in. Google, by contrast, uses optical circuit switches to link 9,600 TPUs in a single pod. Its new Virgo Network can tie multiple data centers together into clusters of up to one million TPUs. A managed Lustre storage system pushes data straight into accelerator memory. Google is targeting a "goodput" rate of around 97 percent - meaning the share of time chips spend actually training rather than waiting on checkpoints or recovering from errors. Ad DEC_D_Incontent-1 The TPU 8i inference chip trades some compute for more on-chip SRAM and faster HBM. The larger SRAM keeps more of the key-value cache - essentially the model's memory of previous responses - directly on the chip, so cores don't sit idle waiting for data. A Collective Acceleration Engine is designed to speed up mixture-of-experts models. Google also developed a network topology called Boardfly to cut chip-to-chip latency. Both TPUs now run on Google's Arm-based Axion CPUs for the first time. Ad A single platform for building and running agents On the software side, Google is bundling its existing AI services into the Gemini Enterprise Agent Platform , which builds on Vertex AI. For building, there's a tool that lets developers map out how multiple agents work together as a flowchart, plus an interface called Agent Studio for creating agents through natural language. A central registry is meant to prevent organizations from ending up with dozens of nearly identical agents. For running agents, Google is taking aim at well-known weak spots. Long-running agents can now handle multi-step processes on their own instead of pausing for human input at every step. Sandboxed test environments let agents execute their own code or browser automations without putting host systems at risk. A Memory Bank gives agents long-term memory so they don't start from scratch with every session. Ad DEC_D_Incontent-2 Ad Because autonomous agents open up new attack surfaces, Google is shipping controls to match: cryptographic identities for each agent, upstream filters against prompt injection, and anomaly detection for suspicious behavior like unauthorized data access or reasoning loops that never end. Simulation tools let teams test agents against synthetic user interactions before they ever meet a real customer. How effective these safeguards actually are remains to be seen. Available models include Gemini 3.1 Pro, Nano Banana 2, and Lyria 3, along with Anthropic's Claude Opus, Sonnet, Haiku, and the newly added Claude Opus 4.7. The accompanying Gemini Enterprise app targets end users: employees can assemble their own agents from building blocks, track running tasks in an inbox-style view, and edit documents directly in the app. Workspace Intelligence as a shared knowledge layer Alongside the platform, Google is rolling out Workspace Intelligence , a layer that connects content across Gmail, Docs, Drive, Meet, and Chat. The idea is that Gemini and the agents built on top of it can understand the relationships between emails, meetings, chats, and files instead of querying each app in isolation. In Gmail, Gemini sorts incoming messages and summarizes topics. In Google Chat, users can create calendar events or documents directly from a conversation. In Docs, Gemini drafts content from emails and files; in Sheets, it builds dashboards; in Slides, it puts together presentations. Drive Projects groups files and emails into topic-based workspaces. For companies looking to switch, Google is offering a faster migration path from Microsoft 365. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Google Blog / Eighth-gen TPU | The Register / TPU8 vs Nvidia | Google Cloud Blog / Virgo Network | YouTube / Cloud Next keynote | Google Cloud Blog / Gemini Enterprise Agent Platform | Google Cloud Blog / Gemini Enterprise app | Google Workspace Blog / Workspace Intelligence