구글, 8세대 TPU 및 에이전트 플랫폼 공개
구글이 'Cloud Next 26' 컨퍼런스에서 학습과 추론을 분리한 8세대 TPU, 자율 AI 에이전트 개발을 위한 'Gemini Enterprise Agent Platform', 그리고 앱 간 정보를 연결하는 'Workspace Intelligence'를 발표했습니다. 이번 발표는 최대 100만 개의 칩을 연결하는 압도적인 확장성과 단일 플랫폼에서 안전하게 에이전트를 구축 및 운영하려는 구글의 'Agentic Enterprise' 전략을 핵심으로 다룹니다.
구글, Cloud Next '26에서 8세대 TPU, 에이전트 플랫폼 및 워크스페이스 AI 레이어 공개 작성자: Maximilian Schreiner | 2026년 4월 22일
Google Key Points (핵심 요약)
- 구글은 처음으로 8세대 TPU를 학습용과 추론용 칩으로 분리했습니다.
- 단일 칩의 최고 성능을 추구하기보다는 규모의 경제(Scale)에 집중하며, 최대 100만 개의 칩을 거대 클러스터로 연결하고자 합니다.
- 새로운 Gemini Enterprise Agent Platform은 자율 AI 에이전트의 생성과 안전한 운영을 간소화하기 위해 설계되었습니다. 이 플랫폼은 다단계 프로세스를 위한 장기 기억을 에이전트에 제공하며, 암호화된 신원 확인과 이상 탐지를 통해 시스템 보안을 유지합니다.
- 또한 구글은 Workspace Intelligence를 도입했습니다. 이 레이어는 Gmail, 문서, 드라이브 등 다양한 앱의 정보를 중앙에서 연결하여 AI 모델이 여러 앱에 걸친 데이터의 관계를 이해할 수 있도록 돕습니다.
본문
구글은 'Cloud Next 26' 컨퍼런스를 통해 8세대 TPU, 리뉴얼된 에이전트 플랫폼, 그리고 워크스페이스를 위한 새로운 AI 레이어를 공개했습니다. 회사는 이 모든 패키지를 "Agentic Enterprise"라는 배너 아래에 내세우고 있습니다.
구글은 처음으로 텐서 처리 장치(TPU)를 TPU 8t(학습용)와 TPU 8i(추론용) 두 가지 변형으로 분리했습니다. AI 및 인프라 수석 부사장 겸 최고 기술 책임자(CTO)인 아민 바다트(Amin Vahdat)에 따르면, 이러한 변화는 계획, 행동, 학습을 반복하는 루프 구조의 에이전트로부터 급증하는 추론 수요에 대응하기 위한 것입니다.
엔비디아(Nvidia)와 비교할 때, 구글은 순수 단일 칩의 성능보다는 규모 확장에 더 큰 베팅을 하고 있습니다. The Register가 지적했듯, 엔비디아의 차세대 Rubin GPU는 칩당 더 많은 컴퓨팅 파워와 상당히 높은 메모리 대역폭을 TPU 8t보다 제공합니다. 하지만 최첨단 프론티어 모델(Frontier model)을 학습할 때 중요한 것은 얼마나 많은 칩을 효율적으로 함께 연결할 수 있는가입니다.
The Register에 따르면 바로 이 부분에서 구글이 우위를 점하고 있습니다. 엔비디아의 최신 GPU는 느린 이더넷이나 인피니밴드(InfiniBand) 링크가 필요해지기 전까지 단일 NVLink 도메인에 최대 576개의 가속기를 연결합니다. 반면 구글은 광 회로 스위치(Optical circuit switches)를 사용하여 단일 포드(Pod)에 9,600개의 TPU를 연결합니다. 새로운 Virgo 네트워크는 여러 데이터센터를 묶어 최대 100만 개의 TPU 클러스터를 구성할 수 있게 합니다. 관리형 Lustre 스토리지 시스템은 데이터를 가속기 메모리로 직접 밀어 넣습니다. 구글은 약 97%의 '굿풋(Goodput)' 비율을 목표로 하고 있습니다. 이는 칩이 오류로 인한 복구나 체크포인트 대기 상태에 머무는 대신 실제 학습에 소비하는 시간의 비율을 의미합니다.
TPU 8i 추론 칩은 일부 컴퓨팅 파워를 포기하는 대신 더 많은 온칩 SRAM과 더 빠른 HBM을 탑재했습니다. 더 큰 용량의 SRAM은 핵심-값 캐시(Key-value cache, 본질적으로 모델이 이전 응답을 기억하는 메모리)의 더 많은 부분을 칩에 직접 유지하므로, 코어가 데이터를 기다리며 유휴 상태가 되는 것을 방지합니다. 전담 가속 엔진(Collective Acceleration Engine)은 MoE(Mixture-of-Experts) 모델의 속도를 높이도록 설계되었습니다. 또한 구글은 칩 간 지연 시간을 줄이기 위해 'Boardfly'라는 네트워크 토폴로지를 개발했습니다. 이제 두 가지 TPU 모두 처음으로 구글의 Arm 기반 Axion CPU에서 구동됩니다.
에이전트 구축 및 실행을 위한 단일 플랫폼 소프트웨어 측면에서 구글은 기존 AI 서비스를 Vertex AI 기반으로 구축된 'Gemini Enterprise Agent Platform'에 통합했습니다. 구축과 관련해서 개발자들이 여러 에이전트가 함께 작동하는 방식을 순서도(Flowchart)로 매핑할 수 있는 도구와, 자연어를 통해 에이전트를 생성하는 'Agent Studio'라는 인터페이스가 제공됩니다. 중앙 레지스트리는 조직 내에 거의 동일한 수십 개의 에이전트가 양산되는 것을 방지합니다.
에이전트 실행 측면에서 구글은 잘 알려진 취약점들을 개선하고자 합니다. 장기 실행 에이전트는 이제 모든 단계에서 사람의 입력을 기다리며 일시 정지하는 대신 다단계 프로세스를 자체적으로 처리할 수 있습니다. 샌드박스(Sandbox) 테스트 환경은 호스트 시스템을 위험에 빠뜨리지 않고도 에이전트가 자체 코드나 브라우저 자동화를 실행할 수 있게 합니다. 또한 메모리 뱅크(Memory Bank)는 에이전트에게 장기 기억을 제공하여 매 세션마다 처음부터 다시 시작할 필요가 없게 만듭니다.
자율 에이전트는 새로운 보안 취약점(Attack surface)을 노출시킬 수 있기 때문에, 구글은 이에 상응하는 제어 기능도 제공합니다. 암호화된 신원 확인 및...