메뉴
BL
MarkTechPost 11일 전

구글 I/O 2026: AI 에이전트 최적화 'Gemini 3.5 Flash' 공개

IMP
9/10
핵심 요약

구글이 2026년 5월 I/O 컨퍼런스에서 AI 에이전트 및 코딩 작업에 최적화된 첫 번째 3.5 시리즈 모델인 'Gemini 3.5 Flash'를 발표했습니다. 이 모델은 기존 최상위 모델이었던 Gemini 3.1 Pro를 주요 벤치마크에서 능가하면서도 출력 속도는 4배 빠르고 비용은 절반 수준으로 제공합니다. 더불어 단일 API 호출로 복잡한 에이전트 환경을 구축할 수 있는 'Managed Agents API'와 개발 플랫폼 'Antigravity 2.0'을 선보이며, 쇼피파이, 세일즈포스 등 글로벌 기업들을 통한 대규모 실무 배치에도 돌입했습니다.

번역된 본문

구글이 2026년 5월 구글 I/O에서 'Gemini 3.5 Flash'를 발표했습니다. 이 모델은 Gemini 3.5 시리즈의 첫 번째 버전입니다. 이 시리즈는 최고 수준의 지능과 실행(Action) 능력을 결합했습니다. 구글은 이를 지능형 에이전트를 위한 중대한 도약이라고 부릅니다. 기존 Flash 등급은 항상 더 빠르고 저렴했습니다. 3.5 Flash는 까다로운 벤치마크에서 Gemini 3.1 Pro를 능가합니다. 이전 프리미엄 등급을 이제 뛰어넘은 것입니다.

벤치마크 결과 Gemini 3.5 Flash는 코딩 성능을 테스트하는 Terminal-Bench 2.1에서 76.2%를 기록했습니다. 실제 에이전트 작업 성능을 측정하는 GDPval-AA에서 1656 Elo를 기록했습니다. 대규모 도구 사용 안정성을 측정하는 MCP Atlas에서는 83.6%를 기록했습니다. 멀티모달 이해도를 평가하는 CharXiv Reasoning 벤치마크에서는 84.2%를 기록했습니다.

Gemini 3.5 Flash는 출력 토큰(Output Token) 처리 속도가 4배 빠릅니다. 작업 완료에 드는 비용은 종종 절반 이하입니다. 공식 가격은 백만 입력 토큰당 1.50달러입니다. 출력 토큰은 백만 개당 9.00달러입니다. 캐시된 입력(Cached input)은 백만 개당 0.15달러로 책정되었습니다. 컨텍스트 윈도우(Context window)는 1,048,576개의 입력 토큰을 지원합니다. 최대 출력은 65,536 토큰입니다. 텍스트, 이미지, 오디오, 비디오 입력을 지원합니다. 지식 기준일(Knowledge cutoff)은 2026년 1월입니다. 동적 사고(Dynamic thinking)가 기본적으로 활성화되어 있습니다. 이 모델은 더 어려운 문제에 대해 자동으로 더 많은 컴퓨팅 자원을 할당합니다.

에이전트 및 장기(LONG-HORIZON) 작업을 위해 설계됨 여기서 '에이전트(Agentic)'는 모델이 스스로 계획하고, 도구를 호출하며, 반복 작업을 수행한다는 의미입니다. 단순한 단일 질문에 답하는 대신 다단계 목표를 완수합니다. '장기(Long-horizon)'는 그러한 루프가 오랜 시간 동안 실행됨을 의미합니다. 구글은 Gemini API에 'Managed Agents'를 도입했습니다. 단 한 번의 API 호출로 완전한 에이전트가 가동됩니다. 이 에이전트는 추론하고, 도구를 사용하며, 코드를 실행합니다. 실행 환경은 격리된 리눅스 컨테이너 내에서 작동합니다. 파일과 상태는 후속 API 호출 시에도 유지됩니다. 이를 통해 끊김 없는 멀티턴 에이전트 세션이 가능해집니다. 이전에는 에이전트 상태와 환경을 수동으로 관리해야 했습니다. Managed Agents API는 이러한 인프라를 완전히 추상화합니다.

안티그래비티(Antigravity) 생태계 구글 안티그래비티(Antigravity)는 에이전트 우선 개발 플랫폼입니다. 아이디어를 프로덕션 준비가 완료된 애플리케이션으로 전환해 줍니다. 안티그래비티 2.0은 새로운 독립형 데스크톱 애플리케이션입니다. 병렬로 실행되는 여러 에이전트를 조율합니다. 동적 서브 에이전트(Subagents)가 병렬화된 워크플로우를 처리합니다. 예약된 작업을 통해 백그라운드 자동화를 가능하게 합니다. 구글 AI 스튜디오, 안드로이드(Android), 파이어베이스(Firebase)와의 통합을 지원합니다. 안티그래비티 CLI는 터미널 기반 개발자를 위한 도구입니다. GUI 없이도 에이전트를 즉시 생성할 수 있습니다. 구글은 기존 Gemini CLI 사용자들에게 지금 바로 마이그레이션할 것을 권장합니다. 안티그래비티 SDK는 프로그래밍 방식으로 개발 하네스(Harness)에 접근할 수 있게 해줍니다. 이를 통해 사용자 지정 에이전트 동작을 정의하고 원하는 인프라에 에이전트를 호스팅할 수 있습니다.

실제 기업 환경의 배치 사례 구글에 따르면 여러 기업 파트너가 이미 3.5 Flash를 운영하고 있습니다. 쇼피파이(Shopify)는 데이터 분석을 위해 서브 에이전트를 병렬로 실행하고 있으며, 이를 통해 전 세계적인 판매자 성장 예측의 정확도를 높이고 있습니다. 맥쿼리 은행(Macquarie Bank)은 고객 온보딩에 파일럿 테스트를 진행 중이며, 이 모델이 100페이지가 넘는 복잡한 문서를 분석해 정보를 검색하고 신뢰할 수 있는 권장 사항을 제시합니다. 세일즈포스(Salesforce)는 Agentforce에 3.5 Flash를 통합하여 여러 서브 에이전트를 사용해 기업의 작업을 자동화하고 있으며, 서브 에이전트는 복잡한 멀티턴 도구 호출 과정에서도 문맥을 유지합니다. 램프(Ramp)는 송장 처리에 더 스마트한 OCR을 적용하며 멀티모달 이해와 기존 패턴 추론을 결합하고 있습니다. 제로(Xero)는 수 주에 걸친 복잡한 워크플로우를 위해 에이전트를 배치했으며, 1099 양식용 공급업체 데이터 수집이 그 예시입니다. 데이터브릭스(Databricks)는 실시간 데이터 모니터링을 위해 에이전트 워크플로우를 사용하며, 이 모델이 문제를 진단하고 엔지니어에게 수정 방안을 제안합니다.

기술적 세부 사항(Technical details)을 확인해 보세요. 또한 트위터(Twitter)에서 저희를 팔로우하고, 15만 명 이상의 ML 서브레딧(SubReddit)에 참여하며, 뉴스레터를 구독해 주시기를 망설이지 마세요. 잠깐! 텔레그램(Telegram)을 사용하고 계신가요? 이제 텔레그램에서도 저희와 함께하실 수 있습니다. GitHub 리포지토리, Hugging Face 페이지, 제품 출시, 웨비나 등의 홍보를 위해 저희와 파트너십을 맺고 싶으신가요? Michal Sutter와 연락해 주세요.

원문 보기
원문 보기 (영어)
Editors Pick Agentic AI Technology AI Shorts Artificial Intelligence Applications Language Model New Releases Software Engineering Staff Tech News Google just released Gemini 3.5 Flash at Google I/O May, 2026. It is the first Gemini 3.5 model. The series combines frontier intelligence with action. Google calls it a major leap for intelligent agents. The Flash tier has historically been faster and cheaper. 3.5 Flash outperforms Gemini 3.1 Pro on challenging benchmarks. The previous premium tier has now been surpassed. What the Benchmarks Say Gemini 3.5 Flash scores 76.2% on Terminal-Bench 2.1. That benchmark tests coding performance. It scores 1656 Elo on GDPval-AA. That measures real-world agentic task performance. It scores 83.6% on MCP Atlas. MCP Atlas measures scaled tool-use reliability. It scores 84.2% on CharXiv Reasoning. That benchmark tests multimodal understanding. Gemini 3.5 Flash is 4x faster on output tokens. Tasks often complete at less than half the cost. Official pricing is $1.50 per million input tokens. Output tokens cost $9.00 per million. Cached input is priced at $0.15 per million. The context window is 1,048,576 input tokens. Maximum output is 65,536 tokens. Supported inputs are text, image, audio, and video. The knowledge cutoff is January 2026. Dynamic thinking is on by default. The model auto-allocates more compute for harder problems. Built for Agentic and Long-Horizon Tasks Here ‘Agentic' means the model plans, calls tools, and iterates. It completes multi-step goals, not single questions. ‘Long-horizon' means that loop runs for extended periods. Google introduced Managed Agents in the Gemini API. One API call spins up a full agent. It reasons, uses tools, and executes code. The environment runs inside an isolated Linux container. Files and state persist across follow-up calls. This enables seamless multi-turn agent sessions. Previously, managing agent state and environments was manual. The Managed Agents API abstracts that infrastructure entirely. The Antigravity Ecosystem Google Antigravity is its agent-first development platform. It takes ideas to production-ready apps. Antigravity 2.0 is a new standalone desktop app. It orchestrates multiple agents running in parallel. Dynamic subagents handle parallelized workflows. Scheduled tasks enable background automation. Integrations cover Google AI Studio, Android, and Firebase. The Antigravity CLI is for terminal-based developers. It creates agents instantly, without a GUI. Google encourages Gemini CLI users to migrate now. The Antigravity SDK gives programmatic access to the harness. You can define custom agent behaviors with it. Host agents on infrastructure of your choice. Real-World Enterprise Deployments According to Google, several enterprise partners are already running 3.5 Flash. Shopify runs subagents in parallel for data analysis. It powers more accurate merchant growth forecasts globally. Macquarie Bank is piloting it for customer onboarding. The model reasons over complex 100+ page documents. It retrieves information and makes reliable recommendations. Salesforce is integrating 3.5 Flash into Agentforce. It automates enterprise tasks using multiple subagents. Subagents retain context across complex, multi-turn tool calling. Ramp uses it for smarter OCR on invoices. It pairs multimodal understanding with historical pattern reasoning. Xero deploys agents for complex, multi-week workflows. One example is gathering supplier data for 1099 forms. Databricks uses agentic workflows for real-time data monitoring. The model diagnoses issues and proposes fixes for engineers. Check out the Technical details . Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter . Wait! are you on telegram? now you can join us on telegram as well. Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us Michal Sutter + posts Bio Michal Sutter is a data science professional with a Master of Science in Data Science from the University of Padova. With a solid foundation in statistical analysis, machine learning, and data engineering, Michal excels at transforming complex datasets into actionable insights. Michal Sutter Upstash for Redis vs Supabase vs Neon: Which One Fits Vibe Coding Workflows in 2026? Michal Sutter Google Launches Antigravity 2.0 at I/O 2026: A Standalone Agent-First Platform with CLI, SDK, Managed Execution, and Enterprise Support Michal Sutter Vercel Labs Introduces Zero, a Systems Programming Language Designed So AI Agents Can Read, Repair, and Ship Native Programs Michal Sutter Enterprise AI Governance in 2026: Why the Tools Employees Use Are Ahead of the Policies That Cover Them Michal Sutter Google DeepMind Introduces an AI-Enabled Mouse Pointer Powered by Gemini That Captures Visual and Semantic Context Around the Cursor Michal Sutter OpenAI Introduces Daybreak: A Cybersecurity Initiative That Puts Codex Security at the Center of Vulnerability Detection and Patch Validation Michal Sutter Best Vector Databases in 2026: Pricing, Scale Limits, and Architecture Tradeoffs Across Nine Leading Systems Michal Sutter OpenClaw vs Hermes Agent: Why Nous Research's Self-Improving Agent Now Leads OpenRouter's Global Rankings Michal Sutter NVIDIA AI Just Released cuda-oxide: An Experimental Rust-to-CUDA Compiler Backend that Compiles SIMT GPU Kernels Directly to PTX Michal Sutter OpenAI Introduces MRC (Multipath Reliable Connection): A New Open Networking Protocol for Large-Scale AI Supercomputer Training Clusters Michal Sutter Google Adds Event-Driven Webhooks to the Gemini API, Eliminating the Need for Polling in Long-Running AI Jobs Michal Sutter Microsoft Research's World-R1 Uses Flow-GRPO and 3D-Aware Rewards to Inject Geometric Consistency Into Wan 2.1 Without Architectural Changes Michal Sutter Cursor Introduces a TypeScript SDK for Building Programmatic Coding Agents With Sandboxed Cloud VMs, Subagents, Hooks, and Token-Based Pricing Michal Sutter Top 10 KV Cache Compression Techniques for LLM Inference: Reducing Memory Overhead Across Eviction, Quantization, and Low-Rank Methods Michal Sutter smol-audio: A Colab-Friendly Notebook Collection for Fine-Tuning Whisper, Parakeet, Voxtral, Granite Speech, and Audio Flamingo 3 Michal Sutter xAI Launches grok-voice-think-fast-1.0: Topping τ-voice Bench at 67.3%, Outperforming Gemini, GPT Realtime, and More Michal Sutter Google DeepMind Introduces Vision Banana: An Instruction-Tuned Image Generator That Beats SAM 3 on Segmentation and Depth Anything V3 on Metric Depth Estimation Michal Sutter OpenAI Releases GPT-5.5, a Fully Retrained Agentic Model That Scores 82.7% on Terminal-Bench 2.0 and 84.9% on GDPval Michal Sutter Next Leap to Harness Engineering: JiuwenClaw Pioneers ‘Coordination Engineering' Michal Sutter OpenAI Scales Trusted Access for Cyber Defense With GPT-5.4-Cyber: a Fine-Tuned Model Built for Verified Security Defenders Michal Sutter xAI Launches Standalone Grok Speech-to-Text and Text-to-Speech APIs, Targeting Enterprise Voice Developers Michal Sutter A Coding Tutorial for Running PrismML Bonsai 1-Bit LLM on CUDA with GGUF, Benchmarking, Chat, JSON, and RAG Michal Sutter Top 19 AI Red Teaming Tools (2026): Secure Your ML Models Michal Sutter A Coding Guide to Build a Production-Grade Background Task Processing System Using Huey with SQLite, Scheduling, Retries, Pipelines, and Concurrency Control Michal Sutter Google AI Launches Gemini 3.1 Flash TTS: A New Benchmark in Expressive and Controllable AI Voice Michal Sutter A Coding Implementation of Crawl4AI for Web Crawling, Markdown Generation, JavaScript Execution, and LLM-Based Structured Extraction Michal Sutter Google AI Research Proposes Vantage: An LLM-Based Protocol for Measuring Collaboration, Creativity, and Critical Thinking Michal Sutter Meta AI and KAUST Researchers Propose Neural Computers That Fold Compu
관련 소식