메뉴
BL
r/singularity 5일 전

새로운 제미나이 옴니, 경쟁작들을 압도하다

IMP
9/10
핵심 요약

구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.

번역된 본문

제미나이 옴니(Gemini Omni)를 소개합니다. 공유하기 x.com Facebook LinkedIn 메일 링크 복사 제미나이 옴니 플래시(Gemini Omni Flash)는 비디오를 시작으로 모든 입력을 바탕으로 무엇이든 만들어낼 수 있는 모델입니다. 코레이 카부크추오글루(Koray Kavukcuoglu), 구글 딥마인드 CTO 겸 구글 최고 AI 아키텍트. 공유하기 x.com Facebook LinkedIn 메일 링크 복사 브라우저가 오디오 요소를 지원하지 않습니다. 기사 읽기 이 콘텐츠는 구글 AI에 의해 생성되었습니다. 생성형 AI는 실험적입니다 [[기간]] 분 음성 속도 0.75X 1X 1.5X 2X. 작년에 나노 바나나(Nano Banana)는 제미나이의 지능을 이미지 생성 및 편집에 도입했습니다. 그 이후로 수백만 명의 사람들이 오래된 사진을 복원하고, 스케치로 디자인하며, 이전에는 불가능했던 방식으로 아이디어를 시각화하는 데 도움을 주었습니다. 처음부터 우리는 제미나이를 기본적으로 완전한 멀티모달(natively multimodal)로 설계했으며, 이제 다음 단계로 나아가고 있습니다. 제미나이의 추론 능력과 창작 능력이 만나는 '제미나이 옴니(Gemini Omni)'를 소개합니다. 옴니(Omni)는 비디오를 시작으로 모든 입력을 통해 무엇이든 만들어낼 수 있는 우리의 새로운 모델입니다. 옴니를 사용하면 이미지, 오디오, 비디오, 텍스트를 입력으로 결합하고 제미나이의 실세계 지식에 기반한 고품질 비디오를 생성할 수 있습니다. 또한 대화를 통해 비디오를 쉽게 편집할 수 있습니다. 오늘, 우리는 옴니 제품군의 첫 번째 모델인 '제미나이 옴니 플래시'를 제미나이 앱, 구글 플로우(Google Flow), 유튜브 쇼츠(YouTube Shorts)에 출시합니다. 시간이 지나면 이미지 및 오디오와 같은 출력 모달리티도 지원할 것입니다. 옴니를 특별하게 만드는 몇 가지 특징은 다음과 같습니다:

대화를 통해 비디오 편집 제미나이 옴니는 자연어를 사용하여 비디오를 편집할 수 있는 더 쉬운 방법을 제공합니다. 모든 지시 사항은 이전 내용을 기반으로 합니다. 캐릭터는 일관성을 유지하고, 물리 법칙이 적용되며, 장면은 이전의 상황을 기억합니다. 주변 세계를 변화시키세요. 특정 부분을 변경하거나 모든 것을 바꿀 수 있습니다. 비디오는 직접 촬영할 수 없었던 무언가의 시작점이 됩니다.

  • 프롬프트: 조각상을 비눗방울로 만들어줘.

액션을 재구상하세요. 촬영한 비디오를 가져와서 옴니에게 무슨 일이 일어나고 있는지 변경해 달라고 요청하기만 하면 됩니다. 액션을 편집하고, 새로운 캐릭터나 객체를 추가하거나, 순간을 예상치 못한 무언가로 변화시키세요.

  • 프롬프트: 사람이 거울을 만질 때, 거울이 액체처럼 아름답게 물결치게 만들고, 사람의 팔은 반사되는 거울 재질로 변하게 해줘.
  • 프롬프트: 방의 조명을 어둡게 해줘. 흑백 체스판 방이 들어있는 유리 구슬이 손 위에 떠서 추적되게 하고, 그 안에는 구슬을 들고 있는 동일한 손의 재귀적 표현이 포함되어 무한한 방의 재귀를 만들어내. 카메라는 천천히 구슬 안으로 가까이 다가가 비디오 루프를 만들어.
  • 프롬프트: 아파트의 조명이 음악에 맞춰 켜지기 시작해.

여러 차례에 걸쳐 비디오를 다듬으세요. 원래 장면의 맥락을 잃지 않으면서 환경, 앵글, 스타일 또는 특정 세부 사항을 변경할 수 있습니다. 캐러셀을 스크롤하여 편집이 어떻게 서로 쌓이는지 확인하세요.

  • 프롬프트: 바이올리니스트가 노래를 연주하는 비디오.
  • 프롬프트: 바이올리니스트를 이미지 환경으로 이동시켜줘.
  • 프롬프트: 바이올린을 투명하게 만들어줘.
  • 프롬프트: 카메라 앵글을 바이올리니스트의 어깨 너머로 변경해줘.

제미나이의 세계 지식에 기반한 아이디어 실현 제미나이 옴니는 사실적으로 보이는 장면을 만들어낼 뿐만 아니라, 다음에 일어나야 할 일에 대해 추론합니다. 물리학에 대한 직관적인 이해와 역사, 과학, 문화적 맥락에 대한 제미나이의 지식을 결합하여 사실적인 묘사(photorealism)에서 의미 있는 스토리텔링으로의 간극을 메웁니다.

더 정확한 물리 법칙을 적용한 시각적 요소를 만드세요. 옴니는 중력, 운동 에너지, 유체 역학과 같은 힘에 대한 직관적인 이해력이 향상되어 더욱 사실적인 장면을 만들 수 있습니다.

  • 프롬프트: 체인 리액션 스타일 트랙 위에서 빠르게 구르는 구슬, 부드러운 연속 샷.

지식과 창의성을 혼합하세요. 옴니는 제미나이의 지식을 활용하여 단순한 패턴 매칭을 훨씬 뛰어넘는 방식으로 언어, 이미지, 의미를 연결합니다.

  • 프롬프트: 비디오에는 알파벳 항목들이 보입니다. 각 글자로 시작하는 특이한 물건이 테이블 위에 앉아 있는 모습이 보입니다 (예: C는 카피바라, D는 디스코 글로브, L은 용암 램프 등).
원문 보기
원문 보기 (영어)
Introducing Gemini Omni Share x.com Facebook LinkedIn Mail Copy link Gemini Omni Flash is a model that can create anything from any input – starting with video. Koray Kavukcuoglu CTO, Google DeepMind and Chief AI Architect, Google Share x.com Facebook LinkedIn Mail Copy link Your browser does not support the audio element. Listen to article This content is generated by Google AI. Generative AI is experimental [[duration]] minutes Voice Speed Voice Speed 0.75X 1X 1.5X 2X Last year, Nano Banana brought Gemini's intelligence to image generation and editing. Since then, it’s helped millions of people restore old photos, design from sketches and visualize ideas in ways that weren’t possible before. From the start we built Gemini to be natively multimodal from the ground up, and now we’re taking the next step. We’re introducing Gemini Omni , where Gemini’s ability to reason meets the ability to create. Omni is our new model that can create anything from any input — starting with video. With Omni, you can combine images, audio, video and text as input and generate high-quality videos grounded in Gemini's real-world knowledge. You can also easily edit your videos through conversation. Today, we’re rolling out the first model in the Omni family: Gemini Omni Flash, to the Gemini app, Google Flow and YouTube Shorts. In time we will support output modalities like image and audio. Here’s some of what makes Omni special: Edit your videos through conversation Gemini Omni gives you an easier way to edit video — with natural language. Every instruction builds on the last. Your characters stay consistent, the physics hold up and the scene remembers what came before. Transform the world around you. Change specific things, or change everything. Your video becomes the starting point for something you never could have filmed yourself. Prompt: Make the sculpture out of bubbles. Reimagine the action. Take a video you shot and just ask Omni to change what’s happening. Edit the action, add in new characters or objects, or transform a moment into something unexpected. Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material. Prompt: Dim the lights in the room. Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop. Prompt: The lights of the apartments start turning on in sync with the music. Refine your videos across multiple turns. Change the environment, angle, style or even specific details, without ever losing the thread of your original scene. Scroll through the carousel to see how edits build on each other. Prompt: A video of a violinist playing a song. Prompt: Transport the violinist to the image environment Prompt: Make the violin invisible Prompt: Change the camera angle to be over the violinist’s shoulder. Bring ideas to life, grounded in Gemini’s world knowledge Gemini Omni doesn't just build scenes that look real, it reasons about what should happen next. It combines an intuitive understanding of physics with Gemini's knowledge of history, science and cultural context, bridging the gap from photorealism to meaningful storytelling. Create visuals with more accurate physics. Omni has an improved intuitive understanding of forces like gravity, kinetic energy and fluid dynamics, allowing you to create more realistic scenes. Prompt: A marble rolling fast on a chain reaction style track, continuous smooth shot. Blend knowledge and creativity. Omni draws on Gemini's knowledge to connect language, imagery and meaning in ways that go far beyond pattern matching. Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music. Complex ideas made visual. Omni can create compelling explainers from short prompts, generating visuals that break down more complex ideas. Prompt: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate Create videos from any combination of inputs Reference anything. Omni turns any reference — image, text, video or audio — into a single, cohesive output. While only voice references will be supported for audio to start, we’ll roll out other types of audio inputs soon. Prompt: Dynamic sci-fi film style video based on image_0.png. Elements light up similar to video_0.mp4 synchronized to the beat of the music from audio_0.wav Prompt: Referring to the extreme camera movement, perspective, and distortion in video-0, create a front-facing full-body walk cycle of the character from image-0, quickly style-shifting into multiple visual styles during the walk cycle, starting from realistic cinema. Keep the environment, only change styles. Hard cut backgrounds always centering the sky. Continuous walking, continuous audio, and style shifts in perfect sync to the beat of the audio. Cinematic, 16:9. Prompt: Add harp sounds synchronized to when I touch each fern leaf. Change the leaf structure to all resemble semi translucent 3d bioluminescent plant life, with bioluminescent fireflies flying around it that react as I play, in sync with the sounds, subtle bokeh depth of field dynamic lighting, reflecting off the walls in the room, keeping the room structure the same Start from what you have. With input references, you can use images of characters, scenes or drawings to create in a way that matches your vision. Prompt: Imagine the world gradually changing into retro futuristic style (grainy and moody as image-1) as I walk. Use the audio for a retro-futuristic background music. 10s. Prompt: turn this into realistic footage, using the drawing only as a guide for movement, do not show the drawing in the final video Prompt: Apply the pose and motion from input video to provided character from this image. Apply style from image reference to the new video Apply styles, motion or effects. Define the visual language by using input references, or just describe it with natural language. Omni blends the input references to create a cohesive clip. Prompt: edit this keeping everything the same. add animated motion effects coming out of the skateboard Prompt: Apply the motion of the whale swimming from the provided video to the provided image of fluid reflective material. Do not show the whale or water; instead, have this reflective moving material form a shape that resembles the whale as it swims. Replace water with white smooth material shapes that move Create videos with your own digital avatar We're committed to developing AI responsibly and we have clear policies to protect users from harm and governing the use of our AI tools. To start, you can create videos with your own voice by using Avatars , which create a digital version of yourself so you can generate videos that look and sound like you. Beyond the avatar feature, in terms of editing videos to change audio and speech, we are still working to test this and better understand how we can bring this capability to users responsibly. All videos created with Omni include our imperceptible SynthID digital watermark. You can easily verify that videos were generated with Gemini Omni through the Gemini app, Gemini in Chrome and Google Search. You can find out more about how we're expanding our content transparency and verification tools to help you understand how content was crea