메뉴
HN
Hacker News 11일 전

구글 제미나이 옴니(Gemini Omni) 발표

IMP
8/10
핵심 요약

구글이 텍스트, 이미지, 오디오 등 모든 형태의 입력을 조합해 자연어 대화만으로 영상을 생성하고 편집할 수 있는 멀티모달 AI 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 물리법칙이나 역사적 사실에 대한 세계 지식을 바탕으로 일관성 있는 스토리텔링이 가능하며, 복잡한 영상 편집 과정을 단계적인 대화를 통해 수행할 수 있다는 점이 가장 큰 특징입니다. 실무자 관점에서 프롬프트 가이드와 안전성 평제(Red Teaming)를 거쳐 배포되었으며, 영상 생성 및 편집 파이프라인의 혁신을 가져올 중요한 릴리즈입니다.

번역된 본문

메인 콘텐츠로 건너뛰기

4개 슬라이드 중 1번 슬라이드

제미나이 옴니(Gemini Omni) 영상을 시작으로 모든 입력을 활용해 무엇이든 창작하세요. Gemini에서 체험하기 | Google Flow에서 체험하기 프롬프트 작성 방법 알아보기

자연스럽고 단계적인 대화를 통해 모든 영상 편집 제미나이 옴니를 영상 분야의 '나노 바나나(Nano Banana)'라고 생각해 보세요. 여러분이 가하는 모든 편집은 이전 단계를 기반으로 이루어지며, 일관되고 논리적인 장면을 유지합니다. Gemini에서 체험하기 | Google Flow에서 체험하기

실제 세계의 지식을 적용 제미나이 옴니는 물리학에 대한 직관적인 이해와 제미나이의 역사, 과학, 문화적 맥락에 대한 지식을 결합하여, 사실적인 묘사(photorealism)에서 의미 있는 스토리텔링으로 나아가는 간극을 메웁니다. Gemini에서 체험하기 | Google Flow에서 체험하기

무엇이든 참조(Reference)하기 이미지, 텍스트, 영상 또는 오디오 등 모든 참조 자료를 단일하고 통일된 결과물로 변환하세요. Gemini에서 체험하기 | Google Flow에서 체험하기

제미나이 옴니는 제미나이의 추론 능력과 창작 능력이 만나는 지점입니다. 이는 세계에 대한 이해도, 멀티모달리티(multimodality) 및 편집 기능에서 비약적인 도약을 제공합니다. 프롬프트 가이드 보기

(해당 브라우저는 비디오 태그를 지원하지 않습니다.)

자연스러운 대화를 통한 편집 제미나이 옴니를 영상용 '나노 바나나'처럼 생각해 보세요. 자연어를 사용하여 모든 단계에서 여러분의 창작물을 구축하고 세밀하게 조정할 수 있습니다.

세상을 변화시키세요 입력한 영상을 기반으로 미학적 요소, 액션 또는 효과를 변경하세요. 5개 슬라이드 중 1번 슬라이드

액션을 새롭게 상상하기 평범한 장면부터 장관까지, 여러분의 영상에서 일어나는 일을 바꿔보세요. 이미지를 기반으로 실제 영상 편집 참조 이미지를 사용하여 창작물을 편집하고 더욱 강력한 창작 제어권을 확보하세요. 3개 슬라이드 중 1번 슬라이드

일관성을 유지하며 여러 차례에 걸쳐 편집 특정 세부 사항, 환경, 카메라 앵글 등을 변경하며 단계별로 장면을 제작하세요. 자연어로 다른 객체나 캐릭터 교체 일관되고 응집력 있는 장면을 유지하면서도, 요청만으로 영상 속 캐릭터와 객체를 교체할 수 있습니다.

제미나이의 세계 지식을 바탕으로 아이디어를 현실로 실제 세계의 논리를 따르는 장면을 만드세요. 제미나이 옴니는 역사, 생물학, 서사 논리에 대한 깊은 지식을 활용하여 매력적인 스토리를 구축합니다.

실제 세계의 물리학을 따르는 결과물 창출 옴니는 중력, 운동 에너지, 유체 역학과 같은 힘에 대해 직관적으로 이해하여 더욱 사실적인 움직임을 구현합니다.

실제 세계의 역사, 과학, 수학 활용 옴니는 세계 역사, 과학, 수학을 이해하며, 이를 바탕으로 스토리를 엮어내는 방법을 알고 있습니다.

텍스트와 화면 속 액션 동기화 단순히 사실적인 텍스트를 렌더링하는 것을 넘어, 텍스트와 영상 속 사건을 유기적으로 연결하는 비디오를 제작하세요.

무엇이든 참조(Reference)하기 장면에 대한 제어력과 일관성을 유지하기 위해 참조할 요소들을 결합하세요.

여러 입력 결합 다양한 형태의 입력으로 프롬프트를 작성하고, 제미나이 옴니가 이를 하나의 매력적인 내러티브로 완성하도록 하세요. 3개 슬라이드 중 1번 슬라이드

모션 및 스타일 전송 이미지나 영상의 모션 및 스타일 참조를 출력 결과물에 적용하세요. 3개 슬라이드 중 1번 슬라이드

참조 이미지로 캐릭터나 객체 교체 영상과 함께 캐릭터의 이미지를 제공하면, 새 캐릭터가 기존의 모션과 대사를 자연스럽게 따르게 할 수 있습니다. 3개 슬라이드 중 1번 슬라이드

스케치를 영상으로 번역 스케치를 사실적인 비디오로 변환하고, 낙서를 활용해 개별 요소가 어떻게 움직여야 하는지 지정할 수 있습니다. 3개 슬라이드 중 1번 슬라이드

프롬프트 작성하기 저희 프롬프트 가이드를 활용하여 사실적이고 일관성 있으며 창의적인 결과물을 만들어 보세요. 프롬프트 작성 방법 알아보기

안전성(Safety) 개발부터 배포까지 제미나이 옴니 플래시(Gemini Omni Flash)는 내부 안전, 보안 및 책임 팀과의 협력을 통해 개발되었습니다. 모델을 개선하고 의사 결정에 정보를 제공하기 위해 다양한 평가와 레드팀(Red Teaming) 활동이 수행되었습니다. 이러한 평가와 활동은 구글의 AI 원칙과 책임 있는 AI 접근 방식, 그리고 구글의 생성 AI 정책(예: 생성 AI 사용 금지 정책 및 제미나이 API 추가 서비스 약관)에 부합합니다. 평가 유형에는 다음이 포함되지만 이에 국한되지는 않습니다:

훈련/개발 평가: 모델의 진행 상황과 성능을 모니터링하기 위해 훈련 중 및 훈련 후에 지속적으로 수행된 자동화 및 인간 평가 인간 레드팀(Human Red Team)

원문 보기
원문 보기 (영어)
Skip to main content Slide 1 of 4 Gemini Omni Create anything from any input – starting with video Try in Gemini Try in Google Flow Learn how to prompt Edit any video through natural, step-by-step conversation Think of Gemini Omni like Nano Banana, but for video. Every edit you make builds on the one before – maintaining a consistent, coherent scene. Try in Gemini Try in Google Flow Apply real world knowledge Gemini Omni combines an intuitive understanding of physics with Gemini's knowledge of history, science, and cultural context – bridging the gap from photorealism to meaningful storytelling. Try in Gemini Try in Google Flow Reference anything Turn any reference—image, text, video, or audio—into a single, cohesive output. Try in Gemini Try in Google Flow Gemini Omni is where Gemini’s ability to reason meets the ability to create. It delivers a leap in world understanding, multimodality, and editing. View prompt guide Your browser does not support the video tag. Edit through natural conversation Think of Gemini Omni like Nano Banana – but for video. Build and fine-tune your creation at any step with natural language. Transform your world Change the aesthetic, action, or effect based on your input video. Slide 1 of 5 Reimagine the action Switch up what happens in your videos, from the ordinary to the spectacular. Edit real videos based on images Use reference images to edit your creations, giving you even more creative control. Slide 1 of 3 Edit over multiple turns, with consistency Craft your scene step-by-step, changing specific details, environments, camera angles, and more. Swap in different objects or characters with natural language Replace characters and objects in your video just by asking, all while maintaining a coherent, cohesive scene. Bring ideas to life, grounded in Gemini’s world knowledge Create scenes that follow real-world logic. Gemini Omni pulls from its deep knowledge of history, biology, and narrative logic to construct compelling stories. Create output that follows real-world physics Omni has an intuitive understanding of forces like gravity, kinetic energy, and fluid dynamics for more realistic movement. Draw on real-world history, science, and math Omni understands world history, science, and math – and knows how to craft stories around it. Sync text with onscreen action Go beyond just rendering realistic text. Create videos that coherently connect text to what’s happening in the video. Reference anything Reference and combine ingredients to maintain control and consistency over your scene. Combine multiple inputs Prompt with different inputs, and leave Gemini Omni to craft them into a single compelling narrative. Slide 1 of 3 Transfer motion and styles Apply motion and style references from an image or video across to your output. Slide 1 of 3 Swap characters or objects with a reference image Provide an image of a character with your video, and the new character will match your motion and dialogue seamlessly. Slide 1 of 3 Translate drawings into video Turn sketches into realistic video – and use your doodles to guide how individual elements should move. Slide 1 of 3 Creating your prompts Use our prompt guide to create realistic, coherent, and creative output. Learn how to prompt Safety From development to deployment Gemini Omni Flash was developed in partnership with internal safety, security, and responsibility teams. A range of evaluations and red teaming activities were conducted to help improve the model and inform decision-making. These evaluations and activities align with Google's AI Principles and responsible AI approach , as well as Google's Generative AI policies (e.g. Gen AI Prohibited Use Policy and the Gemini API Additional Terms of Service ). Evaluation types included but were not limited to: Training/development evaluations including automated and human evaluations carried out continuously throughout and after the model’s training, to monitor its progress and performance Human red teaming conducted by specialist teams who sit outside of the model development team, across the policies and desiderata, deliberately trying to spot weaknesses and ensure the model adheres to safety policies and desired outcomes Automated red teaming to dynamically evaluate Gemini Omni Flash for safety and security considerations at scale, complementing human red teaming and static evaluations Ethics and safety reviews conducted ahead of the model’s release Content created or edited with Omni in the Gemini app, Google Flow or YouTube includes our imperceptible SynthID digital watermark and C2PA Content Credentials . You can easily verify content through the Gemini app and coming soon to Chrome and Search. You can find out more about how we're expanding our content transparency and verification tools to help you understand how content was created and edited across the web in our blog post . Learn more Try Gemini Omni Gemini Supercharge your creativity and productivity Try in Gemini Google Flow An AI creative studio built with and for creatives Try in Google Flow YouTube Shorts A shorter way to discover, watch, and create on YouTube Try in YouTube Shorts Google AI subscription required. Features vary by tier and geography.
관련 소식