새로운 제미나이 옴니, 경쟁작들을 압도하다
구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.
제미나이 옴니(Gemini Omni)를 소개합니다. 공유하기 x.com Facebook LinkedIn 메일 링크 복사 제미나이 옴니 플래시(Gemini Omni Flash)는 비디오를 시작으로 모든 입력을 바탕으로 무엇이든 만들어낼 수 있는 모델입니다. 코레이 카부크추오글루(Koray Kavukcuoglu), 구글 딥마인드 CTO 겸 구글 최고 AI 아키텍트. 공유하기 x.com Facebook LinkedIn 메일 링크 복사 브라우저가 오디오 요소를 지원하지 않습니다. 기사 읽기 이 콘텐츠는 구글 AI에 의해 생성되었습니다. 생성형 AI는 실험적입니다 [[기간]] 분 음성 속도 0.75X 1X 1.5X 2X. 작년에 나노 바나나(Nano Banana)는 제미나이의 지능을 이미지 생성 및 편집에 도입했습니다. 그 이후로 수백만 명의 사람들이 오래된 사진을 복원하고, 스케치로 디자인하며, 이전에는 불가능했던 방식으로 아이디어를 시각화하는 데 도움을 주었습니다. 처음부터 우리는 제미나이를 기본적으로 완전한 멀티모달(natively multimodal)로 설계했으며, 이제 다음 단계로 나아가고 있습니다. 제미나이의 추론 능력과 창작 능력이 만나는 '제미나이 옴니(Gemini Omni)'를 소개합니다. 옴니(Omni)는 비디오를 시작으로 모든 입력을 통해 무엇이든 만들어낼 수 있는 우리의 새로운 모델입니다. 옴니를 사용하면 이미지, 오디오, 비디오, 텍스트를 입력으로 결합하고 제미나이의 실세계 지식에 기반한 고품질 비디오를 생성할 수 있습니다. 또한 대화를 통해 비디오를 쉽게 편집할 수 있습니다. 오늘, 우리는 옴니 제품군의 첫 번째 모델인 '제미나이 옴니 플래시'를 제미나이 앱, 구글 플로우(Google Flow), 유튜브 쇼츠(YouTube Shorts)에 출시합니다. 시간이 지나면 이미지 및 오디오와 같은 출력 모달리티도 지원할 것입니다. 옴니를 특별하게 만드는 몇 가지 특징은 다음과 같습니다:
대화를 통해 비디오 편집 제미나이 옴니는 자연어를 사용하여 비디오를 편집할 수 있는 더 쉬운 방법을 제공합니다. 모든 지시 사항은 이전 내용을 기반으로 합니다. 캐릭터는 일관성을 유지하고, 물리 법칙이 적용되며, 장면은 이전의 상황을 기억합니다. 주변 세계를 변화시키세요. 특정 부분을 변경하거나 모든 것을 바꿀 수 있습니다. 비디오는 직접 촬영할 수 없었던 무언가의 시작점이 됩니다.
- 프롬프트: 조각상을 비눗방울로 만들어줘.
액션을 재구상하세요. 촬영한 비디오를 가져와서 옴니에게 무슨 일이 일어나고 있는지 변경해 달라고 요청하기만 하면 됩니다. 액션을 편집하고, 새로운 캐릭터나 객체를 추가하거나, 순간을 예상치 못한 무언가로 변화시키세요.
- 프롬프트: 사람이 거울을 만질 때, 거울이 액체처럼 아름답게 물결치게 만들고, 사람의 팔은 반사되는 거울 재질로 변하게 해줘.
- 프롬프트: 방의 조명을 어둡게 해줘. 흑백 체스판 방이 들어있는 유리 구슬이 손 위에 떠서 추적되게 하고, 그 안에는 구슬을 들고 있는 동일한 손의 재귀적 표현이 포함되어 무한한 방의 재귀를 만들어내. 카메라는 천천히 구슬 안으로 가까이 다가가 비디오 루프를 만들어.
- 프롬프트: 아파트의 조명이 음악에 맞춰 켜지기 시작해.
여러 차례에 걸쳐 비디오를 다듬으세요. 원래 장면의 맥락을 잃지 않으면서 환경, 앵글, 스타일 또는 특정 세부 사항을 변경할 수 있습니다. 캐러셀을 스크롤하여 편집이 어떻게 서로 쌓이는지 확인하세요.
- 프롬프트: 바이올리니스트가 노래를 연주하는 비디오.
- 프롬프트: 바이올리니스트를 이미지 환경으로 이동시켜줘.
- 프롬프트: 바이올린을 투명하게 만들어줘.
- 프롬프트: 카메라 앵글을 바이올리니스트의 어깨 너머로 변경해줘.
제미나이의 세계 지식에 기반한 아이디어 실현 제미나이 옴니는 사실적으로 보이는 장면을 만들어낼 뿐만 아니라, 다음에 일어나야 할 일에 대해 추론합니다. 물리학에 대한 직관적인 이해와 역사, 과학, 문화적 맥락에 대한 제미나이의 지식을 결합하여 사실적인 묘사(photorealism)에서 의미 있는 스토리텔링으로의 간극을 메웁니다.
더 정확한 물리 법칙을 적용한 시각적 요소를 만드세요. 옴니는 중력, 운동 에너지, 유체 역학과 같은 힘에 대한 직관적인 이해력이 향상되어 더욱 사실적인 장면을 만들 수 있습니다.
- 프롬프트: 체인 리액션 스타일 트랙 위에서 빠르게 구르는 구슬, 부드러운 연속 샷.
지식과 창의성을 혼합하세요. 옴니는 제미나이의 지식을 활용하여 단순한 패턴 매칭을 훨씬 뛰어넘는 방식으로 언어, 이미지, 의미를 연결합니다.
- 프롬프트: 비디오에는 알파벳 항목들이 보입니다. 각 글자로 시작하는 특이한 물건이 테이블 위에 앉아 있는 모습이 보입니다 (예: C는 카피바라, D는 디스코 글로브, L은 용암 램프 등).