메뉴

#멀티모달 AI

SG
r/singularity 5일 전
IMP 9

새로운 제미나이 옴니, 경쟁작들을 압도하다

구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.

구글 딥마인드 제미나이 옴니 비디오 생성
TD
The Decoder 6일 전
IMP 7

바이트댄스 연구: 긴 문서 학습엔 텍스트 변환보다 질문이 효과적

바이트댄스와 HKUST 연구진은 긴 문서를 다루는 멀티모달 AI 모델 학습 시, 단순히 텍스트를 인식해 변환하도록 하는 것보다 질문-답변(QA) 쌍을 활용하는 것이 훨씬 효과적이라는 사실을 발견했습니다. 이 방식으로 학습된 소형 모델(MMProLong)은 50만 토큰 이상의 긴 문맥에서도 안정적인 성능을 내며 파라미터 크기가 훨씬 큰 기존 오픈소스 모델들을 능가했습니다. 이 연구는 AI가 긴 문서를 탐색할 때 정보 추출 과제를 통해 유연한 검색 능력을 기르는 것이 핵심임을 시사합니다.

멀티모달 AI 긴 컨텍스트 모델 학습
GB
Google AI Blog 10일 전
IMP 9

구글 I/O 2026에서 발표한 100가지

구글 I/O 2026에서 최신 AI 모델인 Gemini 3.5와 Gemini Omni를 공개하며, 개발자와 일반 사용자 모두를 위한 혁신적인 도구들을 대거 선보였습니다. 특히 Frontier급 성능과 빠른 속도를 결합한 'Gemini 3.5 Flash'와 모든 입력을 비디오를 포함한 출력으로 생성하는 멀티모달 모델 'Gemini Omni'는 에이전트(Agent) 기반 AI 생태계의 새로운 지평을 여는 핵심 발표입니다. 이번 행사는 AI가 단순히 텍스트를 넘어 실제 업무를 수행하고 현실감 있는 미디어를 생성하는 실용성과 품질을 대폭 끌어올렸다는 점에서 매우 중요합니다.

구글 I/O 2026 Gemini 3.5 Gemini Omni
MP
MarkTechPost 11일 전
IMP 8

알리바바 통번역 AI, 60개 언어 2.8초 지연

알리바바 클라우드의 Qwen 팀이 실시간 다국어 통번역 모델인 Qwen3.5-LiveTranslate-Flash를 공개했습니다. 이 모델은 60개 언어의 입력을 2.8초의 지연 시간으로 처리하며, 시각 정보 분석과 화자의 음성 실시간 클로닝을 지원합니다. 소음이 많은 환경에서도 안정적인 성능을 발휘하고 전문 용어 사전 주입 기능을 갖춰 글로벌 기업의 실무 환경에 즉각적인 활용이 가능한 것이 핵심입니다.

음성 인식 및 번역 멀티모달 AI 알리바바 Qwen
HN
Hacker News 11일 전
IMP 8

구글 제미나이 옴니(Gemini Omni) 발표

구글이 텍스트, 이미지, 오디오 등 모든 형태의 입력을 조합해 자연어 대화만으로 영상을 생성하고 편집할 수 있는 멀티모달 AI 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 물리법칙이나 역사적 사실에 대한 세계 지식을 바탕으로 일관성 있는 스토리텔링이 가능하며, 복잡한 영상 편집 과정을 단계적인 대화를 통해 수행할 수 있다는 점이 가장 큰 특징입니다. 실무자 관점에서 프롬프트 가이드와 안전성 평제(Red Teaming)를 거쳐 배포되었으며, 영상 생성 및 편집 파이프라인의 혁신을 가져올 중요한 릴리즈입니다.

영상 생성 멀티모달 AI 제미나이 옴니
SG
r/singularity 12일 전
IMP 5

제미나이 옴니(Gemini Omni)가 생성한 영상 공개

X(옛 트위터)에 '제미나이 옴니(Gemini Omni)' 모델을 통해 생성된 것으로 보이는 영상이 공유되었습니다. 게시자는 해당 영상의 실제 생성 출처를 첫 번째 답글에서 확인할 수 있다고 안내했습니다. 실무자들에게 멀티모달 AI의 영상 생성 역량 및 진위를 파악하는 데 중요한 참고 자료가 됩니다.

제미나이 영상 생성 멀티모달 AI
WR
Wired AI 39일 전
IMP 8

오픈AI, 챗GPT 이미지 생성 모델 대폭 강화

오픈AI가 단일 프롬프트로 여러 장의 이미지를 생성하고 비영어권 언어의 텍스트 렌더링을 크게 개선한 'ChatGPT Images 2.0'을 전격 공개했습니다. 이번 모델은 챗GPT 특유의 '추론' 능력과 웹 검색 기능을 활용하여 최신 정보가 반영된 정확하고 복잡한 이미지를 생성할 수 있으며, 사용자가 원하는 다양한 비율(3:1~1:3) 조정 또한 지원합니다. 영어 텍스트 생성 능력은 눈에 띄게 향상되었으나, 중국어 등 타 언어에 대해서는 여전히 글자가 뒤섞이거나 의미 없는 문구가 생성되는 등 일관성 부족의 한계를 보여주어 다국어 지원의 추가적인 보완이 필요해 보입니다.

오픈AI 챗GPT 이미지 생성
TD
The Decoder 42일 전
IMP 8

항상 켜져 있는 레이반 메타 안경, 일상 작업 효율 향상

연구진이 항상 켜져 있는(Always-on) 스마트 안경과 자율 에이전트를 결합한 'VisionClaw' 시스템을 발표했습니다. 사용자의 시점을 지속적으로 인식하는 AI가 브라우저, 이메일 등의 디지털 작업을 자동으로 수행하여 작업 완료 시간과 인지 부담을 크게 줄여주는 것으로 나타났습니다. 이는 단순한 음성 명령을 넘어, 실제 환경과 디지털 데이터가 결합된 문맥 기반의 연속적인 AI 사용 패턴으로의 전환을 시사합니다.

스마트 안경 에이전틱 AI 휴먼-컴퓨터 상호작용
HN
Hacker News 48일 전
IMP 5

AI 기반 X(트위터) 피드 필터링 확장 프로그램 'Bouncer'

원하지 않는 게시물을 자연어로 차단할 수 있는 브라우저 확장 프로그램 및 iOS 앱입니다. 사용자가 '암호화폐', '참여 유도성 글', '분노 정치' 등 필터 주제를 일상 언어로 입력하면 다양한 AI 모델이 게시물을 분류해 실시간으로 숨겨줍니다. 로컬 모델 실행부터 클라우드 API 연동까지 지원하며 이미지 기반 필터링과 차단 사유 투명성 제공이 특징입니다.

브라우저 확장 프로그램 소셜 미디어 필터링 온디바이스 AI
TD
The Decoder 52일 전
IMP 8

메타, 최초의 최전선 AI '뮤즈 스파크' 공개

메타가 새로운 네이티브 멀티모달 추론 모델인 '뮤즈 스파크(Muse Spark)'를 공개했습니다. 이 모델은 툴 사용, 시각적 사고 체인, 멀티 에이전트 오케스트레이션을 지원하며, 벤치마크에서 글로벌 top 5에 랭크되며 맹추격을 보여주었습니다. 기존 라마(Llama) 모델과 달리 오픈웨이트(Open Weights) 정책을 폐지한 점과, 획기적인 컴퓨팅 효율성을 달성한 점이 가장 큰 특징입니다.

메타 뮤즈 스파크 멀티모달 AI
TD
The Decoder 55일 전
IMP 8

알리바바 Qwen, 시각 AI 다단계 추론 오류 해결

비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.

비전 언어 모델 멀티모달 AI 추론 오류
TC
TechCrunch AI 58일 전
IMP 8

마이크로소프트, 오픈AI 맞서 3종 파운데이션 모델 출시

마이크로소프트(MS) AI 연구소가 음성 인식, 음성 생성, 비디오 생성이 가능한 3종의 자체 멀티모달 파운데이션 모델을 공개했습니다. 오픈AI와의 독점적 파트너십을 유지하면서도 자체 AI 스택을 구축하려는 MS의 전략이자, 구글 등 경쟁사 대비 저렴한 가격을 무기로 LLM 시장을 공략하는 움직임입니다.

마이크로소프트 파운데이션 모델 오픈AI