#멀티모달 AI

아마존·엔비디아·AMD, 3D 세계 모델 스타트업에 3억1천만 달러 투자

아마존, 엔비디아, AMD는 물리적 세계를 3D로 시뮬레이션하는 세계 모델(World Model) 스타트업 '오디세이 ML(Odyssey ML)'에 3억 1천만 달러를 투자했습니다. 이번 투자는 기업 가치 14억 5천만 달러로 평가받는 오디세이의 기술력을 입증하며, 언어 모델을 넘어 물리적 세계를 이해하는 '세계 모델'이 차세대 AI의 핵심 경쟁력으로 부상하고 있음을 시사합니다.

세계 모델 인공지능 투자 오디세이 ML

MarkTechPost • 42일 전

IMP 8

큐웰 로봇 스위트: 3종 실감형 AI 모델 완벽 분석

알리바바 큐웰(Qwen) 팀이 로봇 제어, 비디오 세계 모델링, 내비게이션을 위한 세 가지 새로운 실감형 AI(Embodied AI) 모델을 선보였습니다. 큐웰3.5 및 큐웰3-VL을 기반으로 구축된 이 모델들은 로봇이 주변 환경을 이해하고 정교하게 물리적 행동을 수행할 수 있도록 지원합니다. 각 모델의 아키텍처와 데이터 파이프라인, 그리고 벤치마크 결과까지 실무자 관점에서 상세히 분석했습니다.

실감형 AI 로봇 공학 비전 언어 행동 모델

The Decoder • 53일 전

IMP 8

알리바바 '큐웬3.7-플러스', 멀티모달 자율형 에이전트로 진화

알리바바가 시각적 인지와 에이전트 기능을 결합한 멀티모달 모델 '큐웬3.7-플러스(Qwen3.7-Plus)'를 출시했습니다. 이 모델은 그래픽 사용자 인터페이스(GUI)를 자율적으로 조작하고 1만 줄 이상의 코드를 독립적으로 작성하는 등 뛰어난 작업 자동화 능력을 보여줍니다. 복잡한 논리적 추론 벤치마크에서는 경쟁사 최상위 모델들에 미치지 못하지만, 가격 경쟁력을 갖춘 독점 모델로서 알리바바 클라우드를 통해 서비스됩니다.

멀티모달 AI 자율형 에이전트 알리바바 클라우드

The Decoder • 55일 전

IMP 8

구글 제미나 4 12B, 16GB 램으로 노트북에서 구동

구글 딥마인드가 일반 노트북 환경에서도 원활하게 작동하는 멀티모달 오픈소스 AI 모델인 Gemma 4 12B를 공개했습니다. 이 모델은 텍스트, 이미지, 오디오를 별도의 인코더 없이 네이티브로 처리하며, 16GB RAM 환경에서도 26B(파라미터)급 모델과 맞먹는 성능을 발휘합니다. 음성 인식 및 코드 생성은 물론 수 분 길이의 비디오 분석까지 가능하여 로컬 환경에서의 AI 활용 가능성을 크게 확장했다는 점에서 실무자들에게 중요한 의미를 갖습니다.

구글 딥마인드 멀티모달 AI 오픈소스 모델

MarkTechPost • 55일 전

IMP 8

구글, 16GB 노트북 구동 가능한 오디오 내장형 멀티모달 모델 공개

구글 딥마인드가 인코더 없이도 기본 오디오(Audio) 처리가 가능한 새로운 멀티모달 AI 모델인 Gemma 4 12B를 공개했습니다. 이 모델은 16GB RAM을 탑재한 일반적인 노트북 환경에서도 원활하게 구동되는 가벼운 크기를 자랑합니다. 이는 개발자와 일반 사용자들이 로컬 환경에서 고성능 멀티모달 AI를 더욱 쉽게 활용할 수 있게 되었음을 의미합니다.

구글 딥마인드 Gemma 4 멀티모달 AI

r/singularity • 64일 전

IMP 9

새로운 제미나이 옴니, 경쟁작들을 압도하다

구글 딥마인드가 텍스트, 오디오, 비디오 등 모든 형태의 입력을 받아 고품질 비디오를 생성하고 자연어 대화로 편집할 수 있는 멀티모달 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 제미나이의 방대한 실세계 지식과 물리 법칙에 대한 이해를 바탕으로 단순한 사실적인 영상을 넘어 의미 있는 스토리텔링이 가능한 영상을 제작합니다. 실무자들에게 이는 복잡한 프롬프트 엔지니어링 없이도 아이디어를 시각화하고 일관된 영상을 제작할 수 있는 혁신적인 워크플로우를 제공한다는 점에서 매우 중요합니다.

구글 딥마인드 제미나이 옴니 비디오 생성

The Decoder • 66일 전

IMP 7

바이트댄스 연구: 긴 문서 학습엔 텍스트 변환보다 질문이 효과적

바이트댄스와 HKUST 연구진은 긴 문서를 다루는 멀티모달 AI 모델 학습 시, 단순히 텍스트를 인식해 변환하도록 하는 것보다 질문-답변(QA) 쌍을 활용하는 것이 훨씬 효과적이라는 사실을 발견했습니다. 이 방식으로 학습된 소형 모델(MMProLong)은 50만 토큰 이상의 긴 문맥에서도 안정적인 성능을 내며 파라미터 크기가 훨씬 큰 기존 오픈소스 모델들을 능가했습니다. 이 연구는 AI가 긴 문서를 탐색할 때 정보 추출 과제를 통해 유연한 검색 능력을 기르는 것이 핵심임을 시사합니다.

멀티모달 AI 긴 컨텍스트 모델 학습

Google AI Blog • 69일 전

IMP 9

구글 I/O 2026에서 발표한 100가지

구글 I/O 2026에서 최신 AI 모델인 Gemini 3.5와 Gemini Omni를 공개하며, 개발자와 일반 사용자 모두를 위한 혁신적인 도구들을 대거 선보였습니다. 특히 Frontier급 성능과 빠른 속도를 결합한 'Gemini 3.5 Flash'와 모든 입력을 비디오를 포함한 출력으로 생성하는 멀티모달 모델 'Gemini Omni'는 에이전트(Agent) 기반 AI 생태계의 새로운 지평을 여는 핵심 발표입니다. 이번 행사는 AI가 단순히 텍스트를 넘어 실제 업무를 수행하고 현실감 있는 미디어를 생성하는 실용성과 품질을 대폭 끌어올렸다는 점에서 매우 중요합니다.

구글 I/O 2026 Gemini 3.5 Gemini Omni

MarkTechPost • 70일 전

IMP 8

알리바바 통번역 AI, 60개 언어 2.8초 지연

알리바바 클라우드의 Qwen 팀이 실시간 다국어 통번역 모델인 Qwen3.5-LiveTranslate-Flash를 공개했습니다. 이 모델은 60개 언어의 입력을 2.8초의 지연 시간으로 처리하며, 시각 정보 분석과 화자의 음성 실시간 클로닝을 지원합니다. 소음이 많은 환경에서도 안정적인 성능을 발휘하고 전문 용어 사전 주입 기능을 갖춰 글로벌 기업의 실무 환경에 즉각적인 활용이 가능한 것이 핵심입니다.

음성 인식 및 번역 멀티모달 AI 알리바바 Qwen

Hacker News • 70일 전

IMP 8

구글 제미나이 옴니(Gemini Omni) 발표

구글이 텍스트, 이미지, 오디오 등 모든 형태의 입력을 조합해 자연어 대화만으로 영상을 생성하고 편집할 수 있는 멀티모달 AI 모델 '제미나이 옴니(Gemini Omni)'를 공개했습니다. 이 모델은 물리법칙이나 역사적 사실에 대한 세계 지식을 바탕으로 일관성 있는 스토리텔링이 가능하며, 복잡한 영상 편집 과정을 단계적인 대화를 통해 수행할 수 있다는 점이 가장 큰 특징입니다. 실무자 관점에서 프롬프트 가이드와 안전성 평제(Red Teaming)를 거쳐 배포되었으며, 영상 생성 및 편집 파이프라인의 혁신을 가져올 중요한 릴리즈입니다.

영상 생성 멀티모달 AI 제미나이 옴니

r/singularity • 71일 전

IMP 5

제미나이 옴니(Gemini Omni)가 생성한 영상 공개

X(옛 트위터)에 '제미나이 옴니(Gemini Omni)' 모델을 통해 생성된 것으로 보이는 영상이 공유되었습니다. 게시자는 해당 영상의 실제 생성 출처를 첫 번째 답글에서 확인할 수 있다고 안내했습니다. 실무자들에게 멀티모달 AI의 영상 생성 역량 및 진위를 파악하는 데 중요한 참고 자료가 됩니다.

제미나이 영상 생성 멀티모달 AI

Wired AI • 98일 전

IMP 8

오픈AI, 챗GPT 이미지 생성 모델 대폭 강화

오픈AI가 단일 프롬프트로 여러 장의 이미지를 생성하고 비영어권 언어의 텍스트 렌더링을 크게 개선한 'ChatGPT Images 2.0'을 전격 공개했습니다. 이번 모델은 챗GPT 특유의 '추론' 능력과 웹 검색 기능을 활용하여 최신 정보가 반영된 정확하고 복잡한 이미지를 생성할 수 있으며, 사용자가 원하는 다양한 비율(3:1~1:3) 조정 또한 지원합니다. 영어 텍스트 생성 능력은 눈에 띄게 향상되었으나, 중국어 등 타 언어에 대해서는 여전히 글자가 뒤섞이거나 의미 없는 문구가 생성되는 등 일관성 부족의 한계를 보여주어 다국어 지원의 추가적인 보완이 필요해 보입니다.

오픈AI 챗GPT 이미지 생성

The Decoder • 101일 전

IMP 8

항상 켜져 있는 레이반 메타 안경, 일상 작업 효율 향상

연구진이 항상 켜져 있는(Always-on) 스마트 안경과 자율 에이전트를 결합한 'VisionClaw' 시스템을 발표했습니다. 사용자의 시점을 지속적으로 인식하는 AI가 브라우저, 이메일 등의 디지털 작업을 자동으로 수행하여 작업 완료 시간과 인지 부담을 크게 줄여주는 것으로 나타났습니다. 이는 단순한 음성 명령을 넘어, 실제 환경과 디지털 데이터가 결합된 문맥 기반의 연속적인 AI 사용 패턴으로의 전환을 시사합니다.

스마트 안경 에이전틱 AI 휴먼-컴퓨터 상호작용

Hacker News • 107일 전

IMP 5

AI 기반 X(트위터) 피드 필터링 확장 프로그램 'Bouncer'

원하지 않는 게시물을 자연어로 차단할 수 있는 브라우저 확장 프로그램 및 iOS 앱입니다. 사용자가 '암호화폐', '참여 유도성 글', '분노 정치' 등 필터 주제를 일상 언어로 입력하면 다양한 AI 모델이 게시물을 분류해 실시간으로 숨겨줍니다. 로컬 모델 실행부터 클라우드 API 연동까지 지원하며 이미지 기반 필터링과 차단 사유 투명성 제공이 특징입니다.

브라우저 확장 프로그램 소셜 미디어 필터링 온디바이스 AI

The Decoder • 111일 전

IMP 8

메타, 최초의 최전선 AI '뮤즈 스파크' 공개

메타가 새로운 네이티브 멀티모달 추론 모델인 '뮤즈 스파크(Muse Spark)'를 공개했습니다. 이 모델은 툴 사용, 시각적 사고 체인, 멀티 에이전트 오케스트레이션을 지원하며, 벤치마크에서 글로벌 top 5에 랭크되며 맹추격을 보여주었습니다. 기존 라마(Llama) 모델과 달리 오픈웨이트(Open Weights) 정책을 폐지한 점과, 획기적인 컴퓨팅 효율성을 달성한 점이 가장 큰 특징입니다.

메타 뮤즈 스파크 멀티모달 AI

The Decoder • 114일 전

IMP 8

알리바바 Qwen, 시각 AI 다단계 추론 오류 해결

비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.

비전 언어 모델 멀티모달 AI 추론 오류

TechCrunch AI • 117일 전

IMP 8

마이크로소프트, 오픈AI 맞서 3종 파운데이션 모델 출시

마이크로소프트(MS) AI 연구소가 음성 인식, 음성 생성, 비디오 생성이 가능한 3종의 자체 멀티모달 파운데이션 모델을 공개했습니다. 오픈AI와의 독점적 파트너십을 유지하면서도 자체 AI 스택을 구축하려는 MS의 전략이자, 구글 등 경쟁사 대비 저렴한 가격을 무기로 LLM 시장을 공략하는 움직임입니다.

마이크로소프트 파운데이션 모델 오픈AI