메뉴

#멀티모달

HN
Hacker News 17시간 전
IMP 8

오픈라우터, 1억 1,300만 달러 시리즈 B 유치

AI 모델 라우팅 플랫폼인 오픈라우터(OpenRouter)가 알파벳의 CapitalG와 엔비디아의 NVentures 등으로부터 1억 1,300만 달러(약 1,500억 원) 규모의 시리즈 B 투자를 유치했습니다. 이번 투자에는 주요 빅테크 기업들의 벤처 투자사들이 대거 참여하며, 단일 모델에서 멀티모델 기반의 프로덕션 환경으로 전환되는 AI 시장에서 모델 라우팅 및 게이트웨이 계층의 중요성이 크게 부각되는 계기가 되었습니다. 오픈라우터는 최근 6개월간 주간 토큰 처리량이 5조 개에서 25조 개로 급증했으며, 이번 자금을 바탕으로 인프라 확장과 기업용 기능 고도화를 진행할 계획입니다.

AI 인프라 오픈라우터 시리즈 B
MP
MarkTechPost 10일 전
IMP 9

바이트댄스, 이미지와 영상의 이해·생성·편집 통합 멀티모달 AI 'Lance' 공개

바이트댄스가 이미지와 영상의 이해, 생성, 편집 기능을 하나의 모델에서 모두 처리할 수 있는 통합 모델 'Lance'를 발표했습니다. 이 모델은 이해(Understanding)와 생성(Generation) 작업을 각각 분리된 전문가 네트워크로 처리하는 듀얼 스트림 혼합 전문가(MoE) 아키텍처를 채택하여 작업 간 간섭 없이 높은 성능을 발휘합니다. 단일 모델로 텍스트, 이미지, 영상이라는 세 가지 모달리티를 자연스럽게 아우르며 시각 AI 분야의 중요한 이정표를 제시합니다.

멀티모달 비디오 생성 이미지 생성
HN
Hacker News 10일 전
IMP 8

바이트댄스, 이미지·영상 생성·이해 통합 멀티모달 모델 Lance 공개

바이트댄스가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 모두 지원하는 30억(3B) 파라미터 규모의 통합 멀티모달 모델 'Lance'를 공개했습니다. 128대의 A100 GPU 환경에서 트랜스포머 백본을 완전히 처음부터 학습시켰음에도 불구하고, 기존 벤치마크에서 매우 경쟁력 있는 높은 성능을 입증했다는 점이 가장 큰 의의입니다. 이는 하나의 모델로 시각 데이터의 인식과 생성을 동시에 해결하는 최근 멀티모달 AI 기술 트렌드를 잘 보여줍니다.

멀티모달 바이트댄스 이미지 생성
MP
MarkTechPost 11일 전
IMP 8

엔비디아, Qwen3-8B 대비 6배 빠른 트리모드 언어모델 공개

엔비디아가 기존 오픈소스 모델인 Qwen3-8B보다 한 번의 연산(Forward pass)당 6배 많은 토큰을 처리하는 새로운 트리모드 언어 모델 'Nemotron-Labs-Diffusion'을 발표했습니다. 이 모델은 텍스트, 코드, 이미지 생성 등 다양한 생성(AI) 작업을 단일 모델에서 처리할 수 있도록 설계되었습니다. 이는 AI 모델의 연산 효율성을 획기적으로 끌어올리며, 실시간 처리와 대규모 배포가 필요한 실무 환경에서 매우 중요한 기술적 진전으로 평가됩니다.

엔비디아 언어모델 오픈소스
TC
TechCrunch AI 11일 전
IMP 8

구글 '제미나이 오mni': 이미지·음성·텍스트를 영상으로

구글이 '제미나이 오mni(Gemini Omni)' 모델을 발표하며 텍스트, 이미지, 오디오를 결합해 물리 법칙과 문맥을 이해하는 고품질 비디오를 생성하는 기능을 선보였습니다. 첫 모델인 '오mni 플래시'는 최대 10초의 영상을 만들 수 있으며, 개인화된 디지털 아바타와 딥페이크 방지용 워터마크 기능도 포함되어 있어 소비자 친화적인 멀티모달 AI 시장을 선도하려는 구글의 의도를 보여줍니다.

구글 제미나이 멀티모달
TD
The Decoder 11일 전
IMP 9

구글 I/O: 신규 모델, 24시작동 클라우드 AI 에이전트

구글이 I/O 개발자 컨퍼런스에서 새로운 AI 모델인 제미나이 3.5 플래시와 통합 멀티모달 모델 Omni, 그리고 클라우드에서 24시간 돌아가는 개인형 에이전트 스파크(Spark)를 공개했습니다. 특히 3.5 플래시는 기존 모델을 성능으로 압도하면서도 비용을 절반 수준으로 낮춰 기업의 AI 도입 가성비를 획기적으로 개선할 수 있어 주목됩니다. 또한 개발자를 위한 멀티 에이전트 관리 플랫폼 업데이트와 함께 제미나이 앱의 대대적인 UI 개편도 진행되었습니다.

제미나이3.5 AI에이전트 멀티모달
HN
Hacker News 19일 전
IMP 8

실시간 협업을 위한 인터랙션 모델 연구

이 글은 턴 기반 인터페이스의 한계를 넘어, 오디오·비디오·텍스트를 실시간으로 처리하며 사람과 자연스럽게 협업하는 인터랙션 모델(Interaction Model)의 연구 미리보기를 발표합니다. 다중 스트림·마이크로 턴 설계를 통해 지능성과 반응성을 모두 최고 수준으로 끌어올렸습니다. 인간이 AI와 실시간으로 소통하며 피드백을 주고받는 ‘협업의 병목’을 해소하는 데 중요한 의미가 있습니다.

인터랙션 모델 실시간 AI Human-in-the-loop
HN
Hacker News 21일 전
IMP 8

제미나이 API 파일 검색, 멀티모달 완벽 지원

구글 딥마인드가 제미나이(Gemini) API의 파일 검색(File Search) 도구에 멀티모달 데이터 처리, 커스텀 메타데이터, 페이지 수준의 출처 인용 기능 등 세 가지 주요 업데이트를 도입했습니다. 이를 통해 개발자들은 텍스트와 이미지를 동시에 이해하는 정확하고 투명한 RAG(검색 증강 생성) 시스템을 구축할 수 있게 되었습니다. 이번 업데이트는 대규모 비정형 데이터를 다루는 실무자들에게 검색 정확도와 결과의 신뢰성을 획기적으로 높여준다는 점에서 중요합니다.

제미나이 API 멀티모달 RAG
HN
Hacker News 25일 전
IMP 7

GLM-5V-터보: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델

GLM-V 팀이 이미지, 비디오, GUI 등 다양한 형식을 인지하고 해석하며 행동할 수 있는 'GLM-5V-Turbo' 모델을 발표했습니다. 이 모델은 언어 모델의 보조 인터페이스가 아닌, 추론 및 실행의 핵심 구성 요소로 멀티모달 인식을 통합한 것이 특징입니다. 이를 통해 우수한 멀티모달 코딩 및 시각적 도구 활용 능력을 갖춘 에이전트 구축을 위한 실질적인 통찰력을 제공합니다.

멀티모달 파운데이션 모델 인공지능 에이전트
TD
The Decoder 32일 전
IMP 9

엔비디아 네모트론 3 나노 옴니 공개

엔비디아가 텍스트, 이미지, 비디오, 오디오를 동시에 처리하는 오픈소스 멀티모달 모델 '네모트론 3 나노 옴니(Nemotron 3 Nano Omni)'를 공개했습니다. 이 모델은 경쟁사 모델(Qwen, GPT 등)에서 생성한 합성 데이터와 자체 오디오 데이터셋을 포함한 7,170억 개의 토큰으로 학습되었으며, 에이전트 애플리케이션에 최적화되어 상업적 사용이 가능합니다. 가장 주목할 점은 모델 가중치뿐만 아니라 학습 데이터, 파이프라인, 강화 학습 레시피까지 투명하게 공개하여 오픈소스 생태계에 큰 의미를 갖는다는 것입니다.

엔비디아 멀티모달 오픈소스
LL
r/LocalLLaMA 44일 전
IMP 8

알리바바 '큐웬3.6-35B-A3B' 오픈소스 공개

알리바바가 총 350억(35B) 파라미터 규모에 실제 활성 파라미터는 30억(3B)에 불과한 희소 MoE(Sparse MoE) 기반의 초경량 모델 '큐원3.6-35B-A3B'를 오픈소스로 공개했습니다. 자신보다 활성 파라미터가 10배나 큰 모델들과 맞먹는 수준의 에이전트 코딩(Agentic Coding) 능력과 강력한 멀티모달 추론 성능을 제공하는 것이 가장 큰 특징입니다. 실무자 입장에서 적은 컴퓨팅 자원으로도 고성능을 발휘할 수 있는 획기적인 오픈소스 AI 대안으로 평가받고 있습니다.

오픈소스 큐원(Qwen) MoE
HN
Hacker News 44일 전
IMP 8

클라우드플레어, 에이전트 최적화 통합 AI 추론 플랫폼 발표

클라우드플레어가 단 하나의 API로 여러 AI 제공업체의 모델을 사용할 수 있는 통합 추론(Inference) 레이어를 발표했습니다. 이 플랫폼은 코딩 에이전트 등 복잡한 AI 워크플로우에서 발생하는 지연 시간 증가와 비용 관리 문제를 해결하는 데 초점을 맞추고 있습니다. 개발자는 이제 클라우드플레어 인프라 내에서 오픈소스 모델부터 상용 모델까지 자유롭게 전환하며 멀티모달 애플리케이션을 구축할 수 있습니다.

클라우드플레어 API 추론
MP
MarkTechPost 48일 전
IMP 8

미니맥스, AI 에이전트 멀티모달 CLI ‘MMX-CLI’ 오픈소스 공개

미니맥스(MiniMax)는 개발자와 AI 에이전트가 터미널 환경에서 이미지, 비디오, 음성 등 미디어를 직접 생성할 수 있도록 돕는 Node.js 기반 CLI 도구인 MMX-CLI를 출시했습니다. 이 도구는 복잡한 통합 작업(MCP 등) 없이 7가지 모달리티(텍스트, 이미지, 비디오, 음성, 음악, 비전, 검색) 기능을 쉘 명령어로 호출할 수 있게 해줍니다. 결과적으로 Cursor나 Claude Code와 같은 코딩 에이전트가 외부 API 연동 없이도 네이티브 형태로 풍부한 미디어 생성 능력을 갖추게 되는 혁신적인 변화를 제공합니다.

에이전트 멀티모달 오픈소스
TD
The Decoder 50일 전
IMP 8

AI 모델, 도움 요청 대신 무작정 추측하는 경향

최신 벤치마크 테스트에 따르면 멀티모달 언어 모델은 시각적 정보가 누락되었을 때 사용자에게 도움을 요청하는 대신 환각(Hallucination)을 일으키거나 응답을 거부하는 것으로 나타났습니다. 연구진은 이를 해결하기 위해 모델이 정말로 필요할 때만 도움을 요청하도록 강화학습 기법(GRPO)을 적용했으며, 기존의 대형 모델들을 모두 능가하는 성과를 입증했습니다.

멀티모달 벤치마크 강화학습
WR
Wired AI 52일 전
IMP 8

메타 신모델 발표, 빅테크 AI 경쟁 합류

메타가 새로운 폐쇄형 다중모달 AI 모델 '뮤즈 스파크(Muse Spark)'를 발표했습니다. 이 모델은 최고 수준의 성능을 자랑하며, 특히 의료 조언 및 코딩에 특화되어 있습니다. 이는 최근 막대한 자본과 인재 영입을 통해 AI 경쟁력을 회복하려는 저커버그의 전략적 행보로 평가됩니다.

메타 AI 모델 뮤즈 스파크
HN
Hacker News 55일 전
IMP 8

애플 M3 프로에서 구동되는 온디바이스 실시간 멀티모달 AI

해커뉴스에 공개된 'Parlor' 프로젝트는 서버 비용 없이 로컬 기기에서 완전히 무료로 실시간 음성 및 시각 대화가 가능한 온디바이스 AI 데모입니다. 구글의 소형 모델인 Gemma 4 E2B와 Kokoro TTS를 활용하여 애플 M3 Pro 환경에서 약 2.5~3초의 종단 간 지연 시간을 달성했습니다. 이는 외부 API나 고가의 서버 없이도 로컬 환경에서 원활한 언어 학습 및 다양한 멀티모달 인터랙션이 가능해졌다는 점에서 오픈소스 AI 생태계의 중요한 진전으로 평가됩니다.

온디바이스-ai 멀티모달 gemma-4