미니맥스, AI 에이전트 멀티모달 CLI ‘MMX-CLI’ 오픈소스 공개
미니맥스(MiniMax)는 개발자와 AI 에이전트가 터미널 환경에서 이미지, 비디오, 음성 등 미디어를 직접 생성할 수 있도록 돕는 Node.js 기반 CLI 도구인 MMX-CLI를 출시했습니다. 이 도구는 복잡한 통합 작업(MCP 등) 없이 7가지 모달리티(텍스트, 이미지, 비디오, 음성, 음악, 비전, 검색) 기능을 쉘 명령어로 호출할 수 있게 해줍니다. 결과적으로 Cursor나 Claude Code와 같은 코딩 에이전트가 외부 API 연동 없이도 네이티브 형태로 풍부한 미디어 생성 능력을 갖추게 되는 혁신적인 변화를 제공합니다.
에디터 추천 | 에이전트 AI | AI 에이전트 | 기술 | AI 쇼츠 | 인공지능 애플리케이션 | 신규 출시 | 오픈소스 | 소프트웨어 엔지니어링 | 스탭 기술 뉴스
미니맥스(MiniMax) 올리모달(omni-modal) 모델 스택을 개발한 AI 연구 기업 미니맥스가 'MMX-CLI'를 출시했습니다. MMX-CLI는 Node.js 기반의 명령줄 인터페이스(CLI)로, 터미널을 사용하는 인간 개발자는 물론 Cursor, Claude Code, OpenCode 등의 도구에서 실행되는 AI 에이전트가 미니맥스 AI 플랫폼의 모든 생성 기능을 사용할 수 있도록 지원합니다.
MMX-CLI가 해결하는 문제 오늘날 대부분의 대형 언어 모델(LLM) 기반 에이전트는 텍스트를 읽고 쓰는 능력이 뛰어납니다. 문서에 대한 추론, 코드 생성, 다중 턴 지시에 대한 응답이 가능합니다. 하지만 미디어를 직접 생성할 수 있는 경로는 없습니다. 모델 컨텍스트 프로토콜(MCP)과 같은 별도의 통합 레이어 없이는 음성을 합성하거나, 음악을 작곡하거나, 비디오를 렌더링하거나, 이미지를 이해할 수 있는 내장된 방법이 없습니다. 이러한 통합을 구축하려면 일반적으로 사용자 정의 API 래퍼를 작성하고, 서버 측 도구를 구성하며, 사용 중인 에이전트 프레임워크와 별도로 인증을 관리해야 합니다. MMX-CLI는 이에 대한 대안으로 자리 잡았습니다. 즉, MCP 연결 코드 없이 개발자가 터미널에서 호출하는 것과 동일한 방식으로, 이러한 모든 기능을 에이전트가 직접 호출할 수 있는 쉘 명령어로 제공합니다.
7가지 모달리티(Modality)
MMX-CLI는 미니맥스의 풀 모달 스택을 7가지 생성 명령 그룹(mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision, mmx search) 및 지원 유틸리티(mmx auth, mmx config, mmx quota, mmx update)로 래핑합니다.
mmx text 명령은 다중 턴 채팅, 스트리밍 출력, 시스템 프롬프트 및 JSON 출력 모드를 지원합니다. 또한 --model 플래그를 사용하여 MiniMax-M2.7-highspeed와 같은 특정 미니맥스 모델 변형을 지정할 수 있으며, 기본값은 MiniMax-M2.7입니다.
mmx image 명령은 텍스트 프롬프트에서 이미지를 생성하며, 가로세로 비율(--aspect-ratio) 및 배치 수(--n)를 제어할 수 있습니다. 또한 대상 참조를 위한 --subject-ref 매개변수를 지원하여 여러 생성된 이미지에서 캐릭터나 객체의 일관성을 유지할 수 있도록 합니다. 이는 시각적 연속성이 필요한 워크플로우에 매우 유용합니다.
mmx video 명령은 기본 모델로 MiniMax-Hailuo-2.3을 사용하며, 대안으로 MiniMax-Hailuo-2.3-Fast를 사용할 수 있습니다. 기본적으로 mmx video generate는 작업을 제출하고 비디오가 준비될 때까지 동기적으로 폴링합니다. --async 또는 --no-wait를 전달하면 이 동작이 변경되어, 명령이 즉시 작업 ID를 반환하며 호출자가 mmx video task get --task-id를 통해 별도로 진행 상황을 확인할 수 있습니다. 또한 이미지를 조건으로 하는 비디오 생성을 위해 --first-frame <path-or-url> 플래그를 지원합니다. 이 플래그를 사용하면 특정 이미지가 출력 비디오의 시작 프레임으로 사용됩니다.
mmx speech 명령은 텍스트 음성 변환(TTS) 합성을 제공합니다. 30개 이상의 사용 가능한 음성, 속도 제어, 볼륨 및 피치 조절, --subtitles를 통한 자막 타이밍 데이터 출력을 지원하며, 미디어 플레이어로의 파이프를 통한 스트리밍 재생도 지원합니다. 기본 모델은 speech-2.8-hd이며, 대안으로 speech-2.6 및 speech-02가 있습니다. 입력은 최대 10,000자로 제한됩니다.
mmx music 명령은 music-2.5 모델을 기반으로 텍스트 프롬프트에서 음악을 생성합니다. --vocals(예: "따뜻한 남성 바리톤"), --genre, --mood, --instruments, --tempo, --bpm, --key, --structure 등 세밀한 작곡 제어가 가능합니다. --instrumental 플래그는 보컬이 없는 음악을 생성합니다. 또한 --aigc-watermark 플래그를 사용하여 출력 오디오에 AI 생성 콘텐츠 워터마크를 삽입할 수 있습니다.
mmx vision은 비전 언어 모델(VLM)을 통해 이미지를 이해합니다. 로컬 파일 경로 또는 원격 URL을 허용하며, 로컬 파일은 자동으로 Base64로 인코딩됩니다. 또는 사전에 업로드된 미니맥스 파일 ID도 지원합니다. --prompt 플래그를 사용하면 이미지에 대한 특정 질문을 할 수 있으며, 기본 프롬프트는 "이미지를 설명해 줘."입니다.
mmx search는 미니맥스 자체 검색 인프라를 통해 웹 검색 쿼리를 실행하고 결과를 텍스트 또는 JSON 형식으로 반환합니다.
기술 아키텍처 MMX-CLI는 작성(writ