메뉴
BL
MarkTechPost 48일 전

미니맥스, AI 에이전트 멀티모달 CLI ‘MMX-CLI’ 오픈소스 공개

IMP
8/10
핵심 요약

미니맥스(MiniMax)는 개발자와 AI 에이전트가 터미널 환경에서 이미지, 비디오, 음성 등 미디어를 직접 생성할 수 있도록 돕는 Node.js 기반 CLI 도구인 MMX-CLI를 출시했습니다. 이 도구는 복잡한 통합 작업(MCP 등) 없이 7가지 모달리티(텍스트, 이미지, 비디오, 음성, 음악, 비전, 검색) 기능을 쉘 명령어로 호출할 수 있게 해줍니다. 결과적으로 Cursor나 Claude Code와 같은 코딩 에이전트가 외부 API 연동 없이도 네이티브 형태로 풍부한 미디어 생성 능력을 갖추게 되는 혁신적인 변화를 제공합니다.

번역된 본문

에디터 추천 | 에이전트 AI | AI 에이전트 | 기술 | AI 쇼츠 | 인공지능 애플리케이션 | 신규 출시 | 오픈소스 | 소프트웨어 엔지니어링 | 스탭 기술 뉴스

미니맥스(MiniMax) 올리모달(omni-modal) 모델 스택을 개발한 AI 연구 기업 미니맥스가 'MMX-CLI'를 출시했습니다. MMX-CLI는 Node.js 기반의 명령줄 인터페이스(CLI)로, 터미널을 사용하는 인간 개발자는 물론 Cursor, Claude Code, OpenCode 등의 도구에서 실행되는 AI 에이전트가 미니맥스 AI 플랫폼의 모든 생성 기능을 사용할 수 있도록 지원합니다.

MMX-CLI가 해결하는 문제 오늘날 대부분의 대형 언어 모델(LLM) 기반 에이전트는 텍스트를 읽고 쓰는 능력이 뛰어납니다. 문서에 대한 추론, 코드 생성, 다중 턴 지시에 대한 응답이 가능합니다. 하지만 미디어를 직접 생성할 수 있는 경로는 없습니다. 모델 컨텍스트 프로토콜(MCP)과 같은 별도의 통합 레이어 없이는 음성을 합성하거나, 음악을 작곡하거나, 비디오를 렌더링하거나, 이미지를 이해할 수 있는 내장된 방법이 없습니다. 이러한 통합을 구축하려면 일반적으로 사용자 정의 API 래퍼를 작성하고, 서버 측 도구를 구성하며, 사용 중인 에이전트 프레임워크와 별도로 인증을 관리해야 합니다. MMX-CLI는 이에 대한 대안으로 자리 잡았습니다. 즉, MCP 연결 코드 없이 개발자가 터미널에서 호출하는 것과 동일한 방식으로, 이러한 모든 기능을 에이전트가 직접 호출할 수 있는 쉘 명령어로 제공합니다.

7가지 모달리티(Modality) MMX-CLI는 미니맥스의 풀 모달 스택을 7가지 생성 명령 그룹(mmx text, mmx image, mmx video, mmx speech, mmx music, mmx vision, mmx search) 및 지원 유틸리티(mmx auth, mmx config, mmx quota, mmx update)로 래핑합니다.

mmx text 명령은 다중 턴 채팅, 스트리밍 출력, 시스템 프롬프트 및 JSON 출력 모드를 지원합니다. 또한 --model 플래그를 사용하여 MiniMax-M2.7-highspeed와 같은 특정 미니맥스 모델 변형을 지정할 수 있으며, 기본값은 MiniMax-M2.7입니다.

mmx image 명령은 텍스트 프롬프트에서 이미지를 생성하며, 가로세로 비율(--aspect-ratio) 및 배치 수(--n)를 제어할 수 있습니다. 또한 대상 참조를 위한 --subject-ref 매개변수를 지원하여 여러 생성된 이미지에서 캐릭터나 객체의 일관성을 유지할 수 있도록 합니다. 이는 시각적 연속성이 필요한 워크플로우에 매우 유용합니다.

mmx video 명령은 기본 모델로 MiniMax-Hailuo-2.3을 사용하며, 대안으로 MiniMax-Hailuo-2.3-Fast를 사용할 수 있습니다. 기본적으로 mmx video generate는 작업을 제출하고 비디오가 준비될 때까지 동기적으로 폴링합니다. --async 또는 --no-wait를 전달하면 이 동작이 변경되어, 명령이 즉시 작업 ID를 반환하며 호출자가 mmx video task get --task-id를 통해 별도로 진행 상황을 확인할 수 있습니다. 또한 이미지를 조건으로 하는 비디오 생성을 위해 --first-frame <path-or-url> 플래그를 지원합니다. 이 플래그를 사용하면 특정 이미지가 출력 비디오의 시작 프레임으로 사용됩니다.

mmx speech 명령은 텍스트 음성 변환(TTS) 합성을 제공합니다. 30개 이상의 사용 가능한 음성, 속도 제어, 볼륨 및 피치 조절, --subtitles를 통한 자막 타이밍 데이터 출력을 지원하며, 미디어 플레이어로의 파이프를 통한 스트리밍 재생도 지원합니다. 기본 모델은 speech-2.8-hd이며, 대안으로 speech-2.6speech-02가 있습니다. 입력은 최대 10,000자로 제한됩니다.

mmx music 명령은 music-2.5 모델을 기반으로 텍스트 프롬프트에서 음악을 생성합니다. --vocals(예: "따뜻한 남성 바리톤"), --genre, --mood, --instruments, --tempo, --bpm, --key, --structure 등 세밀한 작곡 제어가 가능합니다. --instrumental 플래그는 보컬이 없는 음악을 생성합니다. 또한 --aigc-watermark 플래그를 사용하여 출력 오디오에 AI 생성 콘텐츠 워터마크를 삽입할 수 있습니다.

mmx vision은 비전 언어 모델(VLM)을 통해 이미지를 이해합니다. 로컬 파일 경로 또는 원격 URL을 허용하며, 로컬 파일은 자동으로 Base64로 인코딩됩니다. 또는 사전에 업로드된 미니맥스 파일 ID도 지원합니다. --prompt 플래그를 사용하면 이미지에 대한 특정 질문을 할 수 있으며, 기본 프롬프트는 "이미지를 설명해 줘."입니다.

mmx search는 미니맥스 자체 검색 인프라를 통해 웹 검색 쿼리를 실행하고 결과를 텍스트 또는 JSON 형식으로 반환합니다.

기술 아키텍처 MMX-CLI는 작성(writ

원문 보기
원문 보기 (영어)
Editors Pick Agentic AI AI Agents Technology AI Shorts Artificial Intelligence Applications New Releases Open Source Software Engineering Staff Tech News MiniMax, the AI research company behind the MiniMax omni-modal model stack, has released MMX-CLI — Node.js-based command-line interface that exposes the MiniMax AI platform's full suite of generative capabilities, both to human developers working in a terminal and to AI agents running in tools like Cursor, Claude Code, and OpenCode. What Problem Is MMX-CLI Solving? Most large language model (LLM)-based agents today are strong at reading and writing text. They can reason over documents, generate code, and respond to multi-turn instructions. But they have no direct path to generate media — no built-in way to synthesize speech, compose music, render a video, or understand an image without a separate integration layer such as the Model Context Protocol (MCP). Building those integrations typically requires writing custom API wrappers, configuring server-side tooling, and managing authentication separately from whatever agent framework you are using. MMX-CLI is positioned as an alternative approach: expose all of those capabilities as shell commands that an agent can invoke directly, the same way a developer would from a terminal — with zero MCP glue required. The Seven Modalities MMX-CLI wraps MiniMax's full-modal stack into seven generative command groups — mmx text , mmx image , mmx video , mmx speech , mmx music , mmx vision , and mmx search — plus supporting utilities ( mmx auth , mmx config , mmx quota , mmx update ). The mmx text command supports multi-turn chat, streaming output, system prompts, and JSON output mode. It accepts a --model flag to target specific MiniMax model variants such as MiniMax-M2.7-highspeed , with MiniMax-M2.7 as the default. The mmx image command generates images from text prompts with controls for aspect ratio ( --aspect-ratio ) and batch count ( --n ). It also supports a --subject-ref parameter for subject reference, which enables character or object consistency across multiple generated images — useful for workflows that require visual continuity. The mmx video command uses MiniMax-Hailuo-2.3 as its default model, with MiniMax-Hailuo-2.3-Fast available as an alternative. By default, mmx video generate submits a job and polls synchronously until the video is ready. Passing --async or --no-wait changes this behavior: the command returns a task ID immediately, letting the caller check progress separately via mmx video task get --task-id . The command also supports a --first-frame <path-or-url> flag for image-conditioned video generation, where a specific image is used as the opening frame of the output video. The mmx speech command exposes text-to-speech (TTS) synthesis with more than 30 available voices, speed control, volume and pitch adjustment, subtitle timing data output via --subtitles , and streaming playback support via pipe to a media player. The default model is speech-2.8-hd , with speech-2.6 and speech-02 as alternatives. Input is capped at 10,000 characters. The mmx music command, backed by the music-2.5 model, generates music from a text prompt with fine-grained compositional controls including --vocals (e.g. "warm male baritone" ), --genre , --mood , --instruments , --tempo , --bpm , --key , and --structure . The --instrumental flag generates music without vocals. An --aigc-watermark flag is also available for embedding an AI-generated content watermark in the output audio. mmx vision handles image understanding via a vision-language model (VLM). It accepts a local file path or remote URL — automatically base64-encoding local files — or a pre-uploaded MiniMax file ID. A --prompt flag lets you ask a specific question about the image; the default prompt is "Describe the image." mmx search runs a web search query through MiniMax's own search infrastructure and returns results in text or JSON format. Technical Architecture MMX-CLI is written almost entirely in TypeScript (99.8% TS) with strict mode enabled, and uses Bun as the native runtime for development and testing while distributing to npm for compatibility with Node.js 18+ environments. Configuration schema validation uses Zod, and resolution follows a defined precedence order — CLI flags → environment variables → ~/.mmx/config.json → defaults — making deployment straightforward in containerized or CI environments. Dual-region support is built into the API client layer, routing Global users to api.minimax.io and CN users to api.minimaxi.com , switchable via mmx config set --key region --value cn . Key Takeaways MMX-CLI is MiniMax's official open command-line interface that gives AI agents native access to seven generative modalities — text, image, video, speech, music, vision, and search — without requiring any MCP integration. AI agents running in tools like Cursor, Claude Code, and OpenCode can be set up with two commands and a single natural language instruction, after which the agent learns the full command interface on its own from the bundled SKILL.md documentation. The CLI is designed for programmatic and agent use, with dedicated flags for non-interactive execution, a clean stdout/stderr separation for safe piping, structured exit codes for error handling, and a schema export feature that lets agent frameworks register mmx commands as JSON tool definitions. For AI devs already building agent-based systems, it lowers the integration barrier significantly by consolidating image, video, speech, music, vision, and search generation into a single, well-documented CLI that agents can learn and operate on their own. Check out the Repo here . Also, feel free to follow us on Twitter and don’t forget to join our 130k+ ML SubReddit and Subscribe to our Newsletter . Wait! are you on telegram? now you can join us on telegram as well. Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us Shobha Kakkar + posts Bio Shobha is a data analyst with a proven track record of developing innovative machine-learning solutions that drive business value. Shobha Kakkar LLM-Pruning Collection: A JAX Based Repo For Structured And Unstructured LLM Compression Shobha Kakkar The 20 Hottest Agentic AI Tools And Agents Of 2025 (So Far) Shobha Kakkar Top Artificial Intelligence AI Books to Read in 2025 Shobha Kakkar Hugging Face Introduces a Free Model Context Protocol (MCP) Course: A Developer’s Guide to Build and Deploy Context-Aware AI Agents and Applications Shobha Kakkar 13 Free AI Courses on AI Agents in 2025 Shobha Kakkar OpenAI Just Announced API Access to o1 (Advanced Reasoning Model) Shobha Kakkar OpenAI Just Released Sora: The Most Awaited AI Video-Generation Tool Shobha Kakkar Hugging Face Releases a Free and Open Course on Fine Tuning Local LLMs Shobha Kakkar Meet Foundry: An AI Startup that Builds, Evaluates, and Improves AI Agents Shobha Kakkar Meet CircleMind: An AI Startup that is Transforming Retrieval Augmented Generation with Knowledge Graphs and PageRank Shobha Kakkar Top Online Courses on Google Gemini Shobha Kakkar Top Data Analytics Courses Shobha Kakkar Top SQL Courses to Try in 2025 Shobha Kakkar Google Introduces &#8216;Memory' Feature to Gemini Advanced Shobha Kakkar Top Generative Artificial Intelligence AI Courses in 2024 Shobha Kakkar Top Computer Vision Courses Shobha Kakkar OpenAI's Expected January Launch: AI Agents Set to Automate Everyday Life Shobha Kakkar Anthropic AI Introduces a New Token Counting API Shobha Kakkar Gemini AI Now Accessible Through the OpenAI Library for Streamlined Use Shobha Kakkar Microsoft Paint + AI = A Creative Revolution for Everyone Shobha Kakkar OpenAI Launches it's Search Engine on ChatGPT Shobha Kakkar Meet PII Masker: An Open-Source Tool for Protecting Sensitive Data by Automatically Detecting and Masking PII Using Advanced AI Powered by DeBERTa-v3 Shobha Kakkar Understanding Local Rank and I