메뉴
BL
MarkTechPost 49일 전

엣지 디바이스용 4천5백만 파라미터 비전-언어 모델

IMP
8/10
핵심 요약

Liquid AI가 4천5백만(450M) 파라미터 크기의 초소형 비전-언어 모델(VLM)인 'LFM2.5-VL-450M'을 공개했습니다. 이 모델은 객체 위치를 특정하는 바운딩 박스(Bounding Box) 예측, 한국어 등 8개국어 지원, 강화된 명령어 준수 기능을 지원합니다. 클라우드 의존도를 낮춰 스마트폰이나 로봇 등 자원이 제한된 엣지 디바이스에서 250ms 미만의 저지연 추론이 가능하다는 점이 가장 큰 의의입니다.

번역된 본문

기술 AI 쇼츠 인공지능 애플리케이션 컴퓨터 비전 에디터 추천 언어 모델 머신러닝 신규 출시 오픈소스 스태프 기술 뉴스 미분류 비전 언어 모델

Liquid AI가 최근 기존 'LFM2-VL-450M' 비전-언어 모델의 업데이트된 버전인 'LFM2.5-VL-450M'을 출시했습니다. 이번 새로운 릴리스는 4천5백만(450M) 파라미터 크기를 유지하면서도 바운딩 박스 예측, 향상된 명령어 준수, 확장된 다국어 이해 및 함수 호출 기능을 도입했습니다. 이 모델은 NVIDIA Jetson Orin 같은 임베디드 AI 모듈, AMD Ryzen AI Max+ 395 같은 미니 PC APU, 삼성 S25 울트라에 탑재된 스냅드래곤 8 엘리트(Snapdragon 8 Elite)와 같은 최신 스마트폰 SoC에 이르기까지 다양한 엣지 하드웨어에서 직접 구동되도록 설계되었습니다.

비전-언어 모델(VLM)이란 무엇이며 모델 크기가 중요한 이유 본격적인 설명에 앞서 비전-언어 모델(VLM)이 무엇인지 이해하는 것이 도움이 됩니다. VLM은 이미지와 텍스트를 함께 처리할 수 있는 모델입니다. 사진을 보내고 자연어로 관련 질문을 하면 모델이 이에 답변하는 형태입니다. 대부분의 대규모 VLM은 구동을 위해 막대한 GPU 메모리와 클라우드 인프라를 필요로 합니다. 이는 컴퓨팅 자원이 제한되고 지연 시간이 짧아야 하는 창고 로봇, 스마트 안경, 소매점 매장 카메라 등 실제 배포 환경에서는 큰 문제가 됩니다.

LFM2.5-VL-450M은 Liquid AI가 이러한 제약에 대한 해답으로 내놓은 것입니다. 엣지 하드웨어에 들어갈 만큼 충분히 작으면서도 유의미한 수준의 비전 및 언어 기능을 지원하는 모델입니다.

아키텍처 및 훈련 LFM2.5-VL-450M은 언어 모델 백본으로 LFM2.5-350M를 사용하고, 비전 인코더로는 형태 최적화된 SigLIP2 NaFlex 86M을 사용합니다. 컨텍스트 윈도우는 32,768 토큰이며 어휘 크기는 65,536개입니다. 이미지 처리와 관련하여 이 모델은 업스케일링 없이 최대 512×512 픽셀의 원본 해상도 처리를 지원하고 왜곡 없이 비표준 가로세로 비율을 유지합니다. 또한 타일링(Tiling) 전략을 사용하여 대형 이미지를 겹치지 않는 512×512 패치로 분할하는 동시에 전체 컨텍스트를 위한 썸네일 인코딩을 포함합니다. 썸네일 인코딩은 매우 중요합니다. 이것이 없다면 타일링을 통해 모델에 전달되는 것이 로컬 패치뿐이어서 전체적인 장면을 파악할 수 없게 됩니다. 추론 시 사용자는 재훈련 없이 최대 이미지 토큰 및 타일 수를 조정하여 속도와 품질 간의 균형을 맞출 수 있습니다. 이는 컴퓨팅 예산이 다른 하드웨어에 배포할 때 매우 유용합니다. Liquid AI가 권장하는 생성 매개변수는 텍스트의 경우 temperature=0.1, min_p=0.15, repetition_penalty=1.05이며, 비전 입력의 경우 min_image_tokens=32, max_image_tokens=256, do_image_splitting=True입니다.

훈련 측면에서 Liquid AI는 기존 LFM2-VL-450M과 비교해 사전 훈련 규모를 10조(10T) 토큰에서 28조(28T) 토큰으로 늘렸습니다. 이후 선호도 최적화(Preference Optimization)와 강화학습을 활용한 사후 훈련을 통해 그라운딩(Grounding), 명령어 준수 및 비전-언어 작업 전반의 안정성을 개선했습니다.

LFM2-VL-450M 대비 새로운 기능 가장 중요한 추가 기능은 바운딩 박스 예측입니다. LFM2.5-VL-450M은 RefCOCO-M 벤치마크에서 81.28점을 기록했으며, 이는 이전 모델의 0점에서 비약적인 상승입니다. RefCOCO-M은 자연어 설명이 주어졌을 때 이미지 내에서 모델이 객체를 얼마나 정확하게 위치시킬 수 있는지 측정하는 시각적 그라운딩 벤치마크입니다. 실제 작동 시 모델은 장면 내 객체의 위치를 식별하는 정규화된 좌표와 함께 구조화된 JSON 형태로 결과를 출력합니다. 즉, 단순히 무엇이 있는지 설명하는 것을 넘어 정확히 어디에 있는지 위치를 파악합니다. 이는 순수 이미지 캡셔닝과 확연히 다르며, 공간적 출력이 필요한 파이프라인에서 이 모델을 직접적으로 사용할 수 있게 만듭니다.

다국어 지원 역시 크게 개선되었습니다. MMMB 점수가 54.29에서 68.09로 향상되었으며, 아랍어, 중국어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 포괄합니다. 이는 별도의 현지화 파이프라인 없이도 시각적 입력과 함께 현지 언어 프롬프트를 이해해야 하는 글로벌 배포 환경에서 매우 유용합니다.

명령어 준수 능력도 향상되었습니다. MM-IFEval 점수가 32.93에서 45.00으로 증가했습니다. 이는 모델이 프롬프트에 주어진 명시적 제약 조건(예: 특정 형식으로 응답하기 등)을 더 안정적으로 준수한다는 것을 의미합니다.

원문 보기
원문 보기 (영어)
Technology AI Shorts Artificial Intelligence Applications Computer Vision Editors Pick Language Model Machine Learning New Releases Open Source Staff Tech News Uncategorized Vision Language Model Liquid AI just released LFM2.5-VL-450M, an updated version of its earlier LFM2-VL-450M vision-language model. The new release introduces bounding box prediction, improved instruction following, expanded multilingual understanding, and function calling support — all within a 450M-parameter footprint designed to run directly on edge hardware ranging from embedded AI modules like NVIDIA Jetson Orin, to mini-PC APUs like AMD Ryzen AI Max+ 395, to flagship phone SoCs like the Snapdragon 8 Elite inside the Samsung S25 Ultra. What is a Vision-Language Model and Why Model Size Matters Before going deeper, it helps to understand what a vision-language model (VLM) is. A VLM is a model that can process both images and text together — you can send it a photo and ask questions about it in natural language, and it will respond. Most large VLMs require substantial GPU memory and cloud infrastructure to run. That's a problem for real-world deployment scenarios like warehouse robots, smart glasses, or retail shelf cameras, where compute is limited and latency must be low. LFM2.5-VL-450M is Liquid AI's answer to this constraint: a model small enough to fit on edge hardware while still supporting a meaningful set of vision and language capabilities. Architecture and Training LFM2.5-VL-450M uses LFM2.5-350M as its language model backbone and SigLIP2 NaFlex shape-optimized 86M as its vision encoder. The context window is 32,768 tokens with a vocabulary size of 65,536. For image handling, the model supports native resolution processing up to 512×512 pixels without upscaling, preserves non-standard aspect ratios without distortion, and uses a tiling strategy that splits large images into non-overlapping 512×512 patches while including thumbnail encoding for global context. The thumbnail encoding is important: without it, tiling would give the model only local patches with no sense of the overall scene. At inference time, users can tune the maximum image tokens and tile count for a speed/quality tradeoff without retraining, which is useful when deploying across hardware with different compute budgets. The recommended generation parameters from Liquid AI are temperature=0.1 , min_p=0.15 , and repetition_penalty=1.05 for text, and min_image_tokens=32 , max_image_tokens=256 , and do_image_splitting=True for vision inputs. On the training side, Liquid AI scaled pre-training from 10T to 28T tokens compared to LFM2-VL-450M, followed by post-training using preference optimization and reinforcement learning to improve grounding, instruction following, and overall reliability across vision-language tasks. New Capabilities Over LFM2-VL-450M The most significant addition is bounding box prediction. LFM2.5-VL-450M scored 81.28 on RefCOCO-M, up from zero on the previous model. RefCOCO-M is a visual grounding benchmark that measures how accurately a model can locate an object in an image given a natural language description. In practice, the model outputs structured JSON with normalized coordinates identifying where objects are in a scene — not just describing what is there, but also locating it. This is meaningfully different from pure image captioning and makes the model directly usable in pipelines that need spatial outputs. Multilingual support also improved substantially. MMMB scores improved from 54.29 to 68.09, covering Arabic, Chinese, French, German, Japanese, Korean, Portuguese, and Spanish. This is relevant for global deployments where local-language prompts must be understood alongside visual inputs, without needing separate localization pipelines. Instruction following improved as well. MM-IFEval scores went from 32.93 to 45.00, meaning the model more reliably adheres to explicit constraints given in a prompt — for example, responding in a particular format or restricting output to specific fields. Function calling support for text-only input was also added, measured by BFCLv4 at 21.08, a capability the previous model did not include. Function calling allows the model to be used in agentic pipelines where it needs to invoke external tools — for instance, calling a weather API or triggering an action in a downstream system. Benchmark Performance Across vision benchmarks evaluated using VLMEvalKit, LFM2.5-VL-450M outperforms both LFM2-VL-450M and SmolVLM2-500M on most tasks. Notable scores include 86.93 on POPE, 684 on OCRBench, 60.91 on MMBench (dev en), and 58.43 on RealWorldQA. Two benchmark gains stand out beyond the headline numbers. MMVet — which tests more open-ended visual understanding — improved from 33.85 to 41.10, a substantial relative gain. CountBench, which evaluates the model's ability to count objects in a scene, improved from 47.64 to 73.31, one of the largest relative improvements in the table. InfoVQA held roughly flat at 43.02 versus 44.56 on the prior model. On language-only benchmarks, IFEval improved from 51.75 to 61.16 and Multi-IF from 26.21 to 34.63. The model does not outperform on all tasks — MMMU (val) dropped slightly from 34.44 to 32.67 — and Liquid AI notes the model is not well-suited for knowledge-intensive tasks or fine-grained OCR. Edge Inference Performance LFM2.5-VL-450M with Q4_0 quantization runs across the full range of target hardware, from embedded AI modules like Jetson Orin to mini-PC APUs like Ryzen AI Max+ 395 to flagship phone SoCs like Snapdragon 8 Elite. The latency numbers tell a clear story. On Jetson Orin, the model processes a 256×256 image in 233ms and a 512×512 image in 242ms — staying well under 250ms at both resolutions. This makes it fast enough to process every frame in a 4 FPS video stream with full vision-language understanding, not just detection. On Samsung S25 Ultra, latency is 950ms for 256×256 and 2.4 seconds for 512×512. On AMD Ryzen AI Max+ 395, it is 637ms for 256×256 and 944ms for 512×512 — under one second for the smaller resolution on both consumer devices, which keeps interactive applications responsive. Real-World Use Cases LFM2.5-VL-450M is especially well suited to real-world deployments where low latency, compact structured outputs, and efficient semantic reasoning matter most, including settings where offline operation or on-device processing is important for privacy. In industrial automation, compute-constrained environments such as passenger vehicles, agricultural machinery, and warehouses often limit perception models to bounding-box outputs. LFM2.5-VL-450M goes further, providing grounded scene understanding in a single pass — enabling richer outputs for settings like warehouse aisles, including worker actions, forklift movement, and inventory flow — while still fitting existing edge hardware like a Jetson Orin. For wearables and always-on monitoring, devices such as smart glasses, body-worn assistants, dashcams, and security or industrial monitors cannot afford large perception stacks or constant cloud streaming. An efficient VLM can produce compact semantic outputs locally, turning raw video into useful structured understanding while keeping compute demands low and preserving privacy. In retail and e-commerce, tasks like catalog ingestion, visual search, product matching, and shelf compliance require more than object detection, but richer visual understanding is often too expensive to deploy at scale. LFM2.5-VL-450M makes structured visual reasoning practical for these workloads. Key Takeaways LFM2.5-VL-450M adds bounding box prediction for the first time , scoring 81.28 on RefCOCO-M versus zero on the previous model, enabling the model to output structured spatial coordinates for detected objects — not just describe what it sees. Pre-training was scaled from 10T to 28T tokens , combined with post-training via preference optimization and reinforcement learning, driving consistent benchmark gains ac