메뉴
BL
The Decoder 14일 전

오포, 스마트폰 센서 활용 안드로이드 AI 에이전트 오픈소스화

IMP
8/10
핵심 요약

오포(Oppo)의 Multi-X 팀이 카메라, 화면, 음성 등 스마트폰의 모든 센서를 활용해 앱 간 작업을 수행하는 오픈소스 안드로이드 AI 에이전트 'X-OmniClaw'를 공개했습니다. 이 에이전트는 가상화된 클라우드 환경이 아닌 기기 자체에서 직접 구동되어 민감한 개인 정보를 보호하고, 사용자의 행동을 클론하여 자동화하는 것이 특징입니다. 이는 개인정보 보호를 강화한 온디바이스 기반 모바일 AI 에이전트의 발전 방향을 제시한다는 점에서 중요합니다.

번역된 본문

오포, 클라우드 없이 카메라·화면·음성을 활용하는 안드로이드 AI 에이전트 X-OmniClaw 오픈소스화 조나단 켐퍼(Jonathan Kemper) | 2026년 5월 17일

핵심 요약

  • 오포의 Multi-X 팀은 스마트폰의 카메라, 화면, 음성을 활용해 앱 간의 작업을 수행하는 안드로이드용 오픈소스 AI 에이전트 'X-OmniClaw'를 출시했습니다. 모든 기능은 물리적 기기 자체에서 직접 구동됩니다.
  • 이 시스템은 여러 인식 채널을 결합하고, 갤러리 사진을 기기 내에서 검색 가능한 텍스트 기반 메모리로 처리하며, 사용자 행동을 복제(Clone)하여 학습함으로써 자율적으로 작업을 수행합니다.
  • 데모에서 X-OmniClaw는 카메라에 촬영된 제품의 가격을 비교하고, 플로팅 어시스턴트로서 연습 문제를 풀며, 사용자 갤러리에서 독립적으로 사진 앨범을 생성하는 모습을 보여주었습니다.

본문 오포의 Multi-X 팀은 클라우드상의 가상 스마트폰을 거치지 않고도 카메라, 화면, 음성을 활용해 실제 안드로이드 앱에서 작업을 수행하는 오픈소스 에이전트 'X-OmniClaw'를 공개했습니다.

기술 보고서에 따르면, 오포 AI 센터는 자사의 접근 방식과 RedFinger, 알리바바의 Wuying, 텐센트 클라우드 폰과 같은 클라우드 폰 플랫폼을 명확하게 구분했습니다. 이러한 서비스들은 데이터 센터 내의 가상화된 안드로이드 인스턴스에서 에이전트를 구동합니다. 즉, 기기 자체의 로컬 센서, 카메라 또는 개인 데이터에 접근할 수 없습니다.

X-OmniClaw는 정반대의 접근 방식을 취합니다. 즉, 물리적인 안드로이드 기기에서 직접 실행됩니다. 인식, 제어, 앱 상호작용을 위한 핵심 로직이 모두 스마트폰 자체에 상주합니다. 보고서에 따르면 클라우드 기반의 대형 언어 모델(LLM)은 고수준의 추론을 위한 '연료'로서 필요할 때만 호출됩니다.

보고서는 관련된 구체적인 로컬 모델의 이름을 명시하지 않았지만, 탭할 수 있는 UI 요소를 감지하기 위한 온디바이스 그라운딩 모델(Grounding Model) 및 OCR(Optical Character Recognition)과 같은 구성 요소는 명시되어 있습니다.

카메라, 화면, 음성이 하나의 파이프라인으로 통합 이 에이전트는 세 가지 인식 채널을 하나의 파이프라인으로 번들링합니다. 비전-언어 모델(Vision-Language Model)은 어떤 동작을 트리거하기 전에 먼저 사용자의 요청과 함께 장면을 해석합니다.

연구진이 제시한 예시에서, 사용자가 카메라를 제품에 향하게 한 채 "타오바오에서 이거 얼마야?"라고 묻습니다. 시스템은 이를 내부적으로 "타오바오에서의 에비앙 스프레이 가격"으로 재구성한 후, 구조화된 의도를 실행을 위해 전달합니다.

사진 갤러리가 검색 가능한 메모리로 변환 장기 기억을 위해 X-OmniClaw는 로컬 데이터를 의미론적 항목으로 압축합니다. 기기가 유휴 상태일 때 갤러리 사진은 사물, 장면, 이벤트에 대한 간결한 설명으로 처리된 후 Markdown 파일로 저장됩니다.

모든 항목은 저장되기 전에 민감한 정보를 제거하도록 설계된 필터를 거칩니다. 보고서는 클라우드 비전과 관련된 업로드 위험을 지적하며, 원본 이미지가 스마트폰을 떠나지 않도록 하는 것이 온디바이스 모델로 전환하는 다음 단계라고 밝혔습니다.

단계별 반복 재생을 대체하는 복제된 탭 경로 이 에이전트는 매번 모든 동작을 처음부터 계획하는 대신, 사용자의 행동을 재사용 가능한 스킬로 복제합니다. 앱 페이지의 전체 실행 명령을 추출하여, 다음 번에는 원래의 탭 경로를 반복 재생하는 대신 딥링크(Deeplink)를 통해 해당 페이지로 바로 이동합니다.

만약 이 방식이 실패할 경우, 시스템은 더 간단한 실행 방법으로 순차적으로 대체(Fallback)합니다. 탭 가능한 요소를 감지하기 위해 X-OmniClaw는 XML 구조 데이터와 그라운딩 모델 및 텍스트 인식을 결합합니다. 이는 XML만으로는 정확한 탭 대상을 찾을 수 없는 광고가 많은 인터페이스에서 특히 유용합니다.

가격 비교부터 숙제 도우미까지 첫 번째 시나리오에서 사용자가 카메라를 제품에 대고 가격을 묻습니다. 에이전트는 쇼핑 앱에 접속하여 스크롤하고, 스크린샷을 찍은 뒤 비전-언어 모델을 통해 가격과 판매량을 읽어옵니다. "두 번째 항목 열어줘"와 같은 후속 질문은 추가적인 그라운딩 과정 없이도 원활하게 작동합니다.

또 다른 예시에서 X-OmniClaw는 "ScreenAvatar", 즉 화면의 명령에 따라 일련의 연습 문제를 풀어나가는 등 화면 상의 작업을 해결하는 '디지털 대리인' 역할을 합니다. 세 번째 데모에서는 시스템이 음성 명령에 응답하여 작동하는 모습이 추가로 소개되었습니다.

원문 보기
원문 보기 (영어)
Oppo open-sources Android AI agent X-OmniClaw that uses your camera, screen, and voice without leaving the phone Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper May 17, 2026 Nano Banana Pro prompted by THE DECODER Key Points Oppo's Multi-X team has released X-OmniClaw, an open-source AI agent for Android that carries out tasks across apps using the phone's camera, screen, and voice, all running directly on the physical device. The system combines multiple perception channels, processes gallery photos locally into a searchable text-based memory, and learns by cloning user behavior to replicate actions autonomously. In demos, X-OmniClaw was shown comparing prices of products captured on camera, acting as a floating assistant to solve exercises, and independently creating photo albums from a user's gallery. Ask about this article… Search Oppo's Multi-X team released X-OmniClaw, an open-source agent that taps into the camera, screen, and voice to get things done in real Android apps, all without routing through a cloud copy of your phone. In the technical report, Oppo's AI Center draws a clear line between its approach and cloud phone platforms like RedFinger, Alibaba's Wuying, and Tencent Cloud Phone. Those services run agents inside virtualized Android instances in a data center. That means they can't touch local sensors, cameras, or private data. X-OmniClaw takes the opposite route. It runs directly on the physical Android device. Core logic for perception, control, and app interaction all live on the phone itself. A cloud language model only gets called in as "fuel" for higher-level reasoning when needed, the report says. It doesn't name the specific local models involved, but it does list components like an on-device grounding model and OCR for detecting tappable UI elements. Ad Camera, screen, and voice feed into a single pipeline The agent bundles three perception channels into one pipeline. A vision-language model first interprets the scene along with the user's request before triggering any action. Ad DEC_D_Incontent-1 In the researchers' example, a user asks "How much does this cost on Taobao?" while pointing the camera at a product. The system rephrases that internally to "price of Evian spray on Taobao" and only then hands the structured intent off for execution. Photo gallery becomes searchable memory For long-term memory, X-OmniClaw condenses local data into semantic entries. During idle time, gallery photos get processed into compact descriptions of objects, scenes, and events, then stored in a Markdown file. Ad Every entry runs through a filter designed to strip out sensitive info before it's saved. The report flags upload risks tied to cloud vision. Moving to on-device models is the next step, the report says, so raw images never have to leave the phone. Cloned tap paths replace step-by-step replays Instead of planning every action from scratch, the agent clones user behavior into reusable skills. It extracts the full launch command for an app page and jumps there directly via deeplink next time, rather than replaying the original tap path. Ad DEC_D_Incontent-2 If that fails, the system falls back through simpler launch methods one by one. To detect tappable elements, X-OmniClaw combines XML structure data with a grounding model and text recognition. That helps with ad-heavy interfaces where XML alone can't pin down a precise tap target. Ad From price checks to homework help In the first scenario, a user points the camera at a product and asks about the price. The agent jumps into the shopping app, scrolls, takes screenshots, and reads out prices and sales figures through a vision-language model. A follow-up like "open the second item" works without any extra grounding. In another example, X-OmniClaw acts as a "ScreenAvatar," a "digital surrogate" that solves on-screen tasks on command, like working through a series of practice problems one after another. A third demo shows the system responding to a request to turn all parrot photos into a highlight album. It gathers matching files, jumps via deeplink into a video editing app's one-click composition tool, and selects the images with multi-tap. In the fourth example, the user clones the path to a deeply nested discount page once. Next time, a voice command is enough to reopen that exact subpage , even if the app doesn't offer public deeplinks. The project builds on the open-source HermesApp codebase and sits between OpenClaw , which focuses more on PCs, and the emergent-capability-driven Hermes Agent from Nous Research. Code and assets are available on GitHub . Google recently showed with Gemma 4 that a fully local model on a smartphone can already act as an agent. In the demo app "Google AI Edge Gallery," the model uses agent skills to query Wikipedia, generate QR codes, or open mood trackers with trend charts. In terms of method, the system builds on ByteDance's UI-TARS , a purely visual GUI agent that relies only on screenshots and coordinates. X-OmniClaw combines that approach with structural XML data and on-device execution to cut down on the error rate that pure vision pipelines hit with dynamic interfaces. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Arxiv