오포, 스마트폰 센서 활용 안드로이드 AI 에이전트 오픈소스화
오포(Oppo)의 Multi-X 팀이 카메라, 화면, 음성 등 스마트폰의 모든 센서를 활용해 앱 간 작업을 수행하는 오픈소스 안드로이드 AI 에이전트 'X-OmniClaw'를 공개했습니다. 이 에이전트는 가상화된 클라우드 환경이 아닌 기기 자체에서 직접 구동되어 민감한 개인 정보를 보호하고, 사용자의 행동을 클론하여 자동화하는 것이 특징입니다. 이는 개인정보 보호를 강화한 온디바이스 기반 모바일 AI 에이전트의 발전 방향을 제시한다는 점에서 중요합니다.
오포, 클라우드 없이 카메라·화면·음성을 활용하는 안드로이드 AI 에이전트 X-OmniClaw 오픈소스화 조나단 켐퍼(Jonathan Kemper) | 2026년 5월 17일
핵심 요약
- 오포의 Multi-X 팀은 스마트폰의 카메라, 화면, 음성을 활용해 앱 간의 작업을 수행하는 안드로이드용 오픈소스 AI 에이전트 'X-OmniClaw'를 출시했습니다. 모든 기능은 물리적 기기 자체에서 직접 구동됩니다.
- 이 시스템은 여러 인식 채널을 결합하고, 갤러리 사진을 기기 내에서 검색 가능한 텍스트 기반 메모리로 처리하며, 사용자 행동을 복제(Clone)하여 학습함으로써 자율적으로 작업을 수행합니다.
- 데모에서 X-OmniClaw는 카메라에 촬영된 제품의 가격을 비교하고, 플로팅 어시스턴트로서 연습 문제를 풀며, 사용자 갤러리에서 독립적으로 사진 앨범을 생성하는 모습을 보여주었습니다.
본문 오포의 Multi-X 팀은 클라우드상의 가상 스마트폰을 거치지 않고도 카메라, 화면, 음성을 활용해 실제 안드로이드 앱에서 작업을 수행하는 오픈소스 에이전트 'X-OmniClaw'를 공개했습니다.
기술 보고서에 따르면, 오포 AI 센터는 자사의 접근 방식과 RedFinger, 알리바바의 Wuying, 텐센트 클라우드 폰과 같은 클라우드 폰 플랫폼을 명확하게 구분했습니다. 이러한 서비스들은 데이터 센터 내의 가상화된 안드로이드 인스턴스에서 에이전트를 구동합니다. 즉, 기기 자체의 로컬 센서, 카메라 또는 개인 데이터에 접근할 수 없습니다.
X-OmniClaw는 정반대의 접근 방식을 취합니다. 즉, 물리적인 안드로이드 기기에서 직접 실행됩니다. 인식, 제어, 앱 상호작용을 위한 핵심 로직이 모두 스마트폰 자체에 상주합니다. 보고서에 따르면 클라우드 기반의 대형 언어 모델(LLM)은 고수준의 추론을 위한 '연료'로서 필요할 때만 호출됩니다.
보고서는 관련된 구체적인 로컬 모델의 이름을 명시하지 않았지만, 탭할 수 있는 UI 요소를 감지하기 위한 온디바이스 그라운딩 모델(Grounding Model) 및 OCR(Optical Character Recognition)과 같은 구성 요소는 명시되어 있습니다.
카메라, 화면, 음성이 하나의 파이프라인으로 통합 이 에이전트는 세 가지 인식 채널을 하나의 파이프라인으로 번들링합니다. 비전-언어 모델(Vision-Language Model)은 어떤 동작을 트리거하기 전에 먼저 사용자의 요청과 함께 장면을 해석합니다.
연구진이 제시한 예시에서, 사용자가 카메라를 제품에 향하게 한 채 "타오바오에서 이거 얼마야?"라고 묻습니다. 시스템은 이를 내부적으로 "타오바오에서의 에비앙 스프레이 가격"으로 재구성한 후, 구조화된 의도를 실행을 위해 전달합니다.
사진 갤러리가 검색 가능한 메모리로 변환 장기 기억을 위해 X-OmniClaw는 로컬 데이터를 의미론적 항목으로 압축합니다. 기기가 유휴 상태일 때 갤러리 사진은 사물, 장면, 이벤트에 대한 간결한 설명으로 처리된 후 Markdown 파일로 저장됩니다.
모든 항목은 저장되기 전에 민감한 정보를 제거하도록 설계된 필터를 거칩니다. 보고서는 클라우드 비전과 관련된 업로드 위험을 지적하며, 원본 이미지가 스마트폰을 떠나지 않도록 하는 것이 온디바이스 모델로 전환하는 다음 단계라고 밝혔습니다.
단계별 반복 재생을 대체하는 복제된 탭 경로 이 에이전트는 매번 모든 동작을 처음부터 계획하는 대신, 사용자의 행동을 재사용 가능한 스킬로 복제합니다. 앱 페이지의 전체 실행 명령을 추출하여, 다음 번에는 원래의 탭 경로를 반복 재생하는 대신 딥링크(Deeplink)를 통해 해당 페이지로 바로 이동합니다.
만약 이 방식이 실패할 경우, 시스템은 더 간단한 실행 방법으로 순차적으로 대체(Fallback)합니다. 탭 가능한 요소를 감지하기 위해 X-OmniClaw는 XML 구조 데이터와 그라운딩 모델 및 텍스트 인식을 결합합니다. 이는 XML만으로는 정확한 탭 대상을 찾을 수 없는 광고가 많은 인터페이스에서 특히 유용합니다.
가격 비교부터 숙제 도우미까지 첫 번째 시나리오에서 사용자가 카메라를 제품에 대고 가격을 묻습니다. 에이전트는 쇼핑 앱에 접속하여 스크롤하고, 스크린샷을 찍은 뒤 비전-언어 모델을 통해 가격과 판매량을 읽어옵니다. "두 번째 항목 열어줘"와 같은 후속 질문은 추가적인 그라운딩 과정 없이도 원활하게 작동합니다.
또 다른 예시에서 X-OmniClaw는 "ScreenAvatar", 즉 화면의 명령에 따라 일련의 연습 문제를 풀어나가는 등 화면 상의 작업을 해결하는 '디지털 대리인' 역할을 합니다. 세 번째 데모에서는 시스템이 음성 명령에 응답하여 작동하는 모습이 추가로 소개되었습니다.