메뉴
BL
r/LocalLLaMA 53일 전

Gemma 4 기반 화면 관찐 워크플로 자동 스킬화

IMP
7/10
핵심 요약

오픈소스 Mac 메뉴바 앱 AgentHandover가 로컬 Gemma 4(Ollama)로 화면을 관찰해 반복 워크플로를 구조화된 Skill 파일로 자동 생성합니다. MCP를 통해 Claude Code, Cursor 등 어떤 에이전트든 즉시 연동 가능하며, 전 과정이 온디바이스에서 암호화되어 처리되어 프라이버시가 강력합니다.

번역된 본문

AgentHandover는 오픈소스 Mac 메뉴바 애플리케이션으로, 로컬에서 Ollama를 통해 실행되는 Gemma 4를 사용하여 사용자의 화면을 관찰하고 반복되는 워크플로를 어떤 에이전트든 따라 할 수 있는 구조화된 Skill 파일로 변환합니다.

개발 배경은 에이전트에게 무언가를 맡기고 싶을 때마다 매일 하는 일조차 처음부터 전체 과정을 설명해야 했기 때문입니다. 그래서 AgentHandover는 그저 사용자의 작업을 지켜봅니다. 특정 작업을 녹화하는 '포커스 레코드(Focus Record)' 모드를 사용하거나, 백그라운드에서 실행하여 사용자가 무언가를 반복하는 것을 몇 번 보고 나면 패턴을 감지하는 '수동 발견(Passive Discovery)' 모드를 사용할 수 있습니다.

Skill은 관찰을 거듭할수록 더욱 정교해지며, 더 많이 학습할수록 작업 단계, 안전장치(guardrails), 신뢰도 점수(confidence scores)가 업데이트됩니다. 이 모든 과정은 11단계 파이프라인을 통해 기기 내에서 완벽하게 실행되며 어떤 데이터도 기기를 떠나지 않고 보관 시 암호화됩니다. MCP를 통한 원클릭 에이전트 연동을 지원하여 Claude Code, Cursor, OpenClaw 또는 MCP를 지원하는 모든 도구가 사용자의 Skill을 바로 사용할 수 있습니다. 또한 터미널을 선호하는 경우를 위한 CLI도 제공합니다.

간단한 데모 영상이 있으며, Apache 2.0 라이선스로 공개되었습니다. 저장소: https://github.com/sandroandric/AgentHandover

이 접근 방식에 대한 피드백을 기다리고 있으며, 화면 이해를 위해 다른 로컬 비전(Vision) 또는 OS 모델을 시도해 본 사람이 있는지 궁금합니다... 감사합니다!

원문 보기
원문 보기 (영어)
AgentHandover is an open-source Mac menu bar app that watches your screen through Gemma 4 (running locally via Ollama) and turns your repeated workflows into structured Skill files that any agent can follow. I built it because every time I wanted an agent to handle something for me I had to explain the whole process from scratch, even for stuff I do daily. So AgentHandover just watches instead. You can either hit record for a specific task (Focus Record) or let it run in the background where it starts picking up patterns after seeing you repeat something a few times (Passive Discovery). Skills get sharper with every observation, updating steps, guardrails, and confidence scores as it learns more. The whole thing is an 11-stage pipeline running fully on-device, nothing leaves your machine, encrypted at rest. One-click agent integration through MCP so Claude Code, Cursor, OpenClaw or anything that speaks MCP can just pick up your Skills. Also has a CLI if you prefer terminal. SImple illustrative demo in the video, Apache 2.0, repo: [https://github.com/sandroandric/AgentHandover](https://github.com/sandroandric/AgentHandover) Would love feedback on the approach and curious if anyone has tried other local vision or OS models for screen understanding...thxxx
관련 소식