r/LocalLLaMA • 112일 전

Gemma 4 기반 화면 관찐 워크플로 자동 스킬화

IMP

7/10

핵심 요약

오픈소스 Mac 메뉴바 앱 AgentHandover가 로컬 Gemma 4(Ollama)로 화면을 관찰해 반복 워크플로를 구조화된 Skill 파일로 자동 생성합니다. MCP를 통해 Claude Code, Cursor 등 어떤 에이전트든 즉시 연동 가능하며, 전 과정이 온디바이스에서 암호화되어 처리되어 프라이버시가 강력합니다.

번역된 본문

AgentHandover는 오픈소스 Mac 메뉴바 애플리케이션으로, 로컬에서 Ollama를 통해 실행되는 Gemma 4를 사용하여 사용자의 화면을 관찰하고 반복되는 워크플로를 어떤 에이전트든 따라 할 수 있는 구조화된 Skill 파일로 변환합니다.

개발 배경은 에이전트에게 무언가를 맡기고 싶을 때마다 매일 하는 일조차 처음부터 전체 과정을 설명해야 했기 때문입니다. 그래서 AgentHandover는 그저 사용자의 작업을 지켜봅니다. 특정 작업을 녹화하는 '포커스 레코드(Focus Record)' 모드를 사용하거나, 백그라운드에서 실행하여 사용자가 무언가를 반복하는 것을 몇 번 보고 나면 패턴을 감지하는 '수동 발견(Passive Discovery)' 모드를 사용할 수 있습니다.

Skill은 관찰을 거듭할수록 더욱 정교해지며, 더 많이 학습할수록 작업 단계, 안전장치(guardrails), 신뢰도 점수(confidence scores)가 업데이트됩니다. 이 모든 과정은 11단계 파이프라인을 통해 기기 내에서 완벽하게 실행되며 어떤 데이터도 기기를 떠나지 않고 보관 시 암호화됩니다. MCP를 통한 원클릭 에이전트 연동을 지원하여 Claude Code, Cursor, OpenClaw 또는 MCP를 지원하는 모든 도구가 사용자의 Skill을 바로 사용할 수 있습니다. 또한 터미널을 선호하는 경우를 위한 CLI도 제공합니다.

간단한 데모 영상이 있으며, Apache 2.0 라이선스로 공개되었습니다. 저장소: https://github.com/sandroandric/AgentHandover

이 접근 방식에 대한 피드백을 기다리고 있으며, 화면 이해를 위해 다른 로컬 비전(Vision) 또는 OS 모델을 시도해 본 사람이 있는지 궁금합니다... 감사합니다!

원문 보기

원문 보기 (영어)

AgentHandover is an open-source Mac menu bar app that watches your screen through Gemma 4 (running locally via Ollama) and turns your repeated workflows into structured Skill files that any agent can follow. I built it because every time I wanted an agent to handle something for me I had to explain the whole process from scratch, even for stuff I do daily. So AgentHandover just watches instead. You can either hit record for a specific task (Focus Record) or let it run in the background where it starts picking up patterns after seeing you repeat something a few times (Passive Discovery). Skills get sharper with every observation, updating steps, guardrails, and confidence scores as it learns more. The whole thing is an 11-stage pipeline running fully on-device, nothing leaves your machine, encrypted at rest. One-click agent integration through MCP so Claude Code, Cursor, OpenClaw or anything that speaks MCP can just pick up your Skills. Also has a CLI if you prefer terminal. SImple illustrative demo in the video, Apache 2.0, repo: [https://github.com/sandroandric/AgentHandover](https://github.com/sandroandric/AgentHandover) Would love feedback on the approach and curious if anyone has tried other local vision or OS models for screen understanding...thxxx

에이전트 로컬 모델 워크플로 자동화 MCP 오픈소스

8GB VRAM으로 Gemma 4 로컬 파인튜닝 및 버그 수정 안내

Unsloth에서 무료 노트북을 통해 Gemma 4 E2B 및 E4B 모델을 파인튜닝할 수 있게 되었습니다. 단 8GB VRAM만으로도 로컬 환경에서 학습이 가능하며, 기존 대비 약 1.5배 빠르고 60% 적은 VRAM을 사용합니다. 또한 학습 시 Loss 폭주, 추론 오류 등 4가지 핵심 버그를 수정하여 안정적인 학습 및 추론 환경을 제공합니다.

Gemma-4 파인튜닝 오픈소스

r/LocalLLaMA • 112일 전

IMP 8

Gemma 4 31B GGUF 양자화 모델 KL 발산 성능 순위

oobabooga 사용자가 Hugging Face 주요 업로더들의 Gemma 4 31B GGUF 양자화 모델 52종의 품질을 KL 발산 지표로 비교 분석했습니다. 그 결과 파레토 최적화 기준 unsloth의 UD- 시리즈가 동일 용량 대비 가장 뛰어난 성능을 보여주었으며, 코딩 및 과학 분야보다 긴 문맥이나 비라틴어 텍스트 처리 시 품질 저하가 크게 나타났습니다. 이는 로컬 환경에서 LLM을 구동하는 사용자들에게 자신의 메모리 용량에 맞는 최적의 양자화 모델을 선택하는 중요한 가이드를 제공합니다.

로컬-LLM 양자화 Gemma-4