8B 모델 에이전트 성능 53%→99% 끌어올린 가드레일 'Forge'
자체 호스팅되는 소형 LLM(8B)의 도구 호출 및 에이전트 성능을 극적으로 끌어올려주는 'Forge' 라이브러리가 소개되었습니다. 파싱 오류 복구, 재시도 넛지, 컨텍스트 관리 등의 가드레일 기술을 통해 소형 모델로도 복잡한 다단계 에이전트 워크플로우에서 99%에 육박하는 높은 성공률을 기록할 수 있습니다. OpenAI 호환 프록시 서버 모드를 지원하여 기존 클라이언트(예: Cursor, Continue 등)에 쉽게 통합해 성능을 높일 수 있는 것이 큰 장점입니다.
Forge: 자체 호스팅 LLM 도구 호출을 위한 신뢰성 레이어
Forge는 가드레일(파싱 오류 복구, 재시도 넛지, 단계 강제) 및 컨텍스트 관리(VRAM 인식 예산, 계층형 압축)를 통해 8B 로컬 모델을 다단계 에이전트 워크플로우에서 최고 수준으로 끌어올려 줍니다. 현재 최고의 자체 호스팅 구성(Ministral-3 8B Instruct Q8, llama-server 기반)은 Forge의 26가지 시나리오 평가 스위트 전체에서 86.5%를 기록했으며, 가장 어려운 단계에서는 76%를 기록했습니다.
활용 방법은 다음과 같습니다:
WorkflowRunner — 도구를 정의하고, 백엔드를 선택하여 구조화된 에이전트 루프를 실행합니다. Forge는 시스템 프롬프트, 도구 실행, 컨텍스트 압축 및 가드레일에 이르는 전체 수명 주기를 관리합니다.
SlotWorker — 자동 선점 기능을 통해 공유 추론 슬롯에 대한 우선순위 대기열 액세스를 추가합니다. 전문 워크플로우가 하나의 GPU 슬롯을 공유하는 다중 에이전트 아키텍처에 적합합니다. Forge를 직접 기반으로 구축할 때 가장 좋습니다.
가드레일 미들웨어(Middleware) — 자체 오케스트레이션 루프 내에서 Forge의 신뢰성 스택(조합 가능한 미들웨어)을 사용합니다. 루프는 사용자가 제어하며, Forge는 응답을 검증하고, 형식이 잘못된 도구 호출을 복구하며, 필수 단계를 강제합니다.
프록시 서버(Proxy server) — 모든 클라이언트(opencode, Continue, aider 등)와 로컬 모델 서버 사이에 위치하는 즉시 사용 가능한 OpenAI 호환 프록시(python -m forge.proxy)입니다. 가드레일을 투명하게 적용하므로 클라이언트는 더 똑똑한 모델과 대화하고 있다고 생각하게 됩니다. Ollama, llama-server(llama.cpp), Llamafile 및 Anthropic을 백엔드로 지원합니다.
요구 사항: Python 3.12+ 실행 중인 LLM 백엔드(아래 참조)
설치: pip install forge-guardrails # 핵심 모듈만 pip install "forge-guardrails[anthropic]" # Anthropic 클라이언트 포함
개발용 설치: git clone https://github.com/antoinezambelli/forge.git cd forge pip install -e ".[dev]"
백엔드 설정 (택 1): llama-server (권장 — 평가 상위 10개 구성 모두 llama-server에서 실행됨):
https://github.com/ggml-org/llama.cpp/releases 에서 설치
llama-server -m path/to/Ministral-3-8B-Instruct-2512-Q8_0.gguf --jinja -ngl 999 --port 8080
Ollama (대안 — 설정이 더 쉽지만, 까다로운 워크로드에서는 성능이 약간 낮음):
https://ollama.com/download 에서 설치
ollama pull ministral-3:8b-instruct-2512-q4_K_M
Anthropic (API, 로컬 GPU 불필요): pip install -e ".[anthropic]" export ANTHROPIC_API_KEY=sk-...
자세한 지침은 백엔드 설정(Backend Setup)을, 하드웨어에 맞는 모델은 모델 가이드(Model Guide)를 참조하세요.
빠른 시작: import asyncio from pydantic import BaseModel, Field from forge import ( Workflow, ToolDef, ToolSpec, WorkflowRunner, OllamaClient, ContextManager, TieredCompact, )
def get_weather(city: str) -> str: return f"72°F and sunny in {city}"
class GetWeatherParams(BaseModel): city: str = Field(description="City name")
workflow = Workflow( name="weather", description="Look up weather for a city.", tools={ "get_weather": ToolDef( spec=ToolSpec( name="get_weather", description="Get current weather", parameters=GetWeatherParams, ), callable=get_weather, ), }, required_steps=[], terminal_tool="get_weather", system_prompt_template="You are a helpful assistant. Use the available tools to answer the user.", )
async def main(): client = OllamaClient(model="ministral-3:8b-instruct-2512-q4_K_M", recommended_sampling=True) ctx = ContextManager( strategy=TieredCompact(keep_recent=2), budget_tokens=8192 ) runner = WorkflowRunner(client=client, context_manager=ctx) await runner.run(workflow, "What's the weather in Paris?")
asyncio.run(main())
다단계 워크플로우, 멀티턴 대화 및 백엔드 자동 관리에 대해서는 사용자 가이드(User Guide)를 참조하세요. 장기 실행 세션(CLI, 채팅 서버, 음성 비서)을 구축하는 경우, 일시적인 메시지 필터링에 대한 중요한 지침은 장기 실행 세션 권고안(long-running session advisory)을 참조하세요.
프록시 서버: 로컬 모델 서버를 즉시 대체할 수 있습니다. OpenAI 호환 클라이언트를 프록시로 가리키면 Forge의 가드레일을 무료로 얻을 수 있습니다.
외부 모드 — 사용자가 llama-server를 관리하고 Forge가 이를 프록시함
python -m forge.proxy --backend-url http://localhost:8080 --port 8081