#로컬 LLM

LM Studio 바이오닉: 오픈 모델 기반 AI 에이전트

LM Studio가 코딩, 문서 작업 등 실질적인 업무를 수행할 수 있는 전용 AI 에이전트 '바이오닉(Bionic)'을 출시했습니다. 이 도구는 로컬 모델과 클라우드의 오픈소스 모델을 유연하게 활용하면서도, 철저한 데이터 비보존(Zero Data Retention) 정책을 통해 개인정보 보호와 비용 통제를 지원하는 것이 핵심입니다. 특히 로컬 음성 입력, 에이전트 기반의 코드 검색 및 문서 샌드박스 작업 등 개인과 기업 실무자에게 매우 유용한 기능을 제공합니다.

로컬 LLM AI 에이전트 데이터 프라이버시

Hacker News • 17일 전

맥 스튜디오에서 대규모 AI 모델 구동을 위한 3가지 버그 수정

M3 맥 스튜디오 얼트라 환경에서 5만 토큰 이상의 긴 대화 컨텍스트를 처리할 때 첫 토큰 생성까지 수 분이 걸리던 치명적인 지연 문제를 해결한 사례입니다. 저자는 DS4 Flash 모델에서 지연 시간이 더 짧은 Qwen 3.5 122B로 교체하고, 하이브리드 어텐션 구조로 인한 캐시 메모리 누수 등 서빙 스택의 버그 3가지를 직접 수정하여 로컬 환경에서도 실사용이 가능한 에이전트 코딩 환경을 구축했습니다. 로컬 LLM 최적화 및 Mac 하드웨어 활용에 관심 있는 개발자들에게 매우 유용한 기술적 인사이트를 제공합니다.

로컬 LLM 맥 스튜디오 추론 최적화

Hacker News • 37일 전

Qwen 3 0.6B 모델 파인튜닝으로 질문 분류하기

저자는 가사 관련 챗봇의 검색 정확도(RAG)를 높이기 위해 6억 개(0.6B)의 매개변수를 가진 초소형 로컬 LLM인 Qwen 3:0.6B를 파인튜닝하여 질문을 카테고리별로 분류하는 실험을 진행했습니다. 미세조정 전 원본 모델의 정답률은 10%에 불과했으나, Unsloth 프레임워크와 약 850개의 데이터를 활용해 학습을 진행하여 신뢰할 수 있는 분류기를 구축할 수 있었음을 보여줍니다.

로컬 LLM 파인튜닝 RAG

Hacker News • 39일 전

구형 제온 서버 174번 재부팅하며 찾아낸 최적 LLM 추론 옵션

10년 된 구형 CPU 환경에서 LLM(Gemma 4)을 빠르게 구동하기 위해 추론 엔진의 25개 명령어 플래그(flags)를 하나씩 제거하며 성능 변화를 측정한 실험 결과입니다. 플래그들은 하드웨어나 작업량에 따라 상호작용하므로 무작정 복사해서 붙여넣기보다 실제 환경에서 테스트해야 함을 보여줍니다. 하드웨어 제약 없이 오픈소스 모델을 최적화하려는 실무자들에게 매우 유용한 가이드입니다.

로컬 LLM llama.cpp 성능 최적화

Hacker News • 40일 전

DGX Spark 하나에 두 개의 Qwen3 모델 구동하기

DGX Spark(GB10) 단일 하드웨어에 vLLM과 LiteLLM을 활용해 대형 모델(Qwen3-Next-80B)과 소형 모델(Qwen3-4B)을 동시에 띄우는 고군분투기를 다룹니다. 단순 OOM 문제부터 vLLM의 메모리 할당 방식, 그리고 Qwen3 모델의 도구 호출 에이전트 연동 시 발생하는 치명적인 파싱 및 추론 모드 문제를 해결하는 과정을 담고 있습니다.

vLLM 로컬 LLM Qwen3

Hacker News • 43일 전

일상 코딩, 클로드/GPT 대신 로컬 모델로 교체하신 분?

해커뉴스에서 클로드나 GPT 대신 로컬 AI 모델을 실제 일상 코딩에 적용한 사례를 묻는 질문이 올라왔습니다. 질문자는 단순한 테스트용이 아닌 메인 개발 도구로 완전히 전환한 사용자들의 환경 세팅과 토큰 생성 속도(tok/s) 등 성능 정보를 공유해달라고 요청했습니다. 개발자들의 실무 적용 사례를 통해 상용 API를 대체할 수 있는 오픈소스 모델의 현재 성능과 한계를 파악하는 데 도움이 되는 중요한 스레드입니다.

로컬 모델 코딩 AI 오픈소스

Hacker News • 54일 전

1995년도 스타일로 글쓰는 LLM 파인튜닝

이 글은 90년대 소프트웨어 기술 문서의 문체를 모방하는 로컬 LLM을 파인튜닝하는 과정을 다룹니다. 저자는 마이크로소프트의 과거 매뉴얼 데이터를 활용해 스타일을 전달하는 실험을 진행하며, RAG 대신 파인튜닝을 선택한 이유와 저비용으로 로컬 환경에서 모델을 세밀하게 조정할 수 있는 방법을 설명합니다. 이는 실무자들에게 AI의 스타일 학습 가능성과 효율적인 데이터 활용법을 보여줍니다.

파인튜닝 로컬 LLM 스타일 전송

Hacker News • 55일 전

로컬 LLM을 위한 영구 기억 계층, Mnemo

대화가 끝나면 모든 기억을 잃는 LLM의 한계를 극복하기 위해 개발된 로컬 우선(local-first) AI 메모리 계층입니다. SQLite와 petgraph를 활용해 오프라인 환경에서도 지식 그래프를 구축하고, 50ms 미만의 속도로 관련 문맥을 자동 추출하여 프롬프트에 주입합니다. 클라우드 없이 단일 바이너리로 작동하며, OpenAI, Anthropic, Ollama 등 다양한 환경과 호환된다는 것이 특징입니다.

로컬 LLM 지식 그래프 오픈소스

MarkTechPost • 61일 전

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI

r/LocalLLaMA • 69일 전

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

로컬 LLM 양자화(GGUF) 벤치마크

Hacker News • 73일 전

DeepSeek-V4-Flash 스티어링(Steering) 로컬 LLM

DeepSeek-V4-Flash: LLM 스티어링(조종)이 다시 흥미로워진 이유

오픈소스 로컬 모델인 DeepSeek-V4-Flash의 등장으로, 모델의 내부 상태를 직접 제어하여 출력을 유도하는 '스티어링(Steering)' 기술이 실용화 단계에 접어들었습니다. 개발자 antirez가 이 모델 기반으로 스티어링을 내장한 'DwarfStar 4' 프로젝트를 발표하며, 프롬프트 엔지니어링에 의존하지 않고 모델의 뇌를 직접 제어하는 방식에 대한 기대감이 높아지고 있습니다.

r/LocalLLaMA • 74일 전

로컬 LLM에 실시간 금융 데이터를 제공하는 오픈소스 MCP 서버

로컬 환경에서 구동되는 AI 에이전트에 실시간 금융 데이터를 제공하는 셀프 호스팅 오픈소스 MCP 서버가 공개되었습니다. 별도의 클라우드 의존성이나 API 키 없이 SEC 공시, 기관 및 내부자 거래, 경제 지표 등의 데이터를 직접 스크래핑하여 Claude, Cursor 등 MCP 지원 클라이언트에서 즉시 활용할 수 있어, 로컬 LLM 기반의 금융 분석 에이전트 개발에 매우 유용합니다.

MCP 서버 로컬 LLM 오픈소스

Hacker News • 75일 전

내 하드웨어에 최적화된 로컬 LLM 벤치마크 순위 추천

사용자의 GPU, CPU, RAM을 자동 감지하여 HuggingFace의 최신 모델 중 시스템에 맞는 최적의 로컬 LLM을 벤치마크 점수 기반으로 순위 매기는 오픈소스 CLI 도구입니다. 단순히 용량만 맞추는 것을 넘어 실제 성능 평가 지표와 최신성을 반영해 가장 우수한 모델을 추천하는 것이 특징입니다. 단 한 줄의 명령어로 추천 모델을 다운로드하고 즉시 채팅을 시작할 수 있어 로컬 환경 구축에 매우 유용합니다.

로컬 LLM 오픈소스 도구 하드웨어 최적화

r/LocalLLaMA • 79일 전

ExLlamaV3 대규모 업데이트: DFlash 지원 및 속도 대폭 향상!

로컬 AI 추론 라이브러리인 ExLlamaV3가 대대적인 업데이트를 진행했습니다. 새로운 'DFlash' 기능을 지원하여 에이전트 및 코딩 작업에서 기존 대비 최대 3배 빠른 텍스트 생성 속도를 달성했습니다. 또한 Gemma 4 모델 지원을 추가하고, 주요 오픈소스 모델들에 대한 최적화를 통해 다양한 GPU 환경에서의 실행 효율성을 크게 높였습니다.

오픈소스 로컬 LLM 추론 최적화

r/LocalLLaMA • 84일 전

밀집 모델 대결: 느린 게 더 빠르다?

이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.

오픈소스 모델 벤치마크 로컬 LLM

r/LocalLLaMA • 88일 전

윈도우 네이티브 vLLM으로 RTX 3090서 Qwen3.6-27B 초당 72토큰 달성

Windows 환경에서 WSL이나 Docker 없이 네이티브로 구동되는 오픈소스 vLLM 패치 및 포터블 런처가 공개되었습니다. RTX 3090 단일 GPU에서 Qwen3.6-27B(INT4 양자화) 모델을 최대 초당 72토큰(tok/s) 속도로 실행할 수 있으며, 복잡한 파이썬 환경 설정 없이 간편하게 설치할 수 있다는 것이 핵심입니다. 3090/4090/5090 등 엔비디아 최신 아키텍처 사용자가 로컬 환경에서 대규모 언어 모델을 쉽고 빠르게 테스트해 볼 수 있는 실용적인 도구입니다.

vLLM 로컬 LLM Windows 네이티브

r/LocalLLaMA • 89일 전

로컬 LLM 게임개발 대결: Gemma 4vs Qwen 3.6

MacBook Pro 환경에서 오픈소스 로컬 LLM인 Gemma 4 31B와 Qwen 3.6 27B를 대상으로 원샷 팩맨 게임 생성 능력을 비교한 결과, Gemma 4가 압도적인 차이로 승리했습니다. Qwen이 더 긴 코드를 생성하며 창의성을 보여줬으나, Gemma는 훨씬 짧은 시간 안에 논리적이고 버그 없는 완성도 높은 게임 로직을 구현해냈습니다. 이는 AI 코딩에서 단순 토큰 생성 속도나 길이보다 코드 품질과 논리적 완성도가 더 중요하다는 것을 시사합니다.

로컬 LLM 게임 개발 코드 생성

r/LocalLLaMA • 89일 전

2026년 4월, 로컬 LLM 최고의 시기?

2026년 4월은 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM) 역사상 가장 혁신적인 달 중 하나로 기록될 전망입니다. 이에 따라 커뮤니티에서는 주목받지 못했지만 저평가된 우수한 모델들을 공유하고 평가하는 분위기가 조성되고 있습니다. 사용자들은 라이선스 변경(예: MiniMax-M2.7의 비상업적 전환) 등 변화하는 모델 생태계를 지속적으로 모니터링해야 합니다.

로컬 LLM 오픈소스 모델 라이선스 변경

r/LocalLLaMA • 90일 전

IMP 4

"로컬 LLM, 대체 어디에 쓰나요?" 저: 정말 많이 씁니다

한 개발자가 자체 호스팅하는 로컬 LLM 환경의 토큰 사용량을 모니터링하는 모습을 공유했습니다. LiteLLM, Prometheus, Grafana 등의 오픈소스 스택을 연동하여 Frigate GenAI 요약 기능의 API 사용량을 추적한 결과, 단 6시간 만에 토큰 사용량이 예상보다 훨씬 빠르게 누적되는 것을 확인했습니다. 이는 개인이 구축한 온프레미스 AI 환경에서도 체계적인 비용 및 리소스 모니터링이 필수적임을 보여줍니다.

로컬 LLM 모니터링 오픈소스

r/LocalLLaMA • 91일 전

로컬에서 Qwen 3.6, Gemma 4 구동 체감기

작성자는 시간당 200달러를 받는 전문가가 수행하던 실무 작업을 로컬 LLM으로 대체하여 성공적으로 운영 중입니다. 특히 단일 RTX 3090 환경에서도 Qwen 3.6 27B 모델이 매우 빠르고 쾌적하게 돌아가는 점을 강조하며, 모델의 약점을 보완하는 시스템 구축이 핵심이라고 설명합니다.

로컬 LLM Qwen 3.6 Gemma 4

r/LocalLLaMA • 97일 전

Rust 기반 로컬 만화 번역기, LLM 내장

오픈소스 로컬 만화 번역기 'Koharu'가 공개되었습니다. llama.cpp를 통합해 시각적 LLM OCR과 객체 탐지, 인페인팅을 결합한 고성능 파이프라인을 제공합니다. 번역 결과를 폰트와 색상 등 미세 조정할 수 있는 내장 에디터도 포함되어 있어 실무 번역 작업에 즉시 활용할 수 있다는 점이 중요합니다.

오픈소스 만화 번역 시각 LLM

r/LocalLLaMA • 102일 전

Qwen3.6 GGUF 벤치마크 및 양자화 오류 정정

AI 최적화 기업 Unsloth가 최근 공개한 Qwen3.6-35B-A3B GGUF 모델의 성능 벤치마크 결과를 발표했습니다. 이와 함께 최적의 성능과 용량 효율을 보여준 자사 양자화(Quantization) 모델의 우수성을 강조했습니다. 또한 커뮤니티 내에서 제기된 빈번한 모델 업데이트에 대한 오해를 해명하고, MiniMax 2.7 모델에서 발생한 연산 오류(NaN) 및 기타 이슈의 원인이 자체적인 실수가 아닌 외부 요인 때문이었음을 구체적인 데이터로 증명했습니다.

오픈소스 로컬 LLM 양자화

Hacker News • 103일 전

내 노트북의 Qwen이 오히스보다 펠리컨을 더 잘 그렸다

Simon Willison은 자신의 유명한 '자전거를 타는 펠리컨' 이미지 생성 벤치마크를 통해 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7을 비교했습니다. 놀랍게도 노트북에서 구동한 21GB 크기의 오픈소스 Qwen 모델이 최상위 독점 모델인 Opus 4.7보다 훨씬 완성도 높은 SVG 그림을 그려냈습니다. 이는 특정 작업에서 로컬 경량 모델이 최고가의 상용 모델을 압도할 수 있다는 흥미로운 결과를 보여줍니다.

로컬 LLM Qwen Claude

Hacker News • 104일 전

에이전트 - 네이티브 맥OS 코딩 IDE

오픈소스 기반의 네이티브 macOS용 코딩 IDE 및 자동화 도구인 'Agent!'가 공개되었습니다. 이 프로젝트는 Claude Code, Cursor 등을 대체하는 것을 목표로 하며, 17개 이상의 다양한 클라우드 및 로컬 LLM 제공업체를 단일 앱에 통합했습니다. 특히 온디바이스 Apple AI를 활용해 UI 자동화를 수행하고, 컨텍스트를 압축하여 API 토큰 비용을 획기적으로 절감할 수 있는 것이 가장 큰 특징입니다.

오픈소스 macOS 코딩 에이전트

r/LocalLLaMA • 105일 전