메뉴

#로컬 LLM

MP
MarkTechPost 2일 전
IMP 6

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI
LL
r/LocalLLaMA 10일 전
IMP 7

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

로컬 LLM 양자화(GGUF) 벤치마크
HN
Hacker News 14일 전
IMP 8

DeepSeek-V4-Flash: LLM 스티어링(조종)이 다시 흥미로워진 이유

오픈소스 로컬 모델인 DeepSeek-V4-Flash의 등장으로, 모델의 내부 상태를 직접 제어하여 출력을 유도하는 '스티어링(Steering)' 기술이 실용화 단계에 접어들었습니다. 개발자 antirez가 이 모델 기반으로 스티어링을 내장한 'DwarfStar 4' 프로젝트를 발표하며, 프롬프트 엔지니어링에 의존하지 않고 모델의 뇌를 직접 제어하는 방식에 대한 기대감이 높아지고 있습니다.

DeepSeek-V4-Flash 스티어링(Steering) 로컬 LLM
LL
r/LocalLLaMA 15일 전
IMP 7

로컬 LLM에 실시간 금융 데이터를 제공하는 오픈소스 MCP 서버

로컬 환경에서 구동되는 AI 에이전트에 실시간 금융 데이터를 제공하는 셀프 호스팅 오픈소스 MCP 서버가 공개되었습니다. 별도의 클라우드 의존성이나 API 키 없이 SEC 공시, 기관 및 내부자 거래, 경제 지표 등의 데이터를 직접 스크래핑하여 Claude, Cursor 등 MCP 지원 클라이언트에서 즉시 활용할 수 있어, 로컬 LLM 기반의 금융 분석 에이전트 개발에 매우 유용합니다.

MCP 서버 로컬 LLM 오픈소스
HN
Hacker News 16일 전
IMP 8

내 하드웨어에 최적화된 로컬 LLM 벤치마크 순위 추천

사용자의 GPU, CPU, RAM을 자동 감지하여 HuggingFace의 최신 모델 중 시스템에 맞는 최적의 로컬 LLM을 벤치마크 점수 기반으로 순위 매기는 오픈소스 CLI 도구입니다. 단순히 용량만 맞추는 것을 넘어 실제 성능 평가 지표와 최신성을 반영해 가장 우수한 모델을 추천하는 것이 특징입니다. 단 한 줄의 명령어로 추천 모델을 다운로드하고 즉시 채팅을 시작할 수 있어 로컬 환경 구축에 매우 유용합니다.

로컬 LLM 오픈소스 도구 하드웨어 최적화
LL
r/LocalLLaMA 20일 전
IMP 8

ExLlamaV3 대규모 업데이트: DFlash 지원 및 속도 대폭 향상!

로컬 AI 추론 라이브러리인 ExLlamaV3가 대대적인 업데이트를 진행했습니다. 새로운 'DFlash' 기능을 지원하여 에이전트 및 코딩 작업에서 기존 대비 최대 3배 빠른 텍스트 생성 속도를 달성했습니다. 또한 Gemma 4 모델 지원을 추가하고, 주요 오픈소스 모델들에 대한 최적화를 통해 다양한 GPU 환경에서의 실행 효율성을 크게 높였습니다.

오픈소스 로컬 LLM 추론 최적화
LL
r/LocalLLaMA 25일 전
IMP 6

밀집 모델 대결: 느린 게 더 빠르다?

이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.

오픈소스 모델 벤치마크 로컬 LLM
LL
r/LocalLLaMA 29일 전
IMP 7

윈도우 네이티브 vLLM으로 RTX 3090서 Qwen3.6-27B 초당 72토큰 달성

Windows 환경에서 WSL이나 Docker 없이 네이티브로 구동되는 오픈소스 vLLM 패치 및 포터블 런처가 공개되었습니다. RTX 3090 단일 GPU에서 Qwen3.6-27B(INT4 양자화) 모델을 최대 초당 72토큰(tok/s) 속도로 실행할 수 있으며, 복잡한 파이썬 환경 설정 없이 간편하게 설치할 수 있다는 것이 핵심입니다. 3090/4090/5090 등 엔비디아 최신 아키텍처 사용자가 로컬 환경에서 대규모 언어 모델을 쉽고 빠르게 테스트해 볼 수 있는 실용적인 도구입니다.

vLLM 로컬 LLM Windows 네이티브
LL
r/LocalLLaMA 30일 전
IMP 7

로컬 LLM 게임개발 대결: Gemma 4vs Qwen 3.6

MacBook Pro 환경에서 오픈소스 로컬 LLM인 Gemma 4 31B와 Qwen 3.6 27B를 대상으로 원샷 팩맨 게임 생성 능력을 비교한 결과, Gemma 4가 압도적인 차이로 승리했습니다. Qwen이 더 긴 코드를 생성하며 창의성을 보여줬으나, Gemma는 훨씬 짧은 시간 안에 논리적이고 버그 없는 완성도 높은 게임 로직을 구현해냈습니다. 이는 AI 코딩에서 단순 토큰 생성 속도나 길이보다 코드 품질과 논리적 완성도가 더 중요하다는 것을 시사합니다.

로컬 LLM 게임 개발 코드 생성
LL
r/LocalLLaMA 30일 전
IMP 6

2026년 4월, 로컬 LLM 최고의 시기?

2026년 4월은 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM) 역사상 가장 혁신적인 달 중 하나로 기록될 전망입니다. 이에 따라 커뮤니티에서는 주목받지 못했지만 저평가된 우수한 모델들을 공유하고 평가하는 분위기가 조성되고 있습니다. 사용자들은 라이선스 변경(예: MiniMax-M2.7의 비상업적 전환) 등 변화하는 모델 생태계를 지속적으로 모니터링해야 합니다.

로컬 LLM 오픈소스 모델 라이선스 변경
LL
r/LocalLLaMA 31일 전
IMP 4

"로컬 LLM, 대체 어디에 쓰나요?" 저: 정말 많이 씁니다

한 개발자가 자체 호스팅하는 로컬 LLM 환경의 토큰 사용량을 모니터링하는 모습을 공유했습니다. LiteLLM, Prometheus, Grafana 등의 오픈소스 스택을 연동하여 Frigate GenAI 요약 기능의 API 사용량을 추적한 결과, 단 6시간 만에 토큰 사용량이 예상보다 훨씬 빠르게 누적되는 것을 확인했습니다. 이는 개인이 구축한 온프레미스 AI 환경에서도 체계적인 비용 및 리소스 모니터링이 필수적임을 보여줍니다.

로컬 LLM 모니터링 오픈소스
LL
r/LocalLLaMA 32일 전
IMP 7

로컬에서 Qwen 3.6, Gemma 4 구동 체감기

작성자는 시간당 200달러를 받는 전문가가 수행하던 실무 작업을 로컬 LLM으로 대체하여 성공적으로 운영 중입니다. 특히 단일 RTX 3090 환경에서도 Qwen 3.6 27B 모델이 매우 빠르고 쾌적하게 돌아가는 점을 강조하며, 모델의 약점을 보완하는 시스템 구축이 핵심이라고 설명합니다.

로컬 LLM Qwen 3.6 Gemma 4
LL
r/LocalLLaMA 38일 전
IMP 7

Rust 기반 로컬 만화 번역기, LLM 내장

오픈소스 로컬 만화 번역기 'Koharu'가 공개되었습니다. llama.cpp를 통합해 시각적 LLM OCR과 객체 탐지, 인페인팅을 결합한 고성능 파이프라인을 제공합니다. 번역 결과를 폰트와 색상 등 미세 조정할 수 있는 내장 에디터도 포함되어 있어 실무 번역 작업에 즉시 활용할 수 있다는 점이 중요합니다.

오픈소스 만화 번역 시각 LLM
LL
r/LocalLLaMA 43일 전
IMP 8

Qwen3.6 GGUF 벤치마크 및 양자화 오류 정정

AI 최적화 기업 Unsloth가 최근 공개한 Qwen3.6-35B-A3B GGUF 모델의 성능 벤치마크 결과를 발표했습니다. 이와 함께 최적의 성능과 용량 효율을 보여준 자사 양자화(Quantization) 모델의 우수성을 강조했습니다. 또한 커뮤니티 내에서 제기된 빈번한 모델 업데이트에 대한 오해를 해명하고, MiniMax 2.7 모델에서 발생한 연산 오류(NaN) 및 기타 이슈의 원인이 자체적인 실수가 아닌 외부 요인 때문이었음을 구체적인 데이터로 증명했습니다.

오픈소스 로컬 LLM 양자화
HN
Hacker News 44일 전
IMP 7

내 노트북의 Qwen이 오히스보다 펠리컨을 더 잘 그렸다

Simon Willison은 자신의 유명한 '자전거를 타는 펠리컨' 이미지 생성 벤치마크를 통해 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7을 비교했습니다. 놀랍게도 노트북에서 구동한 21GB 크기의 오픈소스 Qwen 모델이 최상위 독점 모델인 Opus 4.7보다 훨씬 완성도 높은 SVG 그림을 그려냈습니다. 이는 특정 작업에서 로컬 경량 모델이 최고가의 상용 모델을 압도할 수 있다는 흥미로운 결과를 보여줍니다.

로컬 LLM Qwen Claude
HN
Hacker News 45일 전
IMP 7

에이전트 - 네이티브 맥OS 코딩 IDE

오픈소스 기반의 네이티브 macOS용 코딩 IDE 및 자동화 도구인 'Agent!'가 공개되었습니다. 이 프로젝트는 Claude Code, Cursor 등을 대체하는 것을 목표로 하며, 17개 이상의 다양한 클라우드 및 로컬 LLM 제공업체를 단일 앱에 통합했습니다. 특히 온디바이스 Apple AI를 활용해 UI 자동화를 수행하고, 컨텍스트를 압축하여 API 토큰 비용을 획기적으로 절감할 수 있는 것이 가장 큰 특징입니다.

오픈소스 macOS 코딩 에이전트
LL
r/LocalLLaMA 46일 전
IMP 6

DGX Spark 도착, vLLM 활용 온프레미스 구축 팁 문의

엔비디아의 'DGX Spark'를 활용해 vLLM, 파이토치(PyTorch), 허깅페이스(Hugging Face) 모델을 온프레미스 환경에서 구동하려는 사용자의 질문입니다. 교육 및 데이터 분석 목적의 애플리케이션을 위해 모든 데이터를 로컬에서 프라이빗하게 처리하고자 합니다. 기존 클라우드 환경과 달리 통합 메모리 시스템 기반의 로컬 하드웨어에서 효율적으로 구동할 모델 추천과 vLLM 튜닝 팁을 공유받고 있습니다.

온프레미스 vLLM DGX Spark