#GGUF

Llama.cpp, MTP(다중 토큰 예측) 베타 지원 공개

로컬 AI 추론 엔진인 Llama.cpp에 여러 개의 토큰을 동시에 예측하여 처리 속도를 비약적으로 높이는 MTP(다중 토큰 예측) 기능이 베타로 추가되었습니다. 개발자는 기존 GGUF 모델 파일 하나만으로 MTP 모델을 자동으로 불러와 별도의 추가 배포 없이도 추론 속도를 2배 이상 크게 향상시킬 수 있습니다. 이는 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM)의 실질적인 응답 성능을 개선하는 중요한 이정표입니다.

Llama.cpp 추론 속도 최적화 MTP(다중 토큰 예측)

MarkTechPost • 101일 전

IMP 6

초경량 1비트 라마 모델 'Bonsai' CUDA 활용 실전 튜토리얼

이 튜토리얼에서는 GPU 가속과 PrismML의 최적화된 GGUF 배포 스택을 활용해 1비트 대형 언어 모델인 Bonsai를 효율적으로 구동하는 방법을 다룹니다. 1비트 양자화가 어떻게 메모리 효율성을 극대화하여 가벼우면서도 성능 좋은 모델 배포를 가능하게 하는지 설명합니다. 나아가 기본 추론, 벤치마크, 멀티턴 챗봇, JSON 및 코드 생성, OpenAI 호환 서버 모드, RAG 워크플로우 등 실제 사용 사례를 통해 Bonsai의 실전 활용도를 보여줍니다.

1비트 양자화 경량 모델 GGUF

r/LocalLLaMA • 102일 전

IMP 8

Qwen3.6 GGUF 벤치마크 및 양자화 오류 정정

AI 최적화 기업 Unsloth가 최근 공개한 Qwen3.6-35B-A3B GGUF 모델의 성능 벤치마크 결과를 발표했습니다. 이와 함께 최적의 성능과 용량 효율을 보여준 자사 양자화(Quantization) 모델의 우수성을 강조했습니다. 또한 커뮤니티 내에서 제기된 빈번한 모델 업데이트에 대한 오해를 해명하고, MiniMax 2.7 모델에서 발생한 연산 오류(NaN) 및 기타 이슈의 원인이 자체적인 실수가 아닌 외부 요인 때문이었음을 구체적인 데이터로 증명했습니다.

오픈소스 로컬 LLM 양자화