#llama-cpp

r/LocalLLaMA • 78일 전

IMP 6

인텔 옵테인 메모리 활용, 1조 파라미터 모델 로컬 구동 성공

한 로컬 AI 개발자가 단종된 인텔 옵테인 지속형 메모리(PMem)를 활용해 768GB의 대용량 메모리 시스템을 저렴하게 구축했습니다. 이를 통해 1조 파라미터급 거대 언어 모델인 Kimi K2.5를 로컬 환경에서 초당 약 4 토큰 속도로 실행하는 데 성공했습니다. 이는 제한된 하드웨어 예산으로 최고 수준의 AI 모델을 구동할 수 있는 효율적인 로컬 인퍼런스 빌드의 사례로 주목받습니다.

로컬-인퍼런스 옵테인-메모리 거대-언어-모델

#llama-cpp

민감: 듀얼 GPU로 48GB VRAM 확보 성공!

인텔 옵테인 메모리 활용, 1조 파라미터 모델 로컬 구동 성공