메뉴

#llama-cpp

LL
r/LocalLLaMA 8일 전
IMP 6

민감: 듀얼 GPU로 48GB VRAM 확보 성공!

서로 다른 세대(RDNA4, RDNA3)의 AMD 그래픽 카드 두 장을 결합해 총 48GB VRAM 환경을 구축한 사례입니다. 호환성 문제로 인해 로존(ROCm) 대신 벌칸(Vulkan) 백엔드를 사용하여 성공적으로 llama-cpp 서버를 실행했습니다. 이는 추가 그래픽 카드와 파워서플라이 정도의 적은 비용으로 대규모 로컬 AI 모델 구동을 위한 막대한 VRAM을 확보할 수 있음을 보여줍니다.

로컬-ai llama-cpp amd-radeon
LL
r/LocalLLaMA 19일 전
IMP 6

인텔 옵테인 메모리 활용, 1조 파라미터 모델 로컬 구동 성공

한 로컬 AI 개발자가 단종된 인텔 옵테인 지속형 메모리(PMem)를 활용해 768GB의 대용량 메모리 시스템을 저렴하게 구축했습니다. 이를 통해 1조 파라미터급 거대 언어 모델인 Kimi K2.5를 로컬 환경에서 초당 약 4 토큰 속도로 실행하는 데 성공했습니다. 이는 제한된 하드웨어 예산으로 최고 수준의 AI 모델을 구동할 수 있는 효율적인 로컬 인퍼런스 빌드의 사례로 주목받습니다.

로컬-인퍼런스 옵테인-메모리 거대-언어-모델