메뉴

#애플 실리콘

LL
r/LocalLLaMA 13일 전
IMP 8

M5 vs DGX Spark vs 스트릭스 할로 vs RTX 6000 벤치마크

새로운 애플 M5 맥북 프로, 엔비디아 DGX Spark, AMD 스트릭스 할로(Strix Halo), RTX 6000 등 다양한 하드웨어를 대상으로 로컬 AI 성능 및 발열 비교 테스트 결과가 공유되었습니다. M5는 동급 대비 압도적인 메모리 대역폭을 바탕으로 DGX Spark를 가성비 측면에서 완전히 압도했으며, 맥북은 예상과 달리 장시간 고부하 테스트에서도 80도대의 준수한 발열을 유지했습니다. 단, AI 연산 시 팬 소음은 일반적인 게이밍 노트북처럼 커진다는 점과 각 하드웨어의 원시 성능 데이터가 공개되었다는 점이 실무자들에게 유용한 인사이트를 제공합니다.

하드웨어 벤치마크 애플 실리콘 로컬 AI
LL
r/LocalLLaMA 49일 전
IMP 8

애플 실리콘 DFlash 추론: 초당 85토큰, 최대 3.3배 속도 향상

애플 실리콘(M5 Max) 환경의 MLX 프레임워크에서 작동하는 DFlash 스페큘러 디코딩(Speculative Decoding)의 네이티브 구현체가 공개되었습니다. 작은 초안(Draft) 모델이 16개의 토큰을 병렬로 생성하고 타겟 모델이 이를 한 번의 순전파(Forward pass)로 검증하는 방식을 사용하여, 양자화되지 않은 9B 모델 기준 최대 3.3배, 양자화된 27B 모델 기준 최대 2.5배의 추론 속도 향상을 달성했습니다. 통합 메모리(Unified memory) 환경에서 커스텀 커널보다 기본 GEMM 연산이 더 효율적이며, 양자화된 모델에서는 오히려 bf16 초안 모델이 병목 현상을 일으키는 등 애플 실리콘 특유의 하드웨어 최적화 인사이트를 제공합니다.

온디바이스 AI 애플 실리콘 스페큘러 디코딩