#애플 실리콘

로컬 기기용 초경량 이미지 생성 모델

PrismML이 노트북과 스마트폰 같은 로컬 기기에서 고품질 이미지 생성을 가능하게 하는 40억 파라미터(4B) 모델 'Bonsai Image 4B'를 공개했습니다. 이 모델은 가중치를 1비트(1-bit) 또는 삼진법(Ternary) 형태로 압축하여, 기존 풀 정밀도(FP16) 모델 대비 메모리 사용량을 약 6~8배 획기적으로 줄였습니다. 특히 이 파라미터 클래스의 이미지 모델 중 최초로 아이폰에서 직접 구동될 수 있어, 온디바이스 AI 생성 기술의 새로운 지평을 열었다는 데 큰 의미가 있습니다.

온디바이스 AI 이미지 생성 모델 경량화

r/LocalLLaMA • 72일 전

IMP 8

M5 vs DGX Spark vs 스트릭스 할로 vs RTX 6000 벤치마크

새로운 애플 M5 맥북 프로, 엔비디아 DGX Spark, AMD 스트릭스 할로(Strix Halo), RTX 6000 등 다양한 하드웨어를 대상으로 로컬 AI 성능 및 발열 비교 테스트 결과가 공유되었습니다. M5는 동급 대비 압도적인 메모리 대역폭을 바탕으로 DGX Spark를 가성비 측면에서 완전히 압도했으며, 맥북은 예상과 달리 장시간 고부하 테스트에서도 80도대의 준수한 발열을 유지했습니다. 단, AI 연산 시 팬 소음은 일반적인 게이밍 노트북처럼 커진다는 점과 각 하드웨어의 원시 성능 데이터가 공개되었다는 점이 실무자들에게 유용한 인사이트를 제공합니다.

하드웨어 벤치마크 애플 실리콘 로컬 AI

r/LocalLLaMA • 108일 전

IMP 8

애플 실리콘 DFlash 추론: 초당 85토큰, 최대 3.3배 속도 향상

애플 실리콘(M5 Max) 환경의 MLX 프레임워크에서 작동하는 DFlash 스페큘러 디코딩(Speculative Decoding)의 네이티브 구현체가 공개되었습니다. 작은 초안(Draft) 모델이 16개의 토큰을 병렬로 생성하고 타겟 모델이 이를 한 번의 순전파(Forward pass)로 검증하는 방식을 사용하여, 양자화되지 않은 9B 모델 기준 최대 3.3배, 양자화된 27B 모델 기준 최대 2.5배의 추론 속도 향상을 달성했습니다. 통합 메모리(Unified memory) 환경에서 커스텀 커널보다 기본 GEMM 연산이 더 효율적이며, 양자화된 모델에서는 오히려 bf16 초안 모델이 병목 현상을 일으키는 등 애플 실리콘 특유의 하드웨어 최적화 인사이트를 제공합니다.

온디바이스 AI 애플 실리콘 스페큘러 디코딩