메뉴
BL
r/LocalLLaMA 13일 전

M5 vs DGX Spark vs 스트릭스 할로 vs RTX 6000 벤치마크

IMP
8/10
핵심 요약

새로운 애플 M5 맥북 프로, 엔비디아 DGX Spark, AMD 스트릭스 할로(Strix Halo), RTX 6000 등 다양한 하드웨어를 대상으로 로컬 AI 성능 및 발열 비교 테스트 결과가 공유되었습니다. M5는 동급 대비 압도적인 메모리 대역폭을 바탕으로 DGX Spark를 가성비 측면에서 완전히 압도했으며, 맥북은 예상과 달리 장시간 고부하 테스트에서도 80도대의 준수한 발열을 유지했습니다. 단, AI 연산 시 팬 소음은 일반적인 게이밍 노트북처럼 커진다는 점과 각 하드웨어의 원시 성능 데이터가 공개되었다는 점이 실무자들에게 유용한 인사이트를 제공합니다.

번역된 본문

안녕하세요, 내용 아주 간단합니다. 최근 새로운 M5 맥 vs DGX Spark vs Strix Halo vs 전용 GPU 등에 대한 온라인 논쟁이 정말 많았습니다.

그래서 저는 이 장비들을 모두 전력과 쿨링이 잘 갖춰진 공간에 배치하고, 지난 3일 동안 표준화된 테스트를 병렬로 실행한 뒤 모든 결과를 깃허브 리포지토리에 공개했습니다.

스펙 상의 수치와 기본 원리를 생각해보면 결과의 상당 부분은 그리 놀랍지 않습니다. RTX 6000의 메모리 대역폭은 초당 약 1,800GB/s이며, M5는 약 600GB/s, Spark와 Strix는 약 256GB/s입니다. 하드웨어별 초당 토큰(Tokens per second) 처리 속도는 이 수치와 비례해서 잘 들어맞습니다.

가격을 고려하고 특정 생태계에 얽매이지 않는다고 가정할 때, 사양을 꽉 채운 M5는 확실히 훌륭하며 DGX Spark를 압도적인 차이로 성능 저울질에서 이깁니다. 이 역시 메모리 대역폭 속도를 보면 그리 놀라운 일은 아닙니다 (M5가 동일한 통합 메모리 용량 대비 2배 이상의 대역폭 속도를 제공합니다).

두 번째로 주목할 만한 점은 아마 놀랍지 않겠지만, ECO X2의 발열 문제였습니다. 장시간 테스트를 돌리니 발열이 문제가 되더군요. 오히려 맥북은 발열을 얼마나 잘 잡아내는지 저를 놀라게 했습니다. 며칠 동안 실행했는데 온도가 80도대를 유지하며 안정적으로 굴러갔습니다. 다만 한 가지 말씀드리자면, 열이 받을 때 이 기기들은 일반적인 게이밍 노트북과 같은 소음을 냅니다. 사람들이 이 기기들이 '조용하다'고 말하는 건 좀 과장된 홍보 같습니다.

M5 맥북 프로를 켜서 로컬 AI 연산을 돌리기 시작하면, 과거 로컬 AI를 돌리려 했던 그 어떤 노트북처럼 헤어드라이어로 변합니다. 항공모함처럼 튼튼하게 만들어졌고 주어진 역할에 대해 정말 훌륭한 성능을 내지만, 작동할 때 이 친구가 일하고 있다는 걸 100% 체감하게 될 겁니다 ㅋㅋ.

저는 현재 백엔드를 교체하고, Mac의 MLX나 Strix Halo의 다양한 호스팅 백엔드 등이 성능과 결과물에 어떤 영향을 미치는지에 대한 데이터를 추가하고 있습니다. 지나치게 당연한 사실을 지적하는 분들이 계실까 봐 미리 말씀드리지만, RTX 6000은 RTX 5090과 같지 않습니다. 하지만 두 카드 간에 많은 유사점이 있기 때문에, 5090이 장착된 PC와 이 외의 기기들 사이에서 고민하는 누군가에게 이 데이터가 유용할 수 있습니다.

어쨌든, 리포지토리 링크를 첨부합니다. 앞으로의 토론과 논쟁을 위해 약간의 원시 데이터와 수치를 제공하는 데 도움이 되길 바랍니다:

https://github.com/Light-Heart-Labs/MMBT-Messy-Model-Bench-Tests/tree/main/hardware-tests

원문 보기
원문 보기 (영어)
Hey guys, super simple. There have been a lot of online debates about the new M5 Macs vs DGX Sparks vs Strix Halo vs dedicated GPUs etc. So I put them all in a room with good power and cooling and ran everything in parallel with standardized tests for the past 3 days, and published everything to a repo. A lot of it isn’t a big surprise when you just think about headline numbers and fundamentals. An RTX6000 has a memory bandwidth speed of \~1,800 gb/s vs \~600 for the M5 vs \~256 for the Spark and Strix. Tokens per second per piece of hardware follows that math and curve pretty well. For the price point, and assuming you are ecosystem agnostic, the maxed out M5 is genuinely legit and very aggressively outperforms the DGX Spark. Again, not really a surprise when you look at their memory bandwidth speeds (2x+ memory bandwidth speeds on the M5 with the same total unified memory). Second thing worth noting was also probably no surprise but the EVO X2 thermals were an issue with extended runs. The MacBook actually surprised me with how well it held up thermally more than anything. It ran for a few days and cruised in the 80c range. I will say this though, it sounds like a normal gaming laptop when it cooks. There’s a bit of propaganda going on when people say “quiet” with these. You ramp up an M5 MacBook Pro to cook with local AI and it turns into a blow dryer like every other laptop that’s ever tried to cook with local AI. It’s built like an aircraft carrier and performs really well for what it is, but you will 100% know it’s working when it runs lol. I’m now swapping back ends and adding data for things like MLX on Mac, different hosting backends on Strix Halo, etc. for how they all impact performance and outputs. The RTX6000 is not the same as the RTX5090 just so the obvious police don’t grab me, but there are a lot of similarities between cards that could make this data useful for someone debating a 5090 PC vs these other machines. Either way, repo enclosed, hope this helps provide some raw data and numbers for future discussions and debates: https://github.com/Light-Heart-Labs/MMBT-Messy-Model-Bench-Tests/tree/main/hardware-tests