메뉴
BL
r/LocalLLaMA 43일 전

큐웬(Qwen) 2.5 실성능 후기: 설정만 제대로 하면 꽤 쓸만함

IMP
6/10
핵심 요약

오픈소스 로컬 LLM 유저가 새로운 큐웬(Qwen) 2.5 모델이 오프라인 환경에서도 실용적인 성능을 발휘한다고 평가했습니다. 클로드 오푸스(Claude Opus)나 코덱스(Codex) 급은 아니지만, 애플 M5 Max 환경에서 매우 빠른 속도로 작동하며 유의미한 작업이 가능한 수준이라고 언급했습니다. 단, 모델의 추론 기능을 끄지 않는 `preserve_thinking` 설정을 반드시 켜야 최적의 성능을 얻을 수 있습니다.

번역된 본문

평소 클로드 오푸스(Claude Opus)와 코덱스(Codex) 모델에만 맡기던 무거운 작업들을 직접 돌려보았는데, 2.5 버전의 성능이 정말 뛰어나다는 걸 확인했습니다. 물론 최상위 상용 모델들의 수준까지는 아니지만, 실제 업무에 투입할 수 있는 실용성의 문턱은 확실히 넘어섰습니다. 게다가 애플 M5 Max(128GB) 환경에서 8비트 양자화 모델을 돌렸을 때 3K Processing Prompt(PP)와 100 Token Generation(TG) 속도를 기록하며 oMLX와 Pi.dev를 통해 구동되는 속도가 정말 놀라웠습니다.

다만, 설정 시 반드시 preserve_thinking 옵션을 켜두시기 바랍니다. 자세한 내용은 관련 링크를 참고해 주세요.

원문 보기
원문 보기 (영어)
I've been running workloads that I typically only trust Opus and Codex with, and I can confirm 3.6 is really capable. Of course, it's not at the level of those models, but it's definitely crossing the barrier of usefulness, plus the speed is amazing running this on an M5 Max 128GB 8bit 3K PP, 100 TG on oMLX + Pi.dev Just ensure you have \`preserve\_thinking\` turned on. Check out details [here](https://www.reddit.com/r/LocalLLaMA/s/oy3jLNbSkB).