LLM 초저비트 양자화 툴킷 AutoRound
대규모 언어 모델(LLM) 및 비전 언어 모델(VLM)을 위한 고급 양자화 툴킷인 AutoRound가 소개되었습니다. 이 도구는 부호 기반 경사 하강법(Sign-gradient descent)을 활용하여 2~4비트의 초저비트 환경에서도 높은 정확도를 유지하며 빠르고 저렴하게 모델을 최적화할 수 있습니다. 또한 주요 인퍼런스 프레임워크인 vLLM, SGLang, Transformers 등과 원활하게 통합되어 활용성이 매우 뛰어납니다.
사용자 가이드 | 🚀 AutoRound란 무엇인가요? AutoRound는 대규모 언어 모델(LLM) 및 비전 언어 모델(VLM)을 위해 설계된 고급 양자화 툴킷입니다. 부호-경사 하강법(Sign-gradient descent)을 활용하고 폭넓은 하드웨어 호환성을 제공하여, 최소한의 튜닝만으로 초저비트(2~4비트) 환경에서도 높은 정확도를 달성합니다. 자세한 내용은 SignRoundV1 및 SignRoundV2 논문을 참조하세요. 사용 방법에 대한 지침은 사용자 가이드를 참조하십시오.
🆕 새로운 소식 [2026/03] 블록 단위 FP8 양자화가 --scheme FP8_BLOCK --iters 0 --disable_opt_rtn 명령어를 통해 사용 가능합니다. [2026/03] 해당 PR을 통해 MTP 레이어 양자화가 지원되었습니다. [2025/12] SignRoundV2 논문이 공개되었습니다. enable_alg_ext를 활성화하고 혼합 정밀도 양자화를 위해 AutoScheme API를 사용하여 결과를 재현해 보세요: 논문, LLaMA 모델 평가 노트. [2025/11] AutoRound가 LLM-Compressor에 통합되었습니다: 사용법, vLLM 블로그, RedHat 블로그, X 포스트, Intel 블로그, LinkedIn, 위챗, 즈후. [2025/11] --enable_alg_ext를 통해 향상된 GGUF 양자화 알고리즘을 사용할 수 있습니다: 정확도. [2025/10] AutoRound가 SGLang에 통합되었습니다: 사용법, LMSYS 블로그, X 포스트, Intel 블로그, LinkedIn. [2025/10] 몇 분 만에 방식(Scheme)을 생성하는 혼합 정밀도 알고리즘이 추가되었습니다: 사용법, 정확도. [2025/09] MXFP4 및 NVFP4 데이터 타입을 지원합니다: 정확도. [2025/08] --enable_alg_ext를 통해 개선된 INT2 알고리즘을 사용할 수 있습니다: 정확도. [2025/07] GGUF 포맷이 지원됩니다: 사용법. [2025/05] AutoRound가 vLLM에 통합되었습니다: 사용법, Medium 블로그, 샤오홍슈. [2025/05] AutoRound가 Transformers에 통합되었습니다: 블로그. [2025/03] INT2-혼합 DeepSeek-R1 모델(~200GB)이 97.9%의 정확도를 유지합니다: 모델.
✨ 주요 기능
✅ 뛰어난 정확도: 23비트의 초저비트에서도 강력한 성능을 발휘하며(예시 모델), 4비트에서는 업계 최고 수준의 결과를 보여줍니다(벤치마크).
✅ 생태계 통합: Transformers, vLLM, SGLang 등과 원활하게 연동됩니다.
✅ 다중 포맷 내보내기 지원: 최대의 호환성을 위해 AutoRound, AutoAWQ, AutoGPTQ 및 GGUF 내보내기를 지원합니다. 자세한 내용은 내보내기 포맷에서 확인하세요.
✅ 빠른 혼합 비트/데이터타입 방식 생성: 오버헤드로 모델의 BF16 RAM 크기의 약 1.11.5배를 사용하여 몇 분 만에 자동으로 구성합니다. 정확도 결과 및 사용자 가이드.
✅ 최적화된 반올림(Round-to-Nearest) 모드: 빠른 양자화를 위해 --iters 0을 사용하며, 4비트의 경우 약간의 정확도 저하가 발생할 수 있습니다. 자세한 내용은 opt_rtn 모드에서 확인하세요.
✅ 저렴한 양자화 비용: 단일 GPU에서 약 10분 만에 7B 모델을 양자화할 수 있습니다. 자세한 내용은 양자화 비용에서 확인하세요.
✅ 10개 이상의 VLM 지원: 10개 이상의 비전 언어 모델에 대한 즉시 사용 가능한 양자화를 제공합니다(예시 모델, 지원 매트릭스).
✅ 다양한 레시피: 필요에 맞게 auto-round-best, auto-round, auto-round-light 중에서 선택할 수 있습니다. 자세한 내용은 양자화 레시피에서 확인하세요.
✅ 고급 유틸리티: 다중 GPU 양자화, 다중 캘리브레이션 데이터셋 및 10개 이상의 런타임 백엔드 지원이 포함됩니다.
✅ 가중치 전용 양자화 그 이상: MXFP, NVFP, W8A8 등과 같은 추가 데이터 타입에 대한 지원을 적극적으로 확장하고 있습니다.
설치 방법 PyPI에서 설치
CPU(Xeon)/GPU(CUDA)
pip install auto-round
CPU(Xeon)/GPU(CUDA) nightly 버전
pip install auto-round-nightly
HPU(Gaudi)
hpu 도커 컨테이너 내부에 설치 (예: vault.habana.ai/gaudi-docker/1.23.0/ubuntu24.04/habanalabs/pytorch-installer-2.9.0:latest)
pip install auto-round-hpu
XPU(Intel GPU)
pip install torch --index-url https://download.pytorch.org/whl/xpu pip install auto-round
소스에서 빌드
CPU(Xeon)/GPU(CUDA)
pip install .
HPU(Gaudi)
python setup.py install hpu
XPU(Intel GPU)
pip install torch --index-url https://download.pytorch.org/whl/xpu pip install .
모델 양자화 (CPU/Intel GPU/Gaudi/CUDA) 양자화 중에 문제가 발생하면 iters=0, disable_opt_rtn=True를 설정하여 순수 RTN 모드를 사용해 보십시오. 또한 더 나은 결과를 위해 group_size=32 또는 혼합 비트를 사용하는 것이 좋습니다.
CLI 사용법 터미널에서 auto-round -h를 호출하면 지원되는 전체 인수 목록이 제공됩니다. ModelScop