메뉴

#모델경량화

HN
Hacker News 18일 전
IMP 8

제미나이 도구 호출 기능, 2천6백만 파라미터 초소형 모델로 증류

Cactus Compute 팀이 구글의 제미나이(Gemini) 모델의 툴 콜링(Tool Calling) 기능을 단 2천6백만(26M) 파라미터를 가진 'Simple Attention Network' 모델(Needle)로 경량화하여 깃허브에 공개했습니다. 이 모델은 파인튜닝 없이도 FunctionGemma-270m, Qwen-0.6B 등 기존 경쟁 모델들을 단일 툴 콜 성능에서 뛰어넘으며, 가벼운 웨이트 덕분에 로컬 PC 및 스마트워치, 안경 등 소비자 기기에서 초당 수천 토큰을 처리할 수 있는 실용성을 갖췄습니다.

소형언어모델(SLM) 오픈소스 모델경량화
MP
MarkTechPost 21일 전
IMP 8

엔비디아, 12B~30B 크기 자유자재로 조절되는 '스타 일래스틱' 출시

엔비디아가 단 하나의 체크포인트(Checkpoint)에서 120억(12B), 230억(23B), 300억(30B) 파라미터 크기의 추론(Reasoning) 모델을 자유롭게 추출할 수 있는 '스타 일래스틱(Star Elastic)'을 공개했습니다. 제로샷 슬라이싱(Zero-Shot Slicing) 기술을 적용하여 모델을 처음부터 다시 학습할 필요 없이, 필요에 따라 즉각적으로 모델의 크기를 조절해 배포할 수 있다는 점이 가장 큰 특징입니다. 이는 다양한 하드웨어 환경과 예산에 맞춰 AI 모델을 유연하고 효율적으로 운영해야 하는 실무자들에게 배포 비용과 저장 공간을 혁신적으로 절감할 수 있는 중요한 돌파구가 될 것입니다.

엔비디아 스타일래스틱 제로샷슬라이싱