#모델경량화

8달러 마이크로컨트롤러에서 구동하는 28.9M LLM

구글 Gemma 모델에서 도입된 '층별 임베딩(PLE)' 기법을 활용해, 파라미터 대부분을 느린 플래시 메모리에 저장하고 연산에 필요한 최소한의 데이터만 빠른 메모리로 불러와 초소형 칩에서 구동하는 기술입니다. 이를 통해 외부 서버 연결 없이 $8짜리 ESP32-S3 칩 내장 메모리만으로 28.9M(약 2900만 개) 파라미터의 언어모델을 구동하는 놀라운 성과를 보여줍니다. 엣지 디바이스의 극단적인 메모리 제약을 극복한 하드웨어 최적화 및 경량화 연구로서 엣지 AI(Edge AI) 분야에 중요한 의미를 갖습니다.

엣지AI 모델경량화 마이크로컨트롤러

Hacker News • 30일 전

IMP 7

블랙박스 대형 언어 모델의 지식 증류

GPT-4와 같은 비공개 대형 언어 모델(LLM)의 내부 구조에 접근할 수 없는 한계를 극복하고, 작은 모델로 지식을 효과적으로 전달하는 새로운 'Proxy-KD' 방법론이 제안되었습니다. 중간 단계의 프록시 모델을 활용하는 이 접근 방식은 기존의 화이트박스 지식 증류 기법을 능가하는 성능을 보여주며, 고성능 모델의 지식을 가볍고 효율적인 모델로 옮기는 데 중요한 진전을 의미합니다.

대형언어모델 지식증류 모델경량화

Hacker News • 77일 전

IMP 8

제미나이 도구 호출 기능, 2천6백만 파라미터 초소형 모델로 증류

Cactus Compute 팀이 구글의 제미나이(Gemini) 모델의 툴 콜링(Tool Calling) 기능을 단 2천6백만(26M) 파라미터를 가진 'Simple Attention Network' 모델(Needle)로 경량화하여 깃허브에 공개했습니다. 이 모델은 파인튜닝 없이도 FunctionGemma-270m, Qwen-0.6B 등 기존 경쟁 모델들을 단일 툴 콜 성능에서 뛰어넘으며, 가벼운 웨이트 덕분에 로컬 PC 및 스마트워치, 안경 등 소비자 기기에서 초당 수천 토큰을 처리할 수 있는 실용성을 갖췄습니다.

소형언어모델(SLM) 오픈소스 모델경량화

MarkTechPost • 80일 전

IMP 8

엔비디아, 12B~30B 크기 자유자재로 조절되는 '스타 일래스틱' 출시

엔비디아가 단 하나의 체크포인트(Checkpoint)에서 120억(12B), 230억(23B), 300억(30B) 파라미터 크기의 추론(Reasoning) 모델을 자유롭게 추출할 수 있는 '스타 일래스틱(Star Elastic)'을 공개했습니다. 제로샷 슬라이싱(Zero-Shot Slicing) 기술을 적용하여 모델을 처음부터 다시 학습할 필요 없이, 필요에 따라 즉각적으로 모델의 크기를 조절해 배포할 수 있다는 점이 가장 큰 특징입니다. 이는 다양한 하드웨어 환경과 예산에 맞춰 AI 모델을 유연하고 효율적으로 운영해야 하는 실무자들에게 배포 비용과 저장 공간을 혁신적으로 절감할 수 있는 중요한 돌파구가 될 것입니다.

엔비디아 스타일래스틱 제로샷슬라이싱