BL
MarkTechPost • 20일 전
사카나 AI·엔비디아, LLM 최대 21.9% 속도 향상 기술 공개
IMP 8/10
핵심 요약
사카나 AI와 엔비디아 연구진은 L1 정규화를 적용해 피드포워드 레이어의 99% 이상을 희소화(Sparsity)하면서도 모델 성능 저하를 최소화하는 기법을 선보였습니다. 이를 새로운 희소 데이터 포맷과 융합된 CUDA 커널(CUDA Kernels)을 통해 실제 GPU 처리량 향상으로 연결하여, LLM의 학습 속도를 최대 21.9%, 추론 속도를 20.5% 각각 향상시켰습니다.
번역된 본문
사카나 AI(Sakana AI)와 엔비디아(NVIDIA) 연구진은 간단한 L1 정규화(L1 regularization)를 통해 순방향 레이어(feedforward layers)의 99% 이상을 희소화(sparsity)할 수 있으며, 이 과정에서 다운스트림 성능 저하(downstream performance impact)를 무시할 수 있을 수준으로 최소화할 수 있음을 입증했습니다. 또한 새로운 희소 데이터 포맷(sparse data formats)과 융합된 CUDA 커널(fused CUDA kernels)을 활용하여, 이러한 희소성을 실제 GPU 처리량(throughput) 향상으로 변환하는 데 성공했습니다. 이 글 '사카나 AI와 엔비디아, LLM의 추론 20.5% 및 학습 21.9% 속도 향상을 위한 CUDA 커널 탑재 TwELL 공개'는 MarkTechPost에 처음 게재되었습니다.
원문 보기 (영어)
Sakana AI and NVIDIA Researchers demonstrate that simple L1 regularization can induce over 99% sparsity in feedforward layers with negligible downstream performance impact, and translate that sparsity into real GPU throughput gains using new sparse data formats and fused CUDA kernels.
The post Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs appeared first on MarkTechPost.