HN
Hacker News • 9일 전
IMP 8
CODA: 트랜스포머 블록을 GEMM 에필로그 프로그램으로 재작성
AI 모델 학습 시 흔히 발생하는 메모리 병목 현상을 해결하기 위해, 개별적으로 처리되던 연산들을 하나의 GPU 커널(GEMM Epilogue)로 통합하여 성능을 극대화하는 새로운 추상화 기법인 CODA를 제안합니다. 이 방식은 데이터 이동을 최소화하면서도 프레임워크 수준의 생산성과 하드웨어 수준의 극적인 효율성을 동시에 달성할 수 있도록 돕습니다.
머신러닝 GPU 최적화 커널 개발