#최적화

TileLang으로 고성능 GPU 커널 설계하기

TileLang은 파이썬 기반의 도메인 특화 언어(DSL)로서, 복잡한 고성능 GPU 커널 설계 과정을 크게 단순화합니다. 개발자는 복잡한 스레드 매핑이나 저수준 CUDA 명령어 생성을 컴파일러에 맡기고, 핵심 로직 구현에만 집중할 수 있어 AI 모델 최적화 실무자에게 매우 유용한 도구입니다.

GPU 커널 TileLang FlashAttention

Hacker News • 16일 전

IMP 8

Flash-MSA: 희소 어텐션으로 백만 토큰 학습 가속화

최첨단 AI 모델들이 추론 속도를 높이기 위해 사용하는 미니맥스 희소 어텐션(MSA)을 효율적으로 학습할 수 있는 세계 최초의 오픈소스 커널이 공개되었습니다. 이 기술은 Hopper 및 Blackwell GPU 환경에서 블록 단위의 희소 패턴을 적용하여 메모리 부담을 줄이고 백만 개 이상의 긴 맥락을 처리하는 학습 속도를 획기적으로 단축해 줍니다. 최신 AI 모델들의 핵심 기술을 최적화하여 대규모 언어 모델(LLM) 학습의 병목 현상을 해결한다는 점에서 실무 개발자들에게 매우 중요합니다.

최적화 학습 가속화 오픈소스

MarkTechPost • 17일 전

IMP 8

엔비디아 타일 기반 GPU 프로그래밍 완벽 가이드

본 튜토리얼은 엔비디아의 타일(Tile) 기반 GPU 프로그래밍 방식을 TileGym과 Colab 환경에서 실습합니다. cuTile 백엔드와 Triton 커널을 활용하여 벡터 덧셈부터 플래시 어텐션(Flash Attention)까지 핵심 알고리즘을 구현하며, 하드웨어 호환성을 고려한 최적화 전략을 제시합니다. GPU 연산 최적화와 AI 모델 학습 효율을 높이고자 하는 개발자에게 매우 유용한 자료입니다.

GPU 프로그래밍 엔비디아 Triton

Hacker News • 40일 전

IMP 7

정수 계획법으로 살펴보는 칵테일 최적화

작성자가 직접 개발한 커스텀 분기 한정(Branch-and-Bound) 알고리즘과 구글 OR-Tools, glpk.js 등 상용 수학적 최적화 솔버의 성능을 칵테일 제조 문제에 빗대어 비교한 글입니다. 개발자가 수십 시간 공들여 만든 알고리즘이 수십 년의 연구가 집약된 범용 솔버의 압도적인 속도(밀리초 단위의 계산)에 미치지 못한다는 사실을 체감하게 되는 기술적 인사이트를 제공합니다. 복잡한 최적화 문제를 다루는 실무자들에게 이미 검증된 오픈소스 솔버의 강력함을 일깨워주는 중요한 사례입니다.

최적화 알고리즘 오픈소스

MarkTechPost • 57일 전

IMP 6

엔비디아 Apex와 PyTorch AMP 활용 트랜스포머 학습 가속화

엔비디아 Apex를 소스에서 빌드하고 퓨즈드(Fused) 커널을 탐지하여 트랜스포머 모델 학습 환경을 최적화하는 방법을 벤치마크합니다. FusedAdam, FusedLayerNorm, 그리고 PyTorch의 기본 torch.amp를 활용해 학습 속도를 획기적으로 높이는 실무적인 최적화 기법을 다루고 있어 딥러닝 개발자에게 유용합니다.

인공지능 모델학습 최적화

MarkTechPost • 79일 전

IMP 8

사카나 AI·엔비디아, LLM 최대 21.9% 속도 향상 기술 공개

사카나 AI와 엔비디아 연구진은 L1 정규화를 적용해 피드포워드 레이어의 99% 이상을 희소화(Sparsity)하면서도 모델 성능 저하를 최소화하는 기법을 선보였습니다. 이를 새로운 희소 데이터 포맷과 융합된 CUDA 커널(CUDA Kernels)을 통해 실제 GPU 처리량 향상으로 연결하여, LLM의 학습 속도를 최대 21.9%, 추론 속도를 20.5% 각각 향상시켰습니다.

최적화 희소화 사카나 AI

r/LocalLLaMA • 114일 전

IMP 2

32MB 램 1998년 아이맥에서 LLM 구동 성공

1998년에 출시된 32MB RAM의 오리지널 아이맥 G3에서 26만 개 파라미터(260K) 규모의 초소형 대규모 언어 모델(LLM)을 로컬로 구동하는 데 성공한 프로젝트가 공개되었습니다. 크로스 컴파일 및 빅엔디안 변환, 제한적인 메모리 할당을 우회하는 등 레트로 하드웨어의 극심한 제약을 극복한 것이 특징입니다. 실질적인 성능보다는 제한된 환경에서 AI 모델을 실행하는 기술적 난제를 해결한 흥미로운 실험으로 평가받습니다.

온디바이스 AI 레트로 컴퓨팅 LLM