#PyTorch

퍼스트 원칙으로 살펴보는 딥러닝 속도 최적화

이 글은 딥러닝 모델의 퍼포먼스를 높이기 위해 근본적인 원리(First Principles)에 기반해 접근하는 방법을 제시합니다. 딥러닝 연산 효율성을 연산(Compute), 메모리(Memory), 오버헤드(Overhead) 세 가지로 나누어 설명하며, 현재 시스템이 어떤 병목 상태에 빠져 있는지 파악하는 것이 불필요한 최적화를 막고 GPU 성능을 극대화하는 데 매우 중요하다고 역설합니다.

딥러닝 최적화 PyTorch GPU 성능

Hacker News • 85일 전

IMP 8

밑바닥부터 LLM 직접 만들어보기

이 워크숍은 허깅페이스 등의 블랙박스 라이브러리 없이, 순수 파이토치만으로 GPT 모델을 밑바닥부터 직접 코딩하고 학습시키는 실습 중심 가이드입니다. 약 1,000만 개(10M) 파라미터 규모의 경량 모델을 노트북에서 한 시간 만에 학습시킬 수 있도록 안내합니다. AI 입문자부터 실무자까지 트랜스포머(Transformer)의 근본적인 작동 원리를 완벽히 이해하고 싶은 개발자에게 매우 유용한 자료입니다.

LLM 트랜스포머 PyTorch

MarkTechPost • 114일 전

IMP 8

RightNow AI, 오픈소스 GPU 커널 최적화 프레임워크 'AutoKernel' 공개

RightNow AI 연구팀은 자율적 LLM 에이전트 루프를 활용해 임의의 PyTorch 모델에 대한 GPU 커널 최적화를 자동화하는 오픈소스 프레임워크인 'AutoKernel'을 공개했습니다. 이 프레임워크는 머신러닝 엔지니어링에서 가장 까다로운 작업 중 하나인 고성능 GPU 코드 작성을 완전히 자동화하는 것을 목표로 합니다. 사용자가 PyTorch 모델을 제공하면 AI가 자율적으로 코드를 최적화하는 접근 방식을 채택했습니다.

오픈소스 GPU 커널 최적화 PyTorch