#성능 최적화

MoonMath AI, AMD MI300X HIP 어텐션 커널 오픈소스화

MoonMath AI가 AMD MI300X 환경에서 최적화된 HIP 어텐션 커널을 오픈소스로 공개했습니다. 이 커널은 단일 명령어 asm 래퍼와 8단계 웨이브 파이프라인 기술을 적용하여, 기존 AMD의 AITER v3보다 모든 형태와 반올림 모드에서 더 뛰어난 성능을 보여줍니다. 이를 통해 AMD GPU 환경에서 대규모 AI 모델의 학습 및 추론 성능을 크게 끌어올릴 수 있다는 점에서 매우 중요합니다.

AMD MI300X 어텐션 커널

Hacker News • 39일 전

IMP 7

구형 제온 서버 174번 재부팅하며 찾아낸 최적 LLM 추론 옵션

10년 된 구형 CPU 환경에서 LLM(Gemma 4)을 빠르게 구동하기 위해 추론 엔진의 25개 명령어 플래그(flags)를 하나씩 제거하며 성능 변화를 측정한 실험 결과입니다. 플래그들은 하드웨어나 작업량에 따라 상호작용하므로 무작정 복사해서 붙여넣기보다 실제 환경에서 테스트해야 함을 보여줍니다. 하드웨어 제약 없이 오픈소스 모델을 최적화하려는 실무자들에게 매우 유용한 가이드입니다.

로컬 LLM llama.cpp 성능 최적화

Hacker News • 40일 전

IMP 9

10년의 결실, JDK 28에 도착하는 프로젝트 발할라

자바 생태계의 가장 중요한 변화 중 하나인 '프로젝트 발할라(Project Valhalla)'가 드디어 JDK 28에 프리뷰 기능으로 통합될 예정입니다. 이는 객체 지향의 편리함을 유지하면서도 기본형(primitive) 수준의 메모리 효율과 성능을 내기 위한 자바의 장기적인 노력의 결실입니다. 개발자들은 기존 코드의 호환성을 깨지 않고도 메모리와 CPU 캐시를 훨씬 더 효율적으로 활용하는 최적화된 코드를 작성할 수 있게 됩니다.

자바 JVM 프로젝트 발할라

MarkTechPost • 50일 전

IMP 7

샤오미 MiMo, 상용 GPU로 1천억 매개변수 모델 1000토큰/초 돌파

샤오미 MiMo 팀과 TileRT가 1천억 매개변수(1-Trillion-Parameter) 모델의 새로운 서빙 모드인 MiMo-V2.5-Pro-UltraSpeed를 공개했습니다. 이 모드는 단일 8-GPU 상용 노드만으로 초당 1,000개 이상의 토큰을 디코딩하는 놀라운 속도를 달성했습니다.

샤오미 대형 언어 모델 모델 서빙

MarkTechPost • 58일 전

IMP 7

Parallax: 소프트맥스 유지 및 학습된 공분산 보정 브랜치를 추가한 파라미터화 국소 선형 어텐션

새로운 어텐션 기법인 Parallax는 기존 국소 선형 어텐션(LLA)의 쿼리별 풀이법(query solver)을 학습된 프로젝터(projector)로 대체하여 연산 밀도를 두 배로 높였습니다. 이를 통해 0.6B 및 1.7B 크기의 언어 모델에서 펄플렉시티(perplexity) 성능이 향상되었습니다. 이 연구는 효율적인 어텐션 메커니즘의 성능을 개선하여 대규모 언어 모델의 추론 및 학습 효율성을 높인다는 점에서 중요합니다.

어텐션 메커니즘 대규모 언어 모델 Parallax

MarkTechPost • 62일 전

IMP 7

퍼플렉시티, 휴깅페이스 대비 5배 빠른 토크나이저 오픈소스화

Perplexity AI가 Unigram 기반의 새로운 토크나이저를 오픈소스로 공개했습니다. 이 토크나이저는 널리 쓰이는 Hugging Face 토크나이저 대비 p50 지연 시간을 5배 낮춰 대규모 텍스트 처리 성능을 크게 향상시켰다는 점에서 실무적인 의의가 있습니다. 데이터 전처리 및 AI 서비스 추론 속도 개선에 핵심적인 역할을 할 것으로 기대됩니다.

오픈소스 퍼플렉시티 토크나이저

r/LocalLLaMA • 72일 전

IMP 7

llama.cpp: MTP 프롬프트 처리 속도 개선 PR 병합

오픈소스 프로젝트 llama.cpp에 MTP(다중 토큰 예측) 적용 시 프롬프트 처리(PP) 속도를 크게 향상시키는 PR이 병합되었습니다. 기존에는 불필요한 로짓(logit) 복사로 인해 메모리 부하가 발생했으나, 이를 최적화하여 MTP 사용 시 발생하던 성능 저하를 절반 수준으로 줄였습니다.

llama.cpp 성능 최적화 MTP

Hacker News • 79일 전

IMP 7

Swift로 LLM 학습시키기: 행렬 연산 최적화

본 글은 Apple Silicon 환경에서 Swift를 사용하여 외부 프레임워크 없이 대규모 언어 모델(LLM)을 학습시키기 위한 행렬 곱셈 코드를 처음부터 직접 작성하고 극한으로 최적화하는 과정을 다룹니다. 저자는 Andrej Karpathy의 'llm.c' 프로젝트를 Swift로 포팅하고, CPU, SIMD, AMX, GPU 등 Apple Silicon의 다양한 연산 유닛을 활용해 기존 C언어 구현체보다 빠르게 만드는 실험을 진행합니다. 이를 통해 Swift 환경에서 ML 연산을 최적화하는 핵심 기법과 Apple 기기의 하드웨어적 성능 한계를 체감할 수 있는 귀중한 인사이트를 제공합니다.

Swift LLM 학습 Apple Silicon

r/LocalLLaMA • 91일 전

IMP 7

Qwen, 고성능 선형 어텐션 커널 FlashQLA 공개

Qwen이 TileLang 기반의 고성능 선형 어텐션(Linear Attention) 커널인 FlashQLA를 공개했습니다. 순방향 연산 속도를 2~3배, 역방향 연산 속도를 2배 향상시켰으며, 특히 개인 기기에서 작동하는 에이전트 AI 및 긴 문맥(Long-context) 처리 환경에 최적화된 것이 특징입니다. 메모리 제약이 심한 에지 디바이스 환경에서 실질적인 성능 향상을 이끌어내는 실무적인 하드웨어 최적화 기법을 적용했습니다.

오픈소스 성능 최적화 에이지 AI

Hacker News • 112일 전

IMP 8

Next.js에서 Vite로 마이그레이션, 빌드 10분에서 2분 미만으로 단축

Railway가 프로덕션 프론트엔드를 Next.js에서 Vite + TanStack Router로 성공적으로 마이그레이션한 후기를 공유했습니다. 기존 Next.js의 서버 중심 패턴은 클라이언트 중심 앱에 맞지 않았고, 빌드 시간이 10분을 넘어서는 등 병목이 되었습니다. 두 번의 PR과 무중단 배포를 통해 200개 이상의 라우트 마이그레이션을 완료하며, 클라이언트 중심 개발에 적합한 스택의 중요성을 보여줍니다.

프론트엔드 Next.js Vite

Hacker News • 114일 전

IMP 7

Rust 나이틀리에 도입된 꼬리 재귀 최적화 인터프리터 후기

Rust 나이틀리 버전에 새롭게 추가된 'become' 키워드를 활용해 Uxn CPU 에뮬레이터를 꼬리 재귀(tail-call) 기반으로 구현한 경험기를 공유했습니다. 이 방식을 적용한 결과, 작성자의 기존 Rust 구현체는 물론 직접 작성한 ARM64 어셈블리 버전보다도 더 높은 성능을 달성하는 놀라운 결과를 얻었습니다. 이 글은 시스템 프로그래밍 및 에뮬레이터 개발에서 Rust의 꼬리 재귀 최적화가 가지는 실용성과 성능적 이점을 보여줍니다.

Rust 에뮬레이터 꼬리 재귀 최적화