#LLM 추론

헤츠너, LLM 추론 API 실험 공개

저렴한 서버 호스팅으로 유명한 헤츠너(Hetzner)가 자체 인프라 기반의 LLM 추론 API 실험을 시작했습니다. 오픈AI 호환 API 형태로 제공되며, 현재는 Qwen 35B 모델 하나만 지원하지만 토큰당 224개의 매우 빠른 처리 속도를 보여줍니다. 아직 상용화 단계는 아니지만, 클라우드 사업자가 저비용 고효율 GPU 인프라를 무기로 LLM 서비스 시장에 진출하려는 시도라는 점에서 주목할 만합니다.

헤츠너 LLM 추론 오픈AI API

Hacker News • 35일 전

IMP 9

OpenAI, 브로드컴과 LLM 최적화 전용 AI 반도체 공개

OpenAI가 브로드컴과 함께 대규모 언어 모델(LLM) 추론에 최적화된 첫 번째 자체 칩인 '할라피뇨(Jalapeño)'를 공개했습니다. 이 칩은 데이터 이동을 최소화하고 이론적 최고 성능에 가까운 활용도를 끌어내도록 처음부터 새롭게 설계되었으며, 초기 테스트에서 현재 최고 수준의 제품보다 월등히 높은 전력 효율을 보여줍니다. 이는 OpenAI가 인프라부터 모델, 칩까지 아우르는 풀스택 전략을 완성하여 기가와트 규모의 데이터센터에 배포하려는 중요한 첫 단계입니다.

OpenAI AI 반도체 LLM 추론

Hacker News • 60일 전

IMP 8

C++와 CUDA로 구현하는 고성능 LLM 추론 엔진

인기 있는 LLM 추론 프레임워크인 vLLM의 경량화된 버전인 tiny-vLLm을 C++와 CUDA를 사용해 밑바닥부터 직접 구현해 보는 오픈소스 프로젝트 및 강의 자료입니다. 모델 가중치 로딩부터 PagedAttention, 연속 배치(Continuous Batching) 등 실제 운영 환경에서 필요한 핵심 기술들을 직관적으로 학습할 수 있습니다. 개발자와 강사 모두가 LLM의 작동 원리와 추론 서버 구축 과정을 깊이 있게 이해하는 데 매우 유용한 자료입니다.

오픈소스 LLM 추론 vLLM

Hacker News • 110일 전

IMP 8

연구 중심 에이전트: 코딩 전 논문을 읽을 때

코드만 분석하던 기존 AI 에이전트에 '논문 및 경쟁 프로젝트 리서치' 단계를 추가했더니, 사람이 놓칠 수 있는 핵심 최적화(OOM 문제 해결 등)를 찾아냅니다. 실제로 llama.cpp 프로젝트에 적용해 약 3시간 만에 x86 환경에서 15%, ARM에서 5%의 속도 향상을 달성하며 그 성능을 입증했습니다. 이는 단순한 코딩 도구를 넘어, 도메인 지식을 활용하는 시니어 엔지니어처럼 동작하는 에이전트의 가능성을 보여줍니다.

AI 에이전트 코드 최적화 LLM 추론