#모델 학습

코드로 구현되는 모델 학습

모델 학습 파이프라인이 고도로 복잡해짐에 따라, 수동 작업으로는 다수의 전문 팀 간 협업과 인프라 관리를 처리하기 어려워졌습니다. AI 연구소 Aleph Alpha는 이를 해결하기 위해 전체 학습 과정을 코드로 구현하는 '모델 팩토리(Model Factory)' 시스템인 Savanna를 구축했습니다. 이를 통해 학습 과정 전체를 클릭 한 번으로 실행하고, 인적 오류와 반복 작업을 줄여 모델 학습을 하나의 협업 소프트웨어 프로젝트처럼 효율적으로 관리할 수 있게 되었습니다.

MLOps 모델 학습 인프라

The Decoder • 52일 전

IMP 8

대형 언어 모델이 소형 모델이 놓치는 능력을 습득하는 이유

Anthropic과 Stanford 등의 연구진에 따르면, 소형 모델은 학습 과정에서 흔하게 등장하는 작업에 편향되어 드문 작업을 학습하자마자 잊어버리는 현상을 겪습니다. 반면 대형 모델은 넉넉한 용량을 바탕으로 흔한 작업을 먼저 마스터한 뒤, 드문 작업의 패턴을 안정적으로 암기하고 법칙을 깨달아(grokking) 새로운 상황에 일반화할 수 있습니다. 이는 모델의 크기를 무작정 키우는 대신, 특정 기능을 원하는 수준으로 학습시키기 위해 훈련 데이터 내에서 해당 작업의 등장 빈도를 높이는 것이 더 효율적인 대안이 될 수 있음을 시사합니다.

대형 언어 모델 모델 학습 스케일링 법칙

The Decoder • 65일 전

IMP 7

바이트댄스 연구: 긴 문서 학습엔 텍스트 변환보다 질문이 효과적

바이트댄스와 HKUST 연구진은 긴 문서를 다루는 멀티모달 AI 모델 학습 시, 단순히 텍스트를 인식해 변환하도록 하는 것보다 질문-답변(QA) 쌍을 활용하는 것이 훨씬 효과적이라는 사실을 발견했습니다. 이 방식으로 학습된 소형 모델(MMProLong)은 50만 토큰 이상의 긴 문맥에서도 안정적인 성능을 내며 파라미터 크기가 훨씬 큰 기존 오픈소스 모델들을 능가했습니다. 이 연구는 AI가 긴 문서를 탐색할 때 정보 추출 과제를 통해 유연한 검색 능력을 기르는 것이 핵심임을 시사합니다.

멀티모달 AI 긴 컨텍스트 모델 학습

r/LocalLLaMA • 104일 전

IMP 3

LLM 디코더 블록의 학습 과정 변화 영상

자체 LLM 모델을 학습(fine-tuning)시키는 동안 디코더 블록(decoder block) 내부 가중치나 데이터가 시각적으로 어떻게 변화하는지를 담은 영상을 공유했습니다. 기존에 화제가 되었던 정적 이미지 게시글에 이어, 사용자들의 요청에 따라 변화 과정을 한눈에 볼 수 있도록 동영상으로 제작된 것입니다. 레딧의 영상 압축 문제로 인해 화질이 저하되어, X(옛 트위터)에 업로드된 원본 영상 링크를 함께 제공하고 있습니다.

LLM 모델 학습 디코더

MarkTechPost • 104일 전

IMP 8

현대 LLM 학습부터 배포까지: 핵심 기술 파헤치기

현대 대규모 언어 모델(LLM) 개발은 거대한 텍스트 데이터를 신뢰할 수 있는 지능형 시스템으로 변환하는 정교한 파이프라인 과정을 거칩니다. 특히 방대한 데이터를 통해 언어 패턴과 추론 구조를 학습하는 사전 학습(Pretraining) 단계는 모델의 기본 성능을 결정하는 가장 중요한 기반 작업입니다. 이후 모델이 안전하고 실제 서비스에 투입될 수 있도록 돕는 정렬(Alignment) 및 배포 과정이 이어집니다.

대규모 언어 모델 모델 학습 사전 학습

r/LocalLLaMA • 108일 전

IMP 6

5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정

기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.

LLM 트랜스포머 기하학

Hacker News • 114일 전

IMP 8

JAX와 TPU로 구축하는 최고의 오픈소스 클로드 코딩 에이전트

카파시의 nanochat 프로젝트를 기반으로, 앤스로픽의 Constitutional AI 방식을 차용해 직접 코딩 에이전트 모델을 학습할 수 있도록 돕는 'nanocode' 라이브러리가 공개되었습니다. 순수 JAX로 작성되어 TPU 환경에 최적화되었으며, 구글의 무료 TPU 프로그램을 활용해 200달러의 비용으로 13억 파라미터(1.3B) 크기의 코딩 에이전트 모델을 학습 및 재현할 수 있는 것이 가장 큰 특징입니다.

오픈소스 JAX AI 코딩 에이전트