메뉴

#모델 학습

TD
The Decoder 6일 전
IMP 7

바이트댄스 연구: 긴 문서 학습엔 텍스트 변환보다 질문이 효과적

바이트댄스와 HKUST 연구진은 긴 문서를 다루는 멀티모달 AI 모델 학습 시, 단순히 텍스트를 인식해 변환하도록 하는 것보다 질문-답변(QA) 쌍을 활용하는 것이 훨씬 효과적이라는 사실을 발견했습니다. 이 방식으로 학습된 소형 모델(MMProLong)은 50만 토큰 이상의 긴 문맥에서도 안정적인 성능을 내며 파라미터 크기가 훨씬 큰 기존 오픈소스 모델들을 능가했습니다. 이 연구는 AI가 긴 문서를 탐색할 때 정보 추출 과제를 통해 유연한 검색 능력을 기르는 것이 핵심임을 시사합니다.

멀티모달 AI 긴 컨텍스트 모델 학습
LL
r/LocalLLaMA 45일 전
IMP 3

LLM 디코더 블록의 학습 과정 변화 영상

자체 LLM 모델을 학습(fine-tuning)시키는 동안 디코더 블록(decoder block) 내부 가중치나 데이터가 시각적으로 어떻게 변화하는지를 담은 영상을 공유했습니다. 기존에 화제가 되었던 정적 이미지 게시글에 이어, 사용자들의 요청에 따라 변화 과정을 한눈에 볼 수 있도록 동영상으로 제작된 것입니다. 레딧의 영상 압축 문제로 인해 화질이 저하되어, X(옛 트위터)에 업로드된 원본 영상 링크를 함께 제공하고 있습니다.

LLM 모델 학습 디코더
MP
MarkTechPost 45일 전
IMP 8

현대 LLM 학습부터 배포까지: 핵심 기술 파헤치기

현대 대규모 언어 모델(LLM) 개발은 거대한 텍스트 데이터를 신뢰할 수 있는 지능형 시스템으로 변환하는 정교한 파이프라인 과정을 거칩니다. 특히 방대한 데이터를 통해 언어 패턴과 추론 구조를 학습하는 사전 학습(Pretraining) 단계는 모델의 기본 성능을 결정하는 가장 중요한 기반 작업입니다. 이후 모델이 안전하고 실제 서비스에 투입될 수 있도록 돕는 정렬(Alignment) 및 배포 과정이 이어집니다.

대규모 언어 모델 모델 학습 사전 학습
LL
r/LocalLLaMA 49일 전
IMP 6

5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정

기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.

LLM 트랜스포머 기하학
HN
Hacker News 55일 전
IMP 8

JAX와 TPU로 구축하는 최고의 오픈소스 클로드 코딩 에이전트

카파시의 nanochat 프로젝트를 기반으로, 앤스로픽의 Constitutional AI 방식을 차용해 직접 코딩 에이전트 모델을 학습할 수 있도록 돕는 'nanocode' 라이브러리가 공개되었습니다. 순수 JAX로 작성되어 TPU 환경에 최적화되었으며, 구글의 무료 TPU 프로그램을 활용해 200달러의 비용으로 13억 파라미터(1.3B) 크기의 코딩 에이전트 모델을 학습 및 재현할 수 있는 것이 가장 큰 특징입니다.

오픈소스 JAX AI 코딩 에이전트