LL
r/LocalLLaMA • 49일 전
IMP 6
5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정
기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.
LLM 트랜스포머 기하학