BL
r/LocalLLaMA • 49일 전
5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정
IMP 6/10
핵심 요약
기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.
번역된 본문
저는 실험적인 모델의 진행 중인 학습 과정을 모니터링하고 있습니다. 기존 트랜스포머의 MLP 디코더를 제 K-Splanifolves 논문에 설명된 이산형 저차원 스플라인 다양체 기하학(discrete lower-dimensional spline manifold geometry)으로 교체했습니다. 첨부된 이미지는 총 128개 계층 중 96번째 계층이 5B 토큰 학습 동안 어떻게 발전했는지를 보여줍니다. 18M(1,800만 파라미터) 모델이 놀랍도록 잘 작동하며 손실(loss)도 줄어들고 있어서, 정체되었다는 명확한 징후가 보일 때까지 학습을 계속할 예정입니다. 여러분께서도 이 발전 과정을 흥미롭게 보실 수 있을 것 같아 공유합니다.
수정:
K-Splanifolds 논문의 소스 코드: https://github.com/curvedinf/k-splanifolds
스플라인다양체(splanifold)를 직접 다뤄보고 싶으시다면 다음 데모를 확인해 보세요:
원문 보기 (영어)
I'm monitoring an experimental model's ongoing training. I replaced the MLP decoders of a traditional transformer with discrete lower-dimensional spline manifold geometry described in my [K-Splanifolds paper](http://zenodo.org/records/18673035). The image shows how layer 96 of 128 developed over 5B tokens trained. The 18M model works surprisingly well and loss is reducing, so I'll continue to train it until I see evidence it is stagnating. Just thought you all might find this look at its development interesting.
edit:
Source code of the K-Splanifolds paper: [https://github.com/curvedinf/k-splanifolds](https://github.com/curvedinf/k-splanifolds)
If you'd like to play with a splanifold, check out these demos:
[https://raw.githubusercontent.com/curvedinf/k-splanifolds/refs/heads/main/k-splanifolds-2D-to-3D-toy.html](https://raw.githubusercontent.com/curvedinf/k-splanifolds/refs/heads/main/k-splanifolds-2D-to-3D-toy.html)
[https://raw.githubusercontent.com/curvedinf/k-splanifolds/refs/heads/main/k-splanifolds-3D-to-3D-visualization.html](https://raw.githubusercontent.com/curvedinf/k-splanifolds/refs/heads/main/k-splanifolds-3D-to-3D-visualization.html)