메뉴

#트랜스포머

HN
Hacker News 4일 전
IMP 8

언어 모델도 수면이 필요하다

최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.

대형 언어 모델 트랜스포머 컨텍스트 윈도우
MP
MarkTechPost 9일 전
IMP 7

OpenMythos로 순환 깊이 트랜스포머 구축

본 튜토리얼은 OpenMythos를 활용해 구글 코랩(Colab) 환경에서 엔드투엔드로 작동하는 고급 '순환 깊이 트랜스포머(Recurrent-Depth Transformer)' 워크플로우를 구축하는 과정을 다룹니다. 특히 MLA와 GQA 모델 변형을 생성하고 파라미터 수를 비교하며, 스펙트럼 반경(Spectral Radius)을 통해 순환 주입 행렬의 안정성을 검증하는 실무적 접근이 포함되어 있어 모델 아키텍처 설계에 중요한 참고자료가 됩니다.

트랜스포머 모델 아키텍처 MLA
HN
Hacker News 9일 전
IMP 8

CODA: 트랜스포머 블록을 GEMM 에필로그 프로그램으로 재작성

AI 모델 학습 시 흔히 발생하는 메모리 병목 현상을 해결하기 위해, 개별적으로 처리되던 연산들을 하나의 GPU 커널(GEMM Epilogue)로 통합하여 성능을 극대화하는 새로운 추상화 기법인 CODA를 제안합니다. 이 방식은 데이터 이동을 최소화하면서도 프레임워크 수준의 생산성과 하드웨어 수준의 극적인 효율성을 동시에 달성할 수 있도록 돕습니다.

머신러닝 GPU 최적화 커널 개발
HN
Hacker News 13일 전
IMP 7

트랜스포머의 자기회귀 예측과 KV 캐시

대규모 언어 모델(LLM)이 토큰을 생성하는 핵심 원리인 '자기회귀 다음 토큰 예측'과 추론 속도를 획기적으로 높이는 'KV 캐시' 최적화 기법을 설명합니다. 이 과정을 통해 모델이 텍스트를 벡터로 변환하여 디코더 블록을 거치고 다음 단어를 예측하며, 이후 반복적인 연산을 줄여 긴 문장을 빠르게 생성할 수 있게 되는 원리를 이해할 수 있습니다.

LLM 트랜스포머 KV 캐시
HN
Hacker News 26일 전
IMP 8

밑바닥부터 LLM 직접 만들어보기

이 워크숍은 허깅페이스 등의 블랙박스 라이브러리 없이, 순수 파이토치만으로 GPT 모델을 밑바닥부터 직접 코딩하고 학습시키는 실습 중심 가이드입니다. 약 1,000만 개(10M) 파라미터 규모의 경량 모델을 노트북에서 한 시간 만에 학습시킬 수 있도록 안내합니다. AI 입문자부터 실무자까지 트랜스포머(Transformer)의 근본적인 작동 원리를 완벽히 이해하고 싶은 개발자에게 매우 유용한 자료입니다.

LLM 트랜스포머 PyTorch
HN
Hacker News 26일 전
IMP 7

트랜스포머는 본질적으로 간결하다

본 논문은 개념을 표현하는 트랜스포머의 표현력을 '간결성(Succinctness)'이라는 척도로 측정할 것을 제안합니다. 연구진은 트랜스포머가 유한 오토마타나 선형 시제 논리(LTL) 공식 같은 전통적 방식들보다 훨씬 더 적은 용량으로 형식 언어를 표현할 수 있음을 수학적으로 증명했습니다. 그러나 이러한 높은 표현력으로 인해 트랜스포머의 특정 속성을 검증하거나 증명하는 작업은 EXPSPACE-완전(EXPSPACE-complete) 문제로, 계산적으로 매우 다루기 어렵다는 한계도 함께 확인했습니다.

트랜스포머 형식언어 표현력
HN
Hacker News 29일 전
IMP 7

신경망과 암호화 알고리즘이 놀라울 정도로 비슷한 이유

언뜻 보기에 전혀 다른 분야인 인공신경망과 대칭키 암호화 알고리즘이, 기저에 깔린 구조와 작동 방식이 매우 유사하다는 흥미로운 분석입니다. 두 분야 모두 순차적 및 병렬적 시퀀스 처리 방식, 선형과 비선형 레이어의 교차 반복, 그리고 행과 열을 교차 혼합(Mixing)하여 성능을 극대화하는 구조를 공유합니다. 이는 두 분야가 서로 아이디어를 베낀 것이 아니라, 약한 정확성 요구사항과 하드웨어 최적화라는 동일한 근본적 문제 해결 과정에서 자연스럽게 수렴 진화했기 때문입니다.

인공신경망 암호화 알고리즘 트랜스포머
HN
Hacker News 40일 전
IMP 7

1MHz 코모도어 64에서 구동되는 실제 트랜스포머

1980년대 1MHz 프로세서를 탑재한 레트로 컴퓨터 '코모도어 64(C64)'에서 ChatGPT와 동일한 트랜스포머 아키텍처 기반의 LLM이 구동되는 프로젝트가 공개되었습니다. 약 2만 5천개의 Int8 파라미터를 사용하며 소프트맥스(Softmax) 연산을 최적화하여 제한된 하드웨어에서도 실질적인 어텐션(Attention) 가중치를 계산해 내는 것이 핵심 기술입니다. 사용자가 직접 데이터를 학습시켜 3.5인치 플로피 디스크로 빌드하여 실제 하드웨어나 에뮬레이터에서 실행해 볼 수 있는 오픈소스 프로젝트입니다.

오픈소스 트랜스포머 레트로 컴퓨팅
HN
Hacker News 45일 전
IMP 7

1989년 매킨토시에서 구현된 트랜스포머 신경망

1989년 Macintosh SE/30의 하이퍼카드(HyperCard) 환경에서 트랜스포머 신경망을 온전히 구현한 'MacMind' 프로젝트가 공개되었습니다. 1,216개의 파라미터를 가진 이 모델은 현대 LLM과 완전히 동일한 수학적 원리(셀프 어텐션, 역전파 등)를 사용하여 빠른 푸리에 변환(FFT)의 초기 단계인 비트 역순 정렬을 스스로 학습합니다. 이 프로젝트는 거대 AI 모델의 작동 방식이 마법이 아니라 이해 가능한 수학임을 시각적으로 증명하며 AI의 기본 원리 교육에 큰 가치를 지닙니다.

신경망 트랜스포머 레트로 컴퓨팅
LL
r/LocalLLaMA 49일 전
IMP 6

5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정

기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.

LLM 트랜스포머 기하학
HN
Hacker News 55일 전
IMP 6

언어 모델 원리를 쉽게 깨우쳐주는 초소형 LLM 공개

해커뉴스에 약 900만 개의 파라미터를 가진 초소형 언어 모델인 'GuppyLM'이 공개되었습니다. 이 프로젝트는 누구나 Colab 환경에서 5분 만에 데이터 생성부터 토크나이저, 모델 아키텍처, 학습 및 추론까지 전 과정을 직접 경험하며 LLM의 원리를 쉽게 이해할 수 있도록 제작되었습니다. 복잡한 기법 없이 가장 기본적인 트랜스포머 아키텍처(Vanilla Transformer)만을 사용해 대형 모델들이 가진 블랙박스 같은 느낌을 해소하는 데 초점을 맞췄습니다.

오픈소스 소형 언어 모델 학습 가이드