#트랜스포머

트랜스포머 트랜스포머: 동작 특화 로봇 설계 모델

주어진 작업(동작)에 맞춰 로봇의 물리적 구조(embodiment)와 제어기를 자동으로 최적화 설계하는 '트랜스포머 트랜스포머(Transformer Transformer)' 모델이 소개되었습니다. 이 모델은 로봇의 모든 관절과 모터를 통합된 토큰(RoboTokens)으로 표현하여 단일 네트워크에서 로봇 생성, 평가, 제어를 모두 수행할 수 있게 만들어, 로봇 공학 및 코디자인 연구의 패러다임을 전환하는 중요한 연구입니다.

로봇공학 트랜스포머 공동 설계

Wired AI • 13일 전

IMP 8

AI보다 똑똑한 아기, 그 비밀을 찾아서

최첨단 AI 모델조차 아기가 세상을 인식하고 학습하는 방식에는 미치지 못한다는 연구 결과가 나왔습니다. 스탠퍼드 대학교, 메타(Meta), 도쿄 대학교 등의 연구진은 아기의 시점에서 촬영된 영상으로 AI를 테스트하는 'EgoBabyVLM' 챌린지를 통해 이를 입증했습니다. 엄청난 데이터에 의존하는 현재 AI의 한계를 극복하고 물리적 환경을 자연스럽게 학습하는 로봇 등을 개발하기 위해 아기 뇌의 학습 방식을 연구하는 것이 매우 중요합니다.

인공지능 인지과학 시각언어모델

MarkTechPost • 18일 전

IMP 7

큐타이, 다중 악기 MIDI 변환 트랜스포머 'MuScriptor' 공개

큐타이(Kyutai)는 오디오를 다중 악기 MIDI로 변환하는 오픈 웨이트 디코더 전용 트랜스포머 모델인 'MuScriptor'를 공개했습니다. 이 모델은 실제 녹음본과 대규모 합성 MIDI 데이터를 학습하여 복잡하게 믹스된 다중 악기 연주를 정확하게 악보(MIDI)로 전사할 수 있습니다. 관련 벤치마크, 악기 조절 기능, 대화형 데모까지 제공되어 오디오 및 음악 AI 실무자들에게 매우 유용한 오픈소스 도구입니다.

음악 AI 트랜스포머 오픈소스

Hacker News • 26일 전

IMP 9

단일 트랜스포머 계층, 전체 파라미터 RL 학습과 동일한 효과 입증

대형 언어 모델(LLM)의 강화학습(RL) 시 모델의 모든 파라미터를 업데이트하는 대신, 단일 트랜스포머 계층(레이어)만 학습해도 전체 학습 효과의 대부분을 달성하거나 능가할 수 있다는 연구 결과입니다. 수학적 추론 및 코딩 등 다양한 작업에서 실험한 결과, 학습 효과는 모델 중간 부분의 특정 계층에 집중되어 있는 것으로 나타났습니다. 이는 막대한 컴퓨팅 자원이 소모되는 기존의 전체 파라미터 강화학습 방식의 효율성을 크게 뒤집을 수 있는 중요한 발견입니다.

강화학습 대형언어모델 효율적파인튜닝

Hacker News • 28일 전

IMP 7

말은 의식의 부산물이다, 하지만 LLM은 그 반대다

인간의 언어는 내면의 의식과 생각을 표현하기 위해 나오는 부산물이지만, LLM은 거대한 수학적 모델을 기반으로 다음 단어를 예측할 뿐 그 내면에 의식이나 근본적 아이디어가 존재하지 않습니다. 이러한 인간과 AI의 태생적인 차이를 이해하는 것이 기술 발전 방향과 AI 활용 시대를 통찰하는 핵심입니다. 과거 초창기 컴퓨터가 그랬듯 AI 역시 빠르게 효율화되어 누구나 강력한 도구를 활용하는 빌더가 되는 시대로 나아가고 있습니다.

LLM 인공지능 트랜스포머

Hacker News • 35일 전

IMP 6

900KB 트랜스포머로 100MB CSV 파일 7MB로 압축하기

특정 파일의 패턴을 완벽하게 외우도록 오버피팅(Overfitting)된 900KB 크기의 트랜스포머 모델과 산술 부호화(Arithmetic coding)를 결합해 개별 파일을 압축하는 실험 결과가 공유되었습니다. 이 방식을 통해 반복적인 패턴이 많은 100MB 크기의 뉴욕 택시 CSV 데이터를 약 7MB 수준까지 극한으로 압축할 수 있었으며, AI를 활용한 새로운 데이터 압축 기법의 가능성을 보여줍니다.

트랜스포머 데이터압축 산술부호화

Hacker News • 39일 전

IMP 8

현재 AI 붐의 기원: 1991년 뮌헨

오늘날 AI 산업의 핵심 기술인 트랜스포머, 사전 학습, 잔차 학습(Residual Learning) 등의 개념이 모두 1991년 뮌헨 공과대학의 위르겐 슈미트후버(Jürgen Schmidhuber) 연구실에서 단 몇 달 만에 발표되었습니다. 이 요약은 현대 심층 학습(Deep Learning) 및 대형 언어 모델(LLM)의 진정한 역사적 기원을 추적하는 데 중요한 통찰을 제공합니다. 현대 AI를 지탱하는 기반 기술들이 어떻게 30년 전에 이미 탄생했는지 보여주는 의미 있는 글입니다.

딥러닝 역사 슈미트후버 트랜스포머

MIT Tech Review • 40일 전

IMP 8

AI 스타트업, LLM 효율성 병목 현상 돌파 주장

AI 스타트업 Subquadratic이 대형 언어 모델(LLM)의 연산량과 비용을 획기적으로 줄이는 새로운 아키텍처 'SubQ'를 공개했습니다. 기존 Transformer(트랜스포머) 구조의 비효율성을 극복하여 매우 빠른 처리 속도와 낮은 전력 소모를 자랑하며, 제3자 평가를 통해 그 성능이 입증되었습니다. 이는 AI 모델 구축 방식을 근본적으로 바꿀 수 있는 중요한 기술적 도약으로 평가됩니다.

LLM 트랜스포머 AI효율성

MarkTechPost • 42일 전

IMP 8

xFormers로 메모리 효율적인 트랜스포머 구축하기

본 글은 GPU 환경에서 빠르고 메모리 효율적인 트랜스포머 모델 구현을 돕는 실용적인 툴킷인 xFormers의 활용법을 다룹니다. 패킹된 시퀀스(Packed Sequences), GQA, ALiBi, SwiGLU 등 다양한 최신 최적화 기법을 표준 구현과 비교 검증하며, 이를 결합해 학습 가능한 GPT 스타일 모델을 구축하는 과정을 보여줍니다. AI 실무자들에게 대규모 언어 모델(LLM) 학습 및 추론 시 발생하는 병목 현상을 해결하고 컴퓨팅 리소스를 최적화하는 데 매우 중요한 가이드를 제공합니다.

트랜스포머 메모리 최적화 xFormers

Hacker News • 63일 전

IMP 8

언어 모델도 수면이 필요하다

최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.

대형 언어 모델 트랜스포머 컨텍스트 윈도우

MarkTechPost • 68일 전

IMP 7

OpenMythos로 순환 깊이 트랜스포머 구축

본 튜토리얼은 OpenMythos를 활용해 구글 코랩(Colab) 환경에서 엔드투엔드로 작동하는 고급 '순환 깊이 트랜스포머(Recurrent-Depth Transformer)' 워크플로우를 구축하는 과정을 다룹니다. 특히 MLA와 GQA 모델 변형을 생성하고 파라미터 수를 비교하며, 스펙트럼 반경(Spectral Radius)을 통해 순환 주입 행렬의 안정성을 검증하는 실무적 접근이 포함되어 있어 모델 아키텍처 설계에 중요한 참고자료가 됩니다.

트랜스포머 모델 아키텍처 MLA

Hacker News • 68일 전

IMP 8

CODA: 트랜스포머 블록을 GEMM 에필로그 프로그램으로 재작성

AI 모델 학습 시 흔히 발생하는 메모리 병목 현상을 해결하기 위해, 개별적으로 처리되던 연산들을 하나의 GPU 커널(GEMM Epilogue)로 통합하여 성능을 극대화하는 새로운 추상화 기법인 CODA를 제안합니다. 이 방식은 데이터 이동을 최소화하면서도 프레임워크 수준의 생산성과 하드웨어 수준의 극적인 효율성을 동시에 달성할 수 있도록 돕습니다.

머신러닝 GPU 최적화 커널 개발

Hacker News • 72일 전

IMP 7

트랜스포머의 자기회귀 예측과 KV 캐시

대규모 언어 모델(LLM)이 토큰을 생성하는 핵심 원리인 '자기회귀 다음 토큰 예측'과 추론 속도를 획기적으로 높이는 'KV 캐시' 최적화 기법을 설명합니다. 이 과정을 통해 모델이 텍스트를 벡터로 변환하여 디코더 블록을 거치고 다음 단어를 예측하며, 이후 반복적인 연산을 줄여 긴 문장을 빠르게 생성할 수 있게 되는 원리를 이해할 수 있습니다.

LLM 트랜스포머 KV 캐시

Hacker News • 85일 전

IMP 8

밑바닥부터 LLM 직접 만들어보기

이 워크숍은 허깅페이스 등의 블랙박스 라이브러리 없이, 순수 파이토치만으로 GPT 모델을 밑바닥부터 직접 코딩하고 학습시키는 실습 중심 가이드입니다. 약 1,000만 개(10M) 파라미터 규모의 경량 모델을 노트북에서 한 시간 만에 학습시킬 수 있도록 안내합니다. AI 입문자부터 실무자까지 트랜스포머(Transformer)의 근본적인 작동 원리를 완벽히 이해하고 싶은 개발자에게 매우 유용한 자료입니다.

LLM 트랜스포머 PyTorch

Hacker News • 85일 전

IMP 7

트랜스포머는 본질적으로 간결하다

본 논문은 개념을 표현하는 트랜스포머의 표현력을 '간결성(Succinctness)'이라는 척도로 측정할 것을 제안합니다. 연구진은 트랜스포머가 유한 오토마타나 선형 시제 논리(LTL) 공식 같은 전통적 방식들보다 훨씬 더 적은 용량으로 형식 언어를 표현할 수 있음을 수학적으로 증명했습니다. 그러나 이러한 높은 표현력으로 인해 트랜스포머의 특정 속성을 검증하거나 증명하는 작업은 EXPSPACE-완전(EXPSPACE-complete) 문제로, 계산적으로 매우 다루기 어렵다는 한계도 함께 확인했습니다.

트랜스포머 형식언어 표현력

Hacker News • 88일 전

IMP 7

신경망과 암호화 알고리즘이 놀라울 정도로 비슷한 이유

언뜻 보기에 전혀 다른 분야인 인공신경망과 대칭키 암호화 알고리즘이, 기저에 깔린 구조와 작동 방식이 매우 유사하다는 흥미로운 분석입니다. 두 분야 모두 순차적 및 병렬적 시퀀스 처리 방식, 선형과 비선형 레이어의 교차 반복, 그리고 행과 열을 교차 혼합(Mixing)하여 성능을 극대화하는 구조를 공유합니다. 이는 두 분야가 서로 아이디어를 베낀 것이 아니라, 약한 정확성 요구사항과 하드웨어 최적화라는 동일한 근본적 문제 해결 과정에서 자연스럽게 수렴 진화했기 때문입니다.

인공신경망 암호화 알고리즘 트랜스포머

Hacker News • 99일 전

IMP 7

1MHz 코모도어 64에서 구동되는 실제 트랜스포머

1980년대 1MHz 프로세서를 탑재한 레트로 컴퓨터 '코모도어 64(C64)'에서 ChatGPT와 동일한 트랜스포머 아키텍처 기반의 LLM이 구동되는 프로젝트가 공개되었습니다. 약 2만 5천개의 Int8 파라미터를 사용하며 소프트맥스(Softmax) 연산을 최적화하여 제한된 하드웨어에서도 실질적인 어텐션(Attention) 가중치를 계산해 내는 것이 핵심 기술입니다. 사용자가 직접 데이터를 학습시켜 3.5인치 플로피 디스크로 빌드하여 실제 하드웨어나 에뮬레이터에서 실행해 볼 수 있는 오픈소스 프로젝트입니다.

오픈소스 트랜스포머 레트로 컴퓨팅

Hacker News • 103일 전

IMP 7

1989년 매킨토시에서 구현된 트랜스포머 신경망

1989년 Macintosh SE/30의 하이퍼카드(HyperCard) 환경에서 트랜스포머 신경망을 온전히 구현한 'MacMind' 프로젝트가 공개되었습니다. 1,216개의 파라미터를 가진 이 모델은 현대 LLM과 완전히 동일한 수학적 원리(셀프 어텐션, 역전파 등)를 사용하여 빠른 푸리에 변환(FFT)의 초기 단계인 비트 역순 정렬을 스스로 학습합니다. 이 프로젝트는 거대 AI 모델의 작동 방식이 마법이 아니라 이해 가능한 수학임을 시각적으로 증명하며 AI의 기본 원리 교육에 큰 가치를 지닙니다.

신경망 트랜스포머 레트로 컴퓨팅

r/LocalLLaMA • 108일 전

IMP 6

5B 토큰 학습 중 내 LLM 디코더 블록의 변화 과정

기존 트랜스포머 모델의 MLP 디코더를 새로운 기하학적 구조인 'K-Splanifolds'로 교체하여 1,800만 파라미터(18M) 모델을 학습시키는 실험 결과를 공유했습니다. 5B(50억) 개의 토큰을 학습하는 동안 디코더 계층이 어떻게 발전하는지 시각화하여 보여주며, 놀랍게도 손실(loss)이 잘 감소하고 있어 학습 정체기에 도달할 때까지 훈련을 이어갈 계획입니다.

LLM 트랜스포머 기하학

Hacker News • 114일 전

IMP 6

언어 모델 원리를 쉽게 깨우쳐주는 초소형 LLM 공개

해커뉴스에 약 900만 개의 파라미터를 가진 초소형 언어 모델인 'GuppyLM'이 공개되었습니다. 이 프로젝트는 누구나 Colab 환경에서 5분 만에 데이터 생성부터 토크나이저, 모델 아키텍처, 학습 및 추론까지 전 과정을 직접 경험하며 LLM의 원리를 쉽게 이해할 수 있도록 제작되었습니다. 복잡한 기법 없이 가장 기본적인 트랜스포머 아키텍처(Vanilla Transformer)만을 사용해 대형 모델들이 가진 블랙박스 같은 느낌을 해소하는 데 초점을 맞췄습니다.

오픈소스 소형 언어 모델 학습 가이드