메뉴

#신경망

HN
Hacker News 25일 전
IMP 8

왜 딥러닝은 작동하는가: 새로운 이론의 탐색

스탠퍼드 대학의 연구진이 고전적 통계학의 직관을 깨는 딥러닝의 '양성 과적합(Benign Overfitting)' 현상을 설명하려 시도합니다. 모델이 파라미터를 무한정 늘려 개별 데이터를 완벽히 암기함에도 불구하고, 실제로는 훌륭한 일반화 성능을 보여주는 현상의 배경을 짚어냅니다. 단순한 경험적 방법론을 넘어, 왜 딥러닝 모델이 테스트 환경에서도 우수한 성능을 내는지 그 이론적 기반을 다지는 중요한 글입니다.

딥러닝 이론 양성 과적합 일반화 성능
HN
Hacker News 36일 전
IMP 8

딥러닝의 과학적 이론이 도래할 것이다

제이미 사이먼(Jamie Simon) 등 14명의 연구진은 딥러닝의 훈련 과정, 가중치, 성능 등을 설명하는 과학적 이론이 등장하고 있음을 주장합니다. 이 논문은 기계 학습 역학(learning mechanics)이라는 새로운 관점을 통해 다섯 가지 주요 연구 흐름을 통합하며, 기존의 '블랙박스'로 여겨지던 신경망의 작동 원리를 수학적, 역학적으로 규명할 수 있는 기반을 마련했다는 점에서 학계와 실무 양쪽에 큰 의의를 갖습니다.

딥러닝 이론 학습 역학 신경망
HN
Hacker News 40일 전
IMP 7

타입 시스템과 신경망

본 글은 대형 언어 모델(LLM)이 고도로 추상화된 프로그래밍 언어의 코드를 생성할 때 발생하는 타입 불일치 문제를 지적하며, 타입 검사를 학습 후 처리하는 기존 방식의 한계를 분석합니다. 오류 발생 시 재시도하거나 매 토큰마다 타입을 강제하는 제약 디코딩 방식은 비효율적이거나 근본적인 해결책이 되지 못합니다. 따라서 모델의 가중치를 업데이트하여 근본적으로 타입이 지정된 출력을 생성하도록 LLM 구조를 재설계해야 한다고 강조합니다.

대형 언어 모델 타입 시스템 코드 생성
HN
Hacker News 44일 전
IMP 7

1989년 매킨토시에서 구현된 트랜스포머 신경망

1989년 Macintosh SE/30의 하이퍼카드(HyperCard) 환경에서 트랜스포머 신경망을 온전히 구현한 'MacMind' 프로젝트가 공개되었습니다. 1,216개의 파라미터를 가진 이 모델은 현대 LLM과 완전히 동일한 수학적 원리(셀프 어텐션, 역전파 등)를 사용하여 빠른 푸리에 변환(FFT)의 초기 단계인 비트 역순 정렬을 스스로 학습합니다. 이 프로젝트는 거대 AI 모델의 작동 방식이 마법이 아니라 이해 가능한 수학임을 시각적으로 증명하며 AI의 기본 원리 교육에 큰 가치를 지닙니다.

신경망 트랜스포머 레트로 컴퓨팅
HN
Hacker News 51일 전
IMP 7

학습 데이터의 순서 의존성과 리 브래킷(Lie Bracket)

이 글은 신경망 학습 과정에서 학습 데이터(Training Example)를 벡터 장(Vector Field)으로 간주하고, 두 데이터의 학습 순서를 바꿨을 때 파라미터에 미치는 영향을 수학적으로 계산하는 방법을 설명합니다. 미분 기하학의 '리 브래킷(Lie Bracket)' 개념을 적용해 데이터의 순서 의존성을 정량화하며, 이를 실제 합성곱 신경망(ConvNet) 학습에 적용한 실험 결과를 보여줍니다.

딥러닝 수학 경사하강법