메타·카스트, 연산·메모리·입출력을 하나로 통합한 신경 컴퓨터 제안
메타 AI와 KAUST 연구진이 신경망 자체가 작동하는 컴퓨터 역할을 하는 '신경 컴퓨터(Neural Computers)'를 제안했습니다. 이 연구는 기존 AI 에이전트나 세계 모델과 달리, 운영체제 스택의 기능을 모델 내부에 내재화하여 명령어 및 그래픽 사용자 인터페이스 환경을 시뮬레이션하는 두 가지 프로토타입을 통해 그 가능성을 입증했습니다.
기술 뉴스 AI 논문 요약 기술 AI 쇼츠 인공지능 애플리케이션 에디터 추천 언어 모델 대형 언어 모델 머신러닝 소프트웨어 엔지니어링 스태프
메타 AI와 압둘라 국왕 과학기술대학교(KAUST) 연구진이 신경 컴퓨터(Neural Computers, NCs)를 도입했습니다. 이는 신경망이 기존 컴퓨터 위에서 동작하는 계층으로 작동하는 대신, 실행되는 컴퓨터 자체로 역할 하는 기계 형태를 제안한 것입니다. 연구진은 이론적 프레임워크와 함께 명령어 인터페이스(CLI) 및 그래픽 사용자 인터페이스(GUI) 환경에서 초기 런타임 기본 요소를 시연하는 두 가지 작동하는 비디오 기반 프로토타입을 발표했습니다.
에이전트 및 세계 모델과의 차이점 제안된 연구를 이해하려면 기존 시스템 유형과 비교해 보는 것이 도움이 됩니다. 기존 컴퓨터는 명시적인 프로그램을 실행합니다. AI 에이전트는 작업을 수행받고 운영체제, API, 터미널과 같은 기존 소프트웨어 스택을 사용하여 이를 수행합니다. 세계 모델은 환경이 시간이 지남에 따라 어떻게 변화하는지 예측하도록 학습합니다. 신경 컴퓨터는 이러한 역할 중 어느 것과도 정확히 일치하지 않습니다. 또한 연구진은 미분 가능한 외부 메모리에 초점을 맞추었던 뉴런 튜링 머신(Neural Turing Machine) 및 미분 가능한 신경 컴퓨터(Differentiable Neural Computer) 계열과도 명확히 구분합니다. 신경 컴퓨터(NC)의 핵심 질문은 다릅니다. 학습 기계가 실행 중인 컴퓨터 자체의 역할을 맡을 수 있는가? 입니다.
공식적으로 신경 컴퓨터(NC)는 잠재 런타임 상태 h_t에서 작동하는 업데이트 함수 F_θ와 디코더 G_θ에 의해 정의됩니다. 각 단계에서 NC는 현재 관찰값 x_t와 사용자 동작 u_t로부터 h_t를 업데이트한 다음, 다음 프레임 x_t+1을 샘플링합니다. 잠재 상태는 운영체제 스택이 일반적으로 처리하던 실행 컨텍스트, 작업 메모리 및 인터페이스 상태를 모델 외부가 아닌 내부에 포함합니다.
장기적인 목표는 튜링 완전(Turing complete)하고, 범용적으로 프로그래밍 가능하며, 명시적으로 재프로그래밍되지 않는 한 행동이 일관되고, 기계 고유의 아키텍처 및 프로그래밍 언어 의미론을 나타내는 네 가지 조건을 동시에 충족하는 성숙하고 범용적인 형태인 완전 신경 컴퓨터(Completely Neural Computer, CNC)입니다. 행동 일관성과 연결된 핵심 작동 요구 사항은 '실행/업데이트 계약(run/update contract)'입니다. 일반적인 입력은 설치된 기능을 자동으로 수정 없이 실행해야 하며, 동작을 변경하는 업데이트는 검사 및 롤백이 가능한 추적을 통해 프로그래밍 인터페이스를 통해서만 명시적으로 발생해야 합니다.
Wan2.1 기반의 두 가지 프로토타입 NC CLIGen 및 NC GUIWorld라는 두 가지 프로토타입은 모두 실험 당시 최첨단 비디오 생성 모델이었던 Wan2.1을 기반으로 구축되었으며, 그 위에 NC 특화 조건부(conditioning) 및 액션 모듈이 추가되었습니다. 두 모델은 파라미터를 공유하지 않고 별도로 학습되었습니다. 두 모델 모두 실제 환경과 상호작용하는 대신 기록된 프롬프트와 로그된 동작 스트림에서 롤아웃하는 오픈 루프 모드로 평가되었습니다.
NC CLIGen은 텍스트 프롬프트와 초기 화면 프레임에서 터미널 상호작용을 모델링하며, CLI 생성을 텍스트 및 이미지-비디오 변환 작업으로 취급합니다. CLIP 이미지 인코더가 첫 번째 프레임을 처리하고, T5 텍스트 인코더가 캡션을 임베딩하며, 이러한 조건부 특징들은 확산 노이즈(diffusion noise)와 결합되어 DiT(Diffusion Transformer) 스택에 의해 처리됩니다.
두 가지 데이터셋이 구축되었습니다: 공개 asciinema.cast 녹음에서 얻은 약 823,989개의 비디오 스트림(약 1,100시간)이 포함된 CLIGen(General)과, Docker 환경 내에서 vhs 툴킷을 사용하여 생성된 약 78,000개의 일반 트레이스와 약 50,000개의 파이썬 수학 검증 트레이스로 나뉜 CLIGen(Clean)입니다. CLIGen(General)으로 NC CLIGen을 학습시키는 데는 약 15,000 H100 GPU 시간이 소요되었고, CLIGen(Clean)은 약 7,000 H100 GPU 시간이 필요했습니다. CLIGen(General)에서의 재구성 품질은 13px 글꼴 크기에서 평균 PSNR 40.77dB 및 SSIM 0.989에 도달했습니다. Tesseract OCR을 사용하여 측정된 문자 수준 정확도는 초기화 시 0.03에서 60에서 0.54로 상승했습니다.