메뉴
BL
MarkTechPost 48일 전

메타·카스트, 연산·메모리·입출력을 하나로 통합한 신경 컴퓨터 제안

IMP
8/10
핵심 요약

메타 AI와 KAUST 연구진이 신경망 자체가 작동하는 컴퓨터 역할을 하는 '신경 컴퓨터(Neural Computers)'를 제안했습니다. 이 연구는 기존 AI 에이전트나 세계 모델과 달리, 운영체제 스택의 기능을 모델 내부에 내재화하여 명령어 및 그래픽 사용자 인터페이스 환경을 시뮬레이션하는 두 가지 프로토타입을 통해 그 가능성을 입증했습니다.

번역된 본문

기술 뉴스 AI 논문 요약 기술 AI 쇼츠 인공지능 애플리케이션 에디터 추천 언어 모델 대형 언어 모델 머신러닝 소프트웨어 엔지니어링 스태프

메타 AI와 압둘라 국왕 과학기술대학교(KAUST) 연구진이 신경 컴퓨터(Neural Computers, NCs)를 도입했습니다. 이는 신경망이 기존 컴퓨터 위에서 동작하는 계층으로 작동하는 대신, 실행되는 컴퓨터 자체로 역할 하는 기계 형태를 제안한 것입니다. 연구진은 이론적 프레임워크와 함께 명령어 인터페이스(CLI) 및 그래픽 사용자 인터페이스(GUI) 환경에서 초기 런타임 기본 요소를 시연하는 두 가지 작동하는 비디오 기반 프로토타입을 발표했습니다.

에이전트 및 세계 모델과의 차이점 제안된 연구를 이해하려면 기존 시스템 유형과 비교해 보는 것이 도움이 됩니다. 기존 컴퓨터는 명시적인 프로그램을 실행합니다. AI 에이전트는 작업을 수행받고 운영체제, API, 터미널과 같은 기존 소프트웨어 스택을 사용하여 이를 수행합니다. 세계 모델은 환경이 시간이 지남에 따라 어떻게 변화하는지 예측하도록 학습합니다. 신경 컴퓨터는 이러한 역할 중 어느 것과도 정확히 일치하지 않습니다. 또한 연구진은 미분 가능한 외부 메모리에 초점을 맞추었던 뉴런 튜링 머신(Neural Turing Machine) 및 미분 가능한 신경 컴퓨터(Differentiable Neural Computer) 계열과도 명확히 구분합니다. 신경 컴퓨터(NC)의 핵심 질문은 다릅니다. 학습 기계가 실행 중인 컴퓨터 자체의 역할을 맡을 수 있는가? 입니다.

공식적으로 신경 컴퓨터(NC)는 잠재 런타임 상태 h_t에서 작동하는 업데이트 함수 F_θ와 디코더 G_θ에 의해 정의됩니다. 각 단계에서 NC는 현재 관찰값 x_t와 사용자 동작 u_t로부터 h_t를 업데이트한 다음, 다음 프레임 x_t+1을 샘플링합니다. 잠재 상태는 운영체제 스택이 일반적으로 처리하던 실행 컨텍스트, 작업 메모리 및 인터페이스 상태를 모델 외부가 아닌 내부에 포함합니다.

장기적인 목표는 튜링 완전(Turing complete)하고, 범용적으로 프로그래밍 가능하며, 명시적으로 재프로그래밍되지 않는 한 행동이 일관되고, 기계 고유의 아키텍처 및 프로그래밍 언어 의미론을 나타내는 네 가지 조건을 동시에 충족하는 성숙하고 범용적인 형태인 완전 신경 컴퓨터(Completely Neural Computer, CNC)입니다. 행동 일관성과 연결된 핵심 작동 요구 사항은 '실행/업데이트 계약(run/update contract)'입니다. 일반적인 입력은 설치된 기능을 자동으로 수정 없이 실행해야 하며, 동작을 변경하는 업데이트는 검사 및 롤백이 가능한 추적을 통해 프로그래밍 인터페이스를 통해서만 명시적으로 발생해야 합니다.

Wan2.1 기반의 두 가지 프로토타입 NC CLIGen 및 NC GUIWorld라는 두 가지 프로토타입은 모두 실험 당시 최첨단 비디오 생성 모델이었던 Wan2.1을 기반으로 구축되었으며, 그 위에 NC 특화 조건부(conditioning) 및 액션 모듈이 추가되었습니다. 두 모델은 파라미터를 공유하지 않고 별도로 학습되었습니다. 두 모델 모두 실제 환경과 상호작용하는 대신 기록된 프롬프트와 로그된 동작 스트림에서 롤아웃하는 오픈 루프 모드로 평가되었습니다.

NC CLIGen은 텍스트 프롬프트와 초기 화면 프레임에서 터미널 상호작용을 모델링하며, CLI 생성을 텍스트 및 이미지-비디오 변환 작업으로 취급합니다. CLIP 이미지 인코더가 첫 번째 프레임을 처리하고, T5 텍스트 인코더가 캡션을 임베딩하며, 이러한 조건부 특징들은 확산 노이즈(diffusion noise)와 결합되어 DiT(Diffusion Transformer) 스택에 의해 처리됩니다.

두 가지 데이터셋이 구축되었습니다: 공개 asciinema.cast 녹음에서 얻은 약 823,989개의 비디오 스트림(약 1,100시간)이 포함된 CLIGen(General)과, Docker 환경 내에서 vhs 툴킷을 사용하여 생성된 약 78,000개의 일반 트레이스와 약 50,000개의 파이썬 수학 검증 트레이스로 나뉜 CLIGen(Clean)입니다. CLIGen(General)으로 NC CLIGen을 학습시키는 데는 약 15,000 H100 GPU 시간이 소요되었고, CLIGen(Clean)은 약 7,000 H100 GPU 시간이 필요했습니다. CLIGen(General)에서의 재구성 품질은 13px 글꼴 크기에서 평균 PSNR 40.77dB 및 SSIM 0.989에 도달했습니다. Tesseract OCR을 사용하여 측정된 문자 수준 정확도는 초기화 시 0.03에서 60에서 0.54로 상승했습니다.

원문 보기
원문 보기 (영어)
Tech News AI Paper Summary Technology AI Shorts Artificial Intelligence Applications Editors Pick Language Model Large Language Model Machine Learning Software Engineering Staff Researchers from Meta AI and the King Abdullah University of Science and Technology (KAUST) have introduced Neural Computers (NCs) — a proposed machine form in which a neural network itself acts as the running computer, rather than as a layer sitting on top of one. The research team presents both a theoretical framework and two working video-based prototypes that demonstrate early runtime primitives in command-line interface (CLI) and graphical user interface (GUI) settings. What Makes This Different From Agents and World Models To understand the proposed research, it helps to place it against existing system types. A conventional computer executes explicit programs. An AI agent takes tasks and uses an existing software stack — operating system, APIs, terminals — to accomplish them. A world model learns to predict how an environment evolves over time. Neural Computers occupy none of these roles exactly. The researchers also explicitly distinguish Neural Computers (NCs) from the Neural Turing Machine and Differentiable Neural Computer line, which focused on differentiable external memory. The Neural Computer (NC) question is different: can a learning machine begin to assume the role of the running computer itself? Formally, an Neural Computer (NC) is defined by an update function F θ and a decoder G θ operating over a latent runtime state h t . At each step, the NC updates h t from the current observation x t and user action u t , then samples the next frame x t+1 . The latent state carries what the operating system stack ordinarily would — executable context, working memory, and interface state — inside the model rather than outside it. The long-term target is a Completely Neural Computer (CNC): a mature, general-purpose realization satisfying four conditions simultaneously — Turing complete, universally programmable, behavior-consistent unless explicitly reprogrammed, and exhibiting machine-native architectural and programming-language semantics. A key operational requirement tied to behavior consistency is a run/update contract: ordinary inputs must execute installed capability without silently modifying it, while behavior-changing updates must occur explicitly through a programming interface, with traces that can be inspected and rolled back. Two Prototypes Built on Wan2.1 Both prototypes — NC CLIGen and NC GUIWorld — were built on top of Wan2.1, which was the state-of-the-art video generation model at the time of the experiments, with NC-specific conditioning and action modules added on top. The two models were trained separately without shared parameters. Evaluation for both runs in open-loop mode, rolling out from recorded prompts and logged action streams rather than interacting with a live environment. NC CLIGen models terminal interaction from a text prompt and an initial screen frame, treating CLI generation as text-and-image-to-video. A CLIP image encoder processes the first frame, a T5 text encoder embeds the caption, and these conditioning features are concatenated with diffusion noise and processed by a DiT (Diffusion Transformer) stack. Two datasets were assembled: CLIGen (General), containing approximately 823,989 video streams (roughly 1,100 hours) sourced from public asciinema.cast recordings; and CLIGen (Clean), split into approximately 78,000 regular traces and approximately 50,000 Python math validation traces generated using the vhs toolkit inside Dockerized environments. Training NC CLIGen on CLIGen (General) required approximately 15,000 H100 GPU hours; CLIGen (Clean) required approximately 7,000 H100 GPU hours. Reconstruction quality on CLIGen (General) reached an average PSNR of 40.77 dB and SSIM of 0.989 at a 13px font size. Character-level accuracy, measured using Tesseract OCR, rose from 0.03 at initialization to 0.54 at 60,000 training steps, with exact-line match accuracy reaching 0.31. Caption specificity had a large effect: detailed captions (averaging 76 words) improved PSNR from 21.90 dB under semantic descriptions to 26.89 dB — a gain of nearly 5 dB — because terminal frames are governed primarily by text placement, and literal captions act as scaffolding for precise text-to-pixel alignment. One training dynamics finding worth noting: PSNR and SSIM plateau around 25,000 steps on CLIGen (Clean), with training up to 460,000 steps yielding no meaningful further gains. On symbolic computation, arithmetic probe accuracy on a held-out pool of 1,000 math problems came in at 4% for NC CLIGen and 0% for base Wan2.1 — compared to 71% for Sora-2 and 2% for Veo3.1. Re-prompting alone, by providing the correct answer explicitly in the prompt at inference time, raised NC CLIGen accuracy from 4% to 83% without modifying the backbone or adding reinforcement learning. The research team interpreted this as evidence of steerability and faithful rendering of conditioned content, not native arithmetic computation inside the model. NC GUIWorld addresses full desktop interaction, modeling each interaction as a synchronized sequence of RGB frames and input events collected at 1024×768 resolution on Ubuntu 22.04 with XFCE4 at 15 FPS. The dataset totals roughly 1,510 hours: Random Slow (~1,000 hours), Random Fast (~400 hours), and 110 hours of goal-directed trajectories collected using Claude CUA. Training used 64 GPUs for approximately 15 days per run, totaling roughly 23,000 GPU hours per full pass. The research team evaluated four action injection schemes — external, contextual, residual, and internal — differing in how deeply action embeddings interact with the diffusion backbone. Internal conditioning, which inserts action cross-attention directly inside each transformer block, achieved the best structural consistency (SSIM +15 of 0.863, FVD +15 of 14.5). Residual conditioning achieved the best perceptual distance (LPIPS +15 of 0.138). On cursor control, SVG mask/reference conditioning raised cursor accuracy to 98.7%, against 8.7% for coordinate-only supervision — demonstrating that treating the cursor as an explicit visual object to supervise is essential. Data quality proved as consequential as architecture: the 110-hour Claude CUA dataset outperformed roughly 1,400 hours of random exploration across all metrics (FVD: 14.72 vs. 20.37 and 48.17), confirming that curated, goal-directed data is substantially more sample-efficient than passive collection. What Remains Unsolved The research team has honestly being direct about the gap between current prototypes and the CNC definition. Stable reuse of learned routines, reliable symbolic computation, long-horizon execution consistency, and explicit runtime governance are all open. The roadmap they outline centers on three acceptance lenses: install–reuse, execution consistency, and update governance. Progress on all three, the research team argues, is what would make Neural Computers look less like isolated demonstrations and more like a candidate machine form for next-generation computing. Key Takeaways Neural Computers propose making the model itself the running computer. Unlike AI agents that operate through existing software stacks, NCs aim to fold computation, memory, and I/O into a single learned runtime state — eliminating the separation between the model and the machine it runs on. Early prototypes show measurable interface primitives. Built on Wan2.1, NCCLIGen reached 40.77 dB PSNR and 0.989 SSIM on terminal rendering, and NC GUIWorld achieved 98.7% cursor accuracy using SVG mask/reference conditioning — confirming that I/O alignment and short-horizon control are learnable from collected interface traces. Data quality matters more than data scale. In GUI experiments, 110 hours of goal-directed trajectories from Claude CUA outperformed roughly 1,400 hours of random exploration across all metrics, establish