AI 에이전트의 사고와 행동은 '코드'가 중심이다
메타, 스탠퍼드, UIUC 연구진의 새 리뷰 논문에 따르면, 코드는 AI 에이전트가 단순히 생성하는 결과물을 넘어 스스로 추론하고 행동하며 협력하는 핵심 기반입니다. 모델을 감싸는 '하니스(harness)'라는 소프트웨어 레이어가 상태가 없는 언어 모델을 지속적인 작업이 가능한 에이전트로 변환하며, 이는 실제 상용 시스템에도 적용되고 있습니다. 하지만 현재의 소프트웨어 테스트는 리스크를 감추기 쉬우므로, 더 투명한 평가 메커니즘이 필수적으로 요구됩니다.
새로운 리뷰 논문, "AI 에이전트의 사고와 행동은 '코드'가 중심이다"
일리노이 대학교 어배너-섐페인(UIUC), 메타(Meta), 스탠퍼드(Stanford) 연구진의 새로운 리뷰 논문은 우리가 AI 에이전트를 바라보는 방식을 바꾸고자 합니다. 이들의 주장은 코드가 에이전트가 추론하고, 행동하며, 함께 일하는 데 사용하는 기반이라는 것입니다. 따라서 자율 시스템의 진정한 병목 현상은 모델을 감싸고 있는 소프트웨어 레이어가 되며, 이는 게리 마커스(Gary Marcus)를 매우 기쁘게 할 것입니다.
저자들은 이 레이어를 '하니스(harness)'라고 부르며, 여기에는 도구와 인터페이스부터 샌드박스 실행 환경, 메모리, 테스트, 권한 경계, 실행 루프, 피드백 채널에 이르기까지 모든 것이 포함됩니다. 이것이 없다면 언어 모델은 단지 상태가 없는(stateless) 모델일 뿐입니다. 이것이 있으면 모델은 긴 시간 동안 작업을 수행할 수 있는 실제 에이전트가 됩니다.
왜 코드가 적절한 형식인가 저자들은 코드를 에이전트 동작의 실행되는 부분으로 간주하며, 그 이유로 몇 가지를 제시합니다. 코드는 실행 가능하므로 모델의 출력이 실제로 확인할 수 있는 작업이 됩니다. 중간 계산이 시스템이 읽고 저장할 수 있는 구조화된 추적으로 나타나기 때문에 추적 가능합니다. 그리고 실행 중인 프로그램이 작업 진행 상황을 에이전트가 나중에 다시 가져갈 수 있는 형태로 기록하기 때문에 여러 단계에 걸쳐 유지됩니다.
논문은 장기 실행되는 에이전트 시스템을 세 부분으로 나눕니다. 추론 및 계획과 같은 모델 자체의 기능이 있습니다. 그다음으로 시스템이 제공하는 인프라가 있습니다. 마지막으로 에이전트가 즉석에서 작성하는 코드로, 테스트 스크립트나 일회성 도우미 도구에서 재사용 가능한 기술과 실행 가능한 워크플로에 이르기까지 모든 것을 포함합니다. 저자들은 이러한 자가 생성 산출물(self-generated artifacts)에 대한 연구가 턱없이 부족하다고 말합니다.
분야를 조직화하는 세 가지 레이어 첫 번째 레벨에서 코드는 모델과 환경을 연결합니다. Program-of-Thoughts나 Chain-of-Code와 같은 방법은 실제 계산을 단어로 설명하는 대신 실행 가능한 프로그램으로 오프로드합니다. Code as Policies와 같은 다른 시스템은 자연어 지침을 로봇 제어 코드로 직접 변환합니다.
두 번째 레벨은 에이전트가 여러 단계에 걸쳐 안정적으로 유지되는 것을 다룹니다. 여기에는 계획, 메모리, 도구 사용, 그리고 계획-실행-검증의 반복적인 주기가 포함됩니다. 이 주기는 일회성 문제 해결을 체계적인 검사로 대체합니다. 계획은 에이전트가 변경하려는 내용을 명시합니다. 실행은 정의된 권한을 가진 샌드박스 환경에서 실행됩니다. 그런 다음 검증 단계에서 결과를 수락할지, 수정할지, 아니면 사람 검토자에게 넘길지 결정합니다.
세 번째 레벨은 여러 에이전트가 함께 작업하는 것에 관한 것입니다. 코드 모음, 테스트, 실행 로그는 공유 작업 공간이 되어 관리자, 기획자, 코더, 검토자, 테스터와 같은 전문 역할이 작업을 분담합니다. ChatDev 및 MetaGPT와 같은 시스템이 이를 실천하고 있으며, 연구원들에 따르면 이는 이미 실제 제품으로 출시되고 있습니다. Claude Code는 이제 풀 리퀘스트 리뷰를 AI 에이전트 팀 전체에 위임하여 버그, 보안 결함, 회귀를 병렬로 스캔할 수 있습니다(단, 에이전트가 직접 변경을 승인할 수는 없습니다).
프로덕션 시스템은 이미 이 패턴을 따르고 있습니다. Claude Code와 OpenAI의 Codex와 같은 상용 시스템은 이미 이 원칙에 따라 작동하지만 저자들은 잘못된 신뢰에 대해 경고합니다. 현재의 소프트웨어 테스트는 종종 불완전하며 위험을 가릴 수 있으므로, 더 투명한 평가 메커니즘이 필수적입니다.