AI 에이전트, 개발자를 대체하지 않고 소프트웨어 엔지니어링을 확장하다
새로운 연구에 따르면, AI 에이전트는 소프트웨어 엔지니어를 도태시키는 것이 아니라 프롬프트, 워크플로우 등 '반실행 가능한 산출물(Semi-executable artifacts)'을 중심으로 엔지니어링의 영역을 확장합니다. 개발자의 핵심 역할은 단순한 코드 작성에서 '무엇을 만들고 변경할 것인가'를 결정하는 고차원적 판단 및 시스템 설계로 이동하고 있습니다. AI로 인한 신뢰성 문제나 프롬프트 변동성(Drift) 같은 기존의 비판들은 오히려 새로운 엔지니어링 과제로 재정의되어야 한다고 강조합니다.
AI 에이전트가 프로그래밍 작업을 점점 더 많이 삼키고 있으며 개발자들은 도태될 것이라는게 대중적인 이야기입니다. 그러나 샬머스 공과대학교(Chalmers University of Technology)와 볼보 그룹(Volvo Group) 연구진의 새로운 논문은 이러한 관점이 핵심을 놓치고 있다고 주장합니다.
연구진은 다른 관점을 제시합니다. 즉, 에이전트 기반 AI 시스템은 '반실행 가능한 산출물(semi-executable artifacts)'이라고 부르는 것들을 통해 소프트웨어 엔지니어링을 확장합니다. 여기에는 프롬프트, 워크플로우, 정책, 에스컬레이션 규칙, 의사결정 루틴이 포함됩니다. 이들은 코드와 마찬가지로 시스템 동작을 직접적으로 형성하지만, 실제 실행되기 위해서는 사람의 개입이나 확률론적 해석에 의존합니다.
단순한 코드를 넘어선 6개의 링 이 논문의 핵심은 6개의 링(Ring)으로 구축된 진단 모델인 '반실행 가능 스택(Semi-Executable Stack)'입니다. 중심에는 전통적인 코드가 링 1로 자리 잡고 있으며, 그 다음으로 프롬프트와 자연어 명세가 링 2, 오케스트레이션된 에이전트 워크플로우가 링 3을 구성합니다. 링 4는 가드레일(guardrails) 및 모니터링과 같은 제어 시스템을 다룹니다. 링 5는 의사결정 루틴과 같은 운영 조직 로직을 나타냅니다. 마지막으로 링 6은 EU AI 법안과 같은 프레임워크를 포함하여 사회적, 제도적 적합성을 포착합니다.
저자들은 소프트웨어 엔지니어링이 역사적으로 링 1과 링 2에 집중되어 왔다고 지적합니다. 이제 링 2부터 링 5까지는 우선순위가 높은 엔지니어링 대상으로 변모하고 있으며, 링 6은 실제 실무에서 무엇이 작동하는지를 점점 더 결정짓는 역할을 합니다.
연구진에 따르면 가장 큰 격차는 외곽의 링 5와 링 6에 존재합니다. 코드를 위한 엔지니어링 방법론은 수십 년 동안 존재해 왔지만, 의사결정 루틴, 거버넌스 및 제도적 적합성에 상응하는 방법론은 여전히 부족합니다. 대부분의 연구는 계속해서 링 1부터 3까지의 코드 생성, 버그 수정, 테스트 및 벤치마크에 집중되어 있습니다.
연구진은 이러한 주장을 뒷받침하는 세 가지 관찰 결과를 제시합니다. 첫째, AI가 팀의 작업 방식을 바꾸기 위해 최고 수준의 엔지니어와 일치할 필요는 없으며, 그저 충분히 좋기만 하면 됩니다. 둘째, 최고 수준의 성능보다는 규모가 더 중요합니다. 소수의 최고 전문가에 대한 드문 접근보다, 작고 일상적인 다수의 AI 배포가 조직에 더 많은 가치를 제공합니다. 셋째, 더 많은 도메인 전문가가 자연어를 사용하여 자체 시스템을 구축함에 따라 체계적인 엔지니어링 실무의 필요성은 줄어드는 대신 오히려 커지고 있습니다.
일반적인 반대 의견이 엔지니어링 문제로 전환되다 연구진은 신뢰성, 엉망인 코드 등에 대한 일반적인 비판을 무시하는 대신, 이를 엔지니어링 작업으로 재구성합니다. 에이전트가 환각(Hallucination)을 일으킬 때 테스트와 모니터링은 줄어드는 것이 아니라 오히려 더 중요해집니다. AI가 코드를 더 빨리 쏟아낼수록 유지 관리 비용도 함께 증가합니다. 예를 들어, 누군가 프롬프트를 수정했는데 시스템이 다르게 동작하기 시작하고 나중에 그 이유를 아무도 알 수 없는 '프롬프트 드리프트(Prompt drift)' 현상을 들 수 있습니다. 조직이 이러한 변화로 어려움을 겪을 때, 전환 과정 자체가 엔지니어링 과제가 됩니다.
연구진은 "미묘한 판단을 자동화하기 어렵다는 사실은, 저수준 작업이 더 저렴하고 자동화됨에 따라 그러한 고차원적 판단이 덜 가치 있어지는 것이 아니라 오히려 더 가치 있어지는 이유가 확실하다"고 말합니다.
실무자들에게 이 논문은 한 가지를 명확히 합니다. "부족한 기술(Scarce skill)은 더 빠르게 구축하는 것에서, 구축하거나 변경할 가치가 있는 것이 무엇인지, 그리고 실제로 변경되고 있는 것이 어느 링(Ring)인지 결정하는 것으로 이동하고 있습니다."