500명 투자은행가 평가, 고객 전달 가능한 AI 결과물은 0%
Handshake AI와 맥길 대학교 연구진이 주니어 투자은행가의 실무를 테스트하는 오픈소스 벤치마크 'BankerToolBench'를 공개했습니다. 골드만삭스, JP모건 등 현직 및 전직 은행가 500명이 참여해 최신 AI 모델들의 결과물을 평가한 결과, 고객에게 바로 전달할 수 있는 결과물은 단 하나도 없었습니다. 1위를 차지한 GPT-5.4조차 절반 가까운 기준에서 탈락했으며, 특히 클로드 모델들은 핵심 수치를 수식이 아닌 고정값으로 처리하는 치명적인 오류를 보여 실무 적용의 높은 한계를 드러냈습니다.
500명의 투자은행가들이 AI 결과물을 검토한 결과, 고객에게 전달할 준비가 된 것은 단 하나도 없었습니다. (작성자: Jonathan Kemper, 2026년 4월 26일)
새로운 벤치마크는 GPT-5.4와 Claude Opus 4.6 같은 최고 수준의 모델들을 주니어 투자은행가들이 매일 처리하는 업무에 투입했습니다. 단 하나의 결과물도 고객에게 보낼 준비가 된 것으로 간주되지 않았습니다. 그럼에도 불구하고 절반 이상의 은행가들이 이를 업무의 시작점으로 사용할 의향이 있다고 밝혔습니다.
Handshake AI와 맥길 대학교(McGill University)의 연구진은 주니어 투자은행가들의 일반적인 업무 흐름에 대해 AI 에이전트를 테스트하는 오픈소스 벤치마크인 'BankerToolBench'를 공개했습니다. Handshake AI는 경력 플랫폼인 Handshake의 비즈니스 부서로, 검증된 학계 및 업계 전문가들을 AI 연구소에 배치하여 모델 학습 및 평가를 돕는 역할을 합니다.
현재 사용 가능한 9개의 최고 수준 모델들을 테스트한 결과, 참여한 은행가들의 평가는 매우 직설적이었습니다. 어떤 결과물도 고객이 직접 사용하기에는 부적합했습니다. 연구진은 골드만삭스(Goldman Sachs), JP모건(JPMorgan), 에버코어(Evercore), 모건스탠리(Morgan Stanley), 라자드(Lazard) 등의 기업 소속 현직 및 전직 투자은행가 약 500명을 모집했습니다. 그중 172명이 직접 과제를 설계했으며, 5,700시간 이상의 작업 시간을 기록했습니다. 100개의 과제 각각은 인간 은행가가 평균 5시간이 걸렸으며, 최대 21시간이 소요되기도 했습니다.
단순한 텍스트 대답이 아닌 실제 엑셀 모델 BankerToolBench는 주니어 은행가가 상사에게 전달할 실제 산출물, 즉 공식이 작동하는 엑셀 재무 모델, 고객 회의용 파워포인트 프레젠테이션, PDF 보고서 및 워드 메모를 평가합니다. 에이전트는 데이터 룸을 뒤지고 FactSet 및 Capital IQ 같은 시장 데이터 플랫폼에서 정보를 가져오며 SEC 공시 자료를 분석해야 합니다. 연구 논문에 따르면, 단일 작업에 대해 최대 539회의 언어모델 호출이 발생하며, 그중 97%는 도구 사용(Tool use)이나 코드 실행과 관련되어 있습니다. 각 산출물은 은행가가 설계한 평균 150개의 개별 기준에 따라 검사됩니다. 이 기준은 기술적 정확성, 고객 준비도, 규정 준수, 감사 가능성 및 파일 간 일관성 등 6개 영역에 걸쳐 있습니다. 평가는 연구진이 구축한 Gemini 3 Flash Preview 기반의 AI 검증기인 'Gandalf'가 처리합니다. 이 검증기는 인간 검토자와 88.2%의 일치율을 보였으며, 이는 두 명의 인간 검토자 간의 84.6% 일치율보다 약간 높은 수치입니다.
GPT-5.4가 선두, 하지만 합격점에는 한참 못 미쳐 연구진은 GPT-5.2, GPT-5.4, Claude Opus 4.5 및 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, 그리고 오픈소스 모델인 Qwen-3.5-397B 및 GLM-5를 테스트했습니다. GPT-5.4가 가장 높은 성능을 보였지만 여전히 거의 절반 가까운 기준에서 탈락했습니다. 은행가들이 유용한 시작점으로 받아들일 수 있는 기준을 통과한 결과물은 단 16%에 불과했습니다. 3번의 일관된 실행을 요구하면 이 수치는 13%로 떨어집니다. 모든 모델에서 고객에게 그대로 제출할 준비가 되었다고 평가받은 결과물은 단 하나도 없었습니다. GPT-5.4의 경우 모든 핵심 가중치 기준을 통과한 작업은 단 2%에 불과했습니다. Gemini 2.5 Pro의 경우 이 수치는 0%였습니다.
겉보기엔 그럴듯하지만 속은 엉망 연구진에 따르면 Claude Opus 4.6의 결과물은 언뜻 보기에는 세련되어 보입니다. 하지만 엑셀 모델을 들여다보면 근본적인 결함이 드러납니다. 대부분의 핵심 숫자가 공식을 통해 계산된 것이 아니라 고정된 값으로 하드코딩(Hardcoded) 되어 있습니다. 논문은 이것이 시나리오 분석을 불가능하게 만들기 때문에 투자은행 업무에서는 치명적인 문제라고 지적합니다. 모델에서 매수 가격을 변경해도 아무런 수치도 업데이트되지 않는 방식입니다. Claude Opus 4.5 역시 동일한 문제를 보였습니다.
GPT-5.4의 에이전트 궤적을 분석한 결과, 4가지 반복적인 실패 유형이 나타났습니다. 41%로 가장 흔한 오류는 코드 및 공식 생성의 버그입니다. 에이전트는 존재하지 않는 python-pptx 함수를 호출하고, 근본적인 문제를 해결하는 대신 단순히 오류가 발생한 코드 줄을 삭제해 버립니다. 27%의 경우에서는 매출 항목에 비용 시너지를 더하는 등 비즈니스 로직이 파괴되는 현상이 발생했습니다. 18%의 오류는 중단된 데이터 쿼리에서 비롯되었습니다. 그리고 13%의 경우, 에이전트는 누락된 숫자를 조작하여 마치 출처가 있는 것처럼 위조해 전달하는 모습을 보였습니다.