메뉴
BL
The Decoder 35일 전

500명 투자은행가 평가, 고객 전달 가능한 AI 결과물은 0%

IMP
8/10
핵심 요약

Handshake AI와 맥길 대학교 연구진이 주니어 투자은행가의 실무를 테스트하는 오픈소스 벤치마크 'BankerToolBench'를 공개했습니다. 골드만삭스, JP모건 등 현직 및 전직 은행가 500명이 참여해 최신 AI 모델들의 결과물을 평가한 결과, 고객에게 바로 전달할 수 있는 결과물은 단 하나도 없었습니다. 1위를 차지한 GPT-5.4조차 절반 가까운 기준에서 탈락했으며, 특히 클로드 모델들은 핵심 수치를 수식이 아닌 고정값으로 처리하는 치명적인 오류를 보여 실무 적용의 높은 한계를 드러냈습니다.

번역된 본문

500명의 투자은행가들이 AI 결과물을 검토한 결과, 고객에게 전달할 준비가 된 것은 단 하나도 없었습니다. (작성자: Jonathan Kemper, 2026년 4월 26일)

새로운 벤치마크는 GPT-5.4와 Claude Opus 4.6 같은 최고 수준의 모델들을 주니어 투자은행가들이 매일 처리하는 업무에 투입했습니다. 단 하나의 결과물도 고객에게 보낼 준비가 된 것으로 간주되지 않았습니다. 그럼에도 불구하고 절반 이상의 은행가들이 이를 업무의 시작점으로 사용할 의향이 있다고 밝혔습니다.

Handshake AI와 맥길 대학교(McGill University)의 연구진은 주니어 투자은행가들의 일반적인 업무 흐름에 대해 AI 에이전트를 테스트하는 오픈소스 벤치마크인 'BankerToolBench'를 공개했습니다. Handshake AI는 경력 플랫폼인 Handshake의 비즈니스 부서로, 검증된 학계 및 업계 전문가들을 AI 연구소에 배치하여 모델 학습 및 평가를 돕는 역할을 합니다.

현재 사용 가능한 9개의 최고 수준 모델들을 테스트한 결과, 참여한 은행가들의 평가는 매우 직설적이었습니다. 어떤 결과물도 고객이 직접 사용하기에는 부적합했습니다. 연구진은 골드만삭스(Goldman Sachs), JP모건(JPMorgan), 에버코어(Evercore), 모건스탠리(Morgan Stanley), 라자드(Lazard) 등의 기업 소속 현직 및 전직 투자은행가 약 500명을 모집했습니다. 그중 172명이 직접 과제를 설계했으며, 5,700시간 이상의 작업 시간을 기록했습니다. 100개의 과제 각각은 인간 은행가가 평균 5시간이 걸렸으며, 최대 21시간이 소요되기도 했습니다.

단순한 텍스트 대답이 아닌 실제 엑셀 모델 BankerToolBench는 주니어 은행가가 상사에게 전달할 실제 산출물, 즉 공식이 작동하는 엑셀 재무 모델, 고객 회의용 파워포인트 프레젠테이션, PDF 보고서 및 워드 메모를 평가합니다. 에이전트는 데이터 룸을 뒤지고 FactSet 및 Capital IQ 같은 시장 데이터 플랫폼에서 정보를 가져오며 SEC 공시 자료를 분석해야 합니다. 연구 논문에 따르면, 단일 작업에 대해 최대 539회의 언어모델 호출이 발생하며, 그중 97%는 도구 사용(Tool use)이나 코드 실행과 관련되어 있습니다. 각 산출물은 은행가가 설계한 평균 150개의 개별 기준에 따라 검사됩니다. 이 기준은 기술적 정확성, 고객 준비도, 규정 준수, 감사 가능성 및 파일 간 일관성 등 6개 영역에 걸쳐 있습니다. 평가는 연구진이 구축한 Gemini 3 Flash Preview 기반의 AI 검증기인 'Gandalf'가 처리합니다. 이 검증기는 인간 검토자와 88.2%의 일치율을 보였으며, 이는 두 명의 인간 검토자 간의 84.6% 일치율보다 약간 높은 수치입니다.

GPT-5.4가 선두, 하지만 합격점에는 한참 못 미쳐 연구진은 GPT-5.2, GPT-5.4, Claude Opus 4.5 및 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, 그리고 오픈소스 모델인 Qwen-3.5-397B 및 GLM-5를 테스트했습니다. GPT-5.4가 가장 높은 성능을 보였지만 여전히 거의 절반 가까운 기준에서 탈락했습니다. 은행가들이 유용한 시작점으로 받아들일 수 있는 기준을 통과한 결과물은 단 16%에 불과했습니다. 3번의 일관된 실행을 요구하면 이 수치는 13%로 떨어집니다. 모든 모델에서 고객에게 그대로 제출할 준비가 되었다고 평가받은 결과물은 단 하나도 없었습니다. GPT-5.4의 경우 모든 핵심 가중치 기준을 통과한 작업은 단 2%에 불과했습니다. Gemini 2.5 Pro의 경우 이 수치는 0%였습니다.

겉보기엔 그럴듯하지만 속은 엉망 연구진에 따르면 Claude Opus 4.6의 결과물은 언뜻 보기에는 세련되어 보입니다. 하지만 엑셀 모델을 들여다보면 근본적인 결함이 드러납니다. 대부분의 핵심 숫자가 공식을 통해 계산된 것이 아니라 고정된 값으로 하드코딩(Hardcoded) 되어 있습니다. 논문은 이것이 시나리오 분석을 불가능하게 만들기 때문에 투자은행 업무에서는 치명적인 문제라고 지적합니다. 모델에서 매수 가격을 변경해도 아무런 수치도 업데이트되지 않는 방식입니다. Claude Opus 4.5 역시 동일한 문제를 보였습니다.

GPT-5.4의 에이전트 궤적을 분석한 결과, 4가지 반복적인 실패 유형이 나타났습니다. 41%로 가장 흔한 오류는 코드 및 공식 생성의 버그입니다. 에이전트는 존재하지 않는 python-pptx 함수를 호출하고, 근본적인 문제를 해결하는 대신 단순히 오류가 발생한 코드 줄을 삭제해 버립니다. 27%의 경우에서는 매출 항목에 비용 시너지를 더하는 등 비즈니스 로직이 파괴되는 현상이 발생했습니다. 18%의 오류는 중단된 데이터 쿼리에서 비롯되었습니다. 그리고 13%의 경우, 에이전트는 누락된 숫자를 조작하여 마치 출처가 있는 것처럼 위조해 전달하는 모습을 보였습니다.

원문 보기
원문 보기 (영어)
500 investment bankers review AI outputs and find none ready for client delivery Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper Apr 26, 2026 Nano Banana Pro prompted by THE DECODER A new benchmark puts top models like GPT-5.4 and Claude Opus 4.6 to work on the kinds of tasks junior investment bankers handle every day. Not a single output was deemed ready to send to a client. Still, more than half of the bankers said they'd use it as a starting point. A research team at Handshake AI and McGill University has released BankerToolBench, an open-source benchmark that tests AI agents against the typical workflows of junior investment bankers. Handshake AI is the business arm of the career platform Handshake, which places vetted academics and professionals inside AI labs to help train and evaluate their models. After running nine current top models through the test, the verdict from the bankers involved is blunt: none of the outputs are fit for client use. The team enlisted around 500 current and former investment bankers from firms including Goldman Sachs, JPMorgan, Evercore, Morgan Stanley, and Lazard. Of those, 172 designed the tasks themselves, logging more than 5,700 hours of work. Each of the 100 tasks took a human banker an average of five hours, with some running up to 21 hours. Real Excel models, not just text answers BankerToolBench grades the actual deliverables a junior banker would hand to a supervisor: Excel financial models with working formulas, PowerPoint decks for client meetings, PDF reports, and Word memos. The agents have to dig through data rooms, pull from market data platforms like FactSet and Capital IQ, and parse SEC filings. According to the paper, a single task can trigger up to 539 calls to the language model, with 97 percent tied to tool use or code execution. Each deliverable is checked against a banker-designed rubric averaging 150 individual criteria. The criteria span six areas, including technical correctness, client readiness, compliance, auditability, and consistency across files. Grading is handled by an AI verifier the authors built called Gandalf, based on Gemini 3 Flash Preview. It agrees with human reviewers 88.2 percent of the time, slightly above the 84.6 percent agreement rate between two human reviewers. GPT-5.4 leads, but it's not close to passing The team tested GPT-5.2, GPT-5.4, Claude Opus 4.5 and 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, and the open-source models Qwen-3.5-397B and GLM-5. GPT-5.4 came out on top but still failed nearly half the criteria. Just 16 percent of its outputs cleared the bar where bankers would accept them as a useful starting point. Require three consistent runs, and that figure drops to 13 percent. Not a single output from any model was deemed ready to submit as is. With GPT-5.4, just 2 percent of tasks cleared every critically weighted criterion. With Gemini 2.5 Pro, that figure was zero. Pretty on the outside, broken underneath Claude Opus 4.6's outputs look polished at first glance, according to the researchers. But the Excel models reveal a fundamental flaw: most of the key numbers are hardcoded as fixed values rather than calculated through formulas. That's a dealbreaker in investment banking, the paper notes, because it makes scenario analysis impossible. Change the purchase price in the model, and nothing updates. Claude Opus 4.5 had the same problem. An analysis of GPT-5.4's agent trajectories surfaces four recurring failure modes. The most common, at 41 percent, are bugs in code and formula generation. The agents call python-pptx functions that don't exist, and rather than fixing the underlying issue, they simply delete the broken line. In 27 percent of cases, the business logic breaks down, such as adding cost synergies to the revenue line instead of to costs. Another 18 percent of errors stem from aborted data queries. And in 13 percent of cases, agents fabricate missing numbers and pass them off as sourced. Subtle errors that slip through The examples in the paper illustrate how subtle these failures can be. In one generated deck, the verifier flags a revenue figure of $189.5 billion on one slide and $201.0 billion on the next, both covering the same period. In another case, the agent uses Netflix red as an accent color even though the bank's style guide mandates a uniform blue. In a competitive analysis for a pharma deal, an agent fabricated specific clinical trial data after coming up empty in the SEC database. The models generally perform better on PowerPoint tasks than on Excel work. The toughest tasks fall in debt capital markets, merger models, and capital structure tables. The team attributes some of the shortfall to missing domain knowledge. When tasks are enriched with the kind of context bankers take for granted, scores rise significantly. A training tool, too BankerToolBench can also be used for reinforcement learning, according to the authors. In experiments with Qwen-3-4B and 32B, the Dr. GRPO and DPO methods boosted benchmark performance by a factor of five to thirteen, though from a very low baseline. The team flags several limits: the benchmark is US-focused, lacks confidential deal information, and doesn't capture the iterative teamwork inside a real bank. Even so, the authors call it one of the most detailed tests yet of whether AI agents can handle demanding knowledge work. For now, the answer is no. The full benchmark, including data, rubrics, and verifier, is publicly available . The findings line up with other recent research. A Vals.ai study conducted with a globally systemic bank found that OpenAI's o3 hit just 48.3 percent accuracy on financial analysis tasks. UC Berkeley research concluded that the teams getting agents to work in production are relying on simple, tightly controlled setups with few steps. And an analysis from Carnegie Mellon and Stanford argues that agent development has focused too narrowly on coding tasks, leaving economically important fields like management, law, and finance largely absent from benchmarks. Meanwhile, AI labs like Anthropic are working on exactly the weaknesses BankerToolBench exposes. Anthropic recently introduced a feature that lets Claude switch on its own between Excel and PowerPoint , and Cowork plugins now pipe market data services like FactSet, MSCI, and LSEG directly into the workflow. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by humans. More than 16% discount. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->