클로드로 금융 AI 검증 계층을 구축한 케플러
금융 데이터 플랫폼 케플러(Kepler)는 앤스로픽의 AI 모델 '클로드(Claude)'를 활용해 출처가 투명하게 검증되는 금융 AI 시스템을 구축했습니다. 이들은 2,600만 건 이상의 금융 데이터를 분석하여 수치의 오류를 원문 라인 단위로 추적할 수 있는 인프라를 만들었으며, 특히 복잡한 금융 분석에서 다른 모델들이 중간에 논리를 잃는 현상을 클로드를 통해 방지했습니다. 이는 규제가 엄격해 AI 활용에 신뢰가 필수적인 금융 산업에 투명성과 실무적 정확성을 제공한다는 점에서 중요합니다.
원문 제목: 케플러는 어떻게 금융 서비스를 위한 검증 가능한 AI를 클로드와 함께 구축했는가 소스: 해커뉴스(hackernews)
본문: 케플러는 어떻게 금융 서비스를 위한 검증 가능한 AI를 클로드와 함께 구축했는가
이 글은 2,600만 건 이상의 SEC 공시 자료, 실적 발표(어닝 콜) 트랜스크립트, IR(투자자 관계) 프레젠테이션, 컨센서스 추정치 및 27개 글로벌 시장의 14,000개 이상 기업에 걸친 민간 데이터를 색인화(Indexing)하는 플랫폼의 내부를 살펴봅니다. 또한 이를 개발한 팀이 모든 숫자를 정확한 공시 문서, 페이지, 그리고 세부 항목(Line item)에 대해 검증할 수 있도록 AI를 어떻게 구축했는지 설명합니다.
카테고리: 엔터프라이즈 AI(Enterprise AI) 제품: 클로드(Claude) 플랫폼: 클로드 플랫폼 날짜: 2026년 4월 30일 읽는 시간: 5분 공유 및 링크 복사: https://claude.com/blog/how-kepler-built-verifiable-ai-for-financial-services-with-claude
스타트업이 클로드로 빌드하는 방법(How startups build with Claude) 시리즈에서는 AI로 산업을 혁신하는 스타트업들의 사례를 조명합니다. 이번 글에서는 케플러(Kepler)가 금융 서비스 분야를 위한 AI 신뢰 및 검증 계층을 어떻게 구축했는지 공유합니다.
금융 회사들은 감사 가능성과 책임성이 요구되는 매우 엄격한 규제 환경에서 운영됩니다. 규제 보고서, 딜 피치(Deal pitch) 또는 리서치 보고서의 모든 수치는 원본 문서(Source documents)를 기반으로 검증 가능해야 합니다. 금융 산업이 전통적으로 의존해 온 도구들은 데이터를 추출할 수 있지만, 그 검증 과정에는 여전히 분석가의 개입이 필요합니다. 기존 분석 시스템은 자연어로 된 질문을 이해하거나, 이를 여러 단계로 세분화하거나, 단일 지표를 계산하기 위해 특정 회계 연도의 서로 다른 세 가지 항목을 가져와야 한다는 것을 스스로 파악하지 못합니다.
AI 시스템은 이러한 해석을 수행할 수 있지만, 계산과 동일한 단계에서 처리하므로 생성되는 숫자는 결국 모델이 만들어낸 것입니다. 이 과정에서 모델은 실수를 할 수 있습니다. 비누 가네시(Vinoo Ganesh)와 존 맥레이븐(John McRaven)은 팔란티어(Palantir)에서 국방, 에너지 및 금융 회사를 위한 데이터 시스템을 수년간 구축했습니다. 그 과정에서 답변에 대한 검증이 필수적인 환경에서 신뢰를 어떻게 다뤄야 하는지에 대한 통찰을 얻었습니다.
케플러를 창립하기 전, 이들은 사모펀드(PE), 헤지펀드, 투자은행(IB) 등 147개의 금융 회사와 대화를 나눴고, 거의 모든 곳에서 동일한 이야기를 들었습니다. 모두가 리서치에 AI를 사용하고 싶어 했지만, 아무도 그 결과를 신뢰하지 않았습니다. 한 이사(Managing Director)가 그들에게 한 말처럼, "제가 감사(Audit)할 수 없는 것을 어떻게 신뢰할 수 있겠습니까?"
이에 대한 이들의 해결책은 AI를 위한 신뢰 및 검증 계층 역할을 하는 '결정론적 인프라(Deterministic infrastructure)'를 구축하는 것이었습니다. 이 인프라는 추론 및 해석 계층인 클로드와 함께 케플러 파이낸스(Kepler Finance)를 구동합니다. 케플러 파이낸스는 분석가들이 자연어(Plain English)로 질문하고 즉시 검증 가능한 답변을 받을 수 있도록 설계된 금융 서비스용 리서치 플랫폼입니다.
길고 다단계적인 작업 처리 및 모호성 표시 금융 분석은 복잡하고 다단계적인 계산, 조밀한 데이터, 과도한 전문 용어를 포함하며 오류를 용납하지 않습니다. 이를 염두에 두고 케플러는 긴 계획을 일관되게 유지하면서도 모호성을 표시할 수 있는 모델이 필요했습니다. 예를 들어, 분석가가 지난 8개 분기 동안의 특정 기업의 재고 회전일(Inventory days outstanding)을 요청하면, 모델은 답변에 필요한 요소(올바른 공식, 정확한 회계 기간, 숫자에 영향을 미칠 수 있는 재추정 여부 등)를 파악해야 합니다.
팀은 모든 최신 프론티어 모델(Frontier models)을 대상으로 벤치마크 테스트를 진행했습니다. 단순한 쿼리(질의)에서는 모델들의 성능이 비슷했습니다. 하지만 상호 의존성이 있는 길고 다단계적인 계획으로 넘어가자, 클로드를 제외한 모든 모델이 네 번째나 다섯 번째 단계에 이르러 지름길을 택하거나 제약 조건을 잃어버리기 시작했습니다.
"우리의 워크로드(Workloads)에서 클로드는 유일하게 계획을 끝까지 일관되게 유지하는 모델이었습니다." 가네시는 말합니다. "다른 모델들은 초기에 강하게 시작했다가 다섯 번째 단계쯤 조용히 제약 조건 하나를 놓쳤습니다."
가장 명확한 차이는 각 모델이 불확실성을 처리하고 사람이 개입(Humans in the loop)할 수 있도록 유지하는 방식이었습니다. 예를 들어, 하나의 용어가 두 가지 다른 의미를 가질 수 있는 상황에서 대부분의 모델은 한 가지 의미를 임의로 선택해 작업을 계속 진행했습니다. 반면 클로드는 진행을 멈추고 분석가에게 결정을 요청했습니다.
"이러한 동작 방식은 어떤 벤치마크 점수보다 중요합니다." 가네시는 강조합니다. "금융 분석 초기에 잘못된 가정을 세우면, 그 이후의 모든 파이프라인이 완전히 망가지게 됩니다."
클로드를 둘러싼 컨텍스트(Context) 엔지니어링 케플러 팀은 구조화된 도메인 데이터(Domain data)로 보강되어 명확하게 정의된 작업(Task)이 주어졌을 때 클로드가 더 나은 결과를 생성한다는 것을 발견했습니다.