메뉴
HN
Hacker News 27일 전

클로드로 금융 AI 검증 계층을 구축한 케플러

IMP
8/10
핵심 요약

금융 데이터 플랫폼 케플러(Kepler)는 앤스로픽의 AI 모델 '클로드(Claude)'를 활용해 출처가 투명하게 검증되는 금융 AI 시스템을 구축했습니다. 이들은 2,600만 건 이상의 금융 데이터를 분석하여 수치의 오류를 원문 라인 단위로 추적할 수 있는 인프라를 만들었으며, 특히 복잡한 금융 분석에서 다른 모델들이 중간에 논리를 잃는 현상을 클로드를 통해 방지했습니다. 이는 규제가 엄격해 AI 활용에 신뢰가 필수적인 금융 산업에 투명성과 실무적 정확성을 제공한다는 점에서 중요합니다.

번역된 본문

원문 제목: 케플러는 어떻게 금융 서비스를 위한 검증 가능한 AI를 클로드와 함께 구축했는가 소스: 해커뉴스(hackernews)

본문: 케플러는 어떻게 금융 서비스를 위한 검증 가능한 AI를 클로드와 함께 구축했는가

이 글은 2,600만 건 이상의 SEC 공시 자료, 실적 발표(어닝 콜) 트랜스크립트, IR(투자자 관계) 프레젠테이션, 컨센서스 추정치 및 27개 글로벌 시장의 14,000개 이상 기업에 걸친 민간 데이터를 색인화(Indexing)하는 플랫폼의 내부를 살펴봅니다. 또한 이를 개발한 팀이 모든 숫자를 정확한 공시 문서, 페이지, 그리고 세부 항목(Line item)에 대해 검증할 수 있도록 AI를 어떻게 구축했는지 설명합니다.

카테고리: 엔터프라이즈 AI(Enterprise AI) 제품: 클로드(Claude) 플랫폼: 클로드 플랫폼 날짜: 2026년 4월 30일 읽는 시간: 5분 공유 및 링크 복사: https://claude.com/blog/how-kepler-built-verifiable-ai-for-financial-services-with-claude

스타트업이 클로드로 빌드하는 방법(How startups build with Claude) 시리즈에서는 AI로 산업을 혁신하는 스타트업들의 사례를 조명합니다. 이번 글에서는 케플러(Kepler)가 금융 서비스 분야를 위한 AI 신뢰 및 검증 계층을 어떻게 구축했는지 공유합니다.

금융 회사들은 감사 가능성과 책임성이 요구되는 매우 엄격한 규제 환경에서 운영됩니다. 규제 보고서, 딜 피치(Deal pitch) 또는 리서치 보고서의 모든 수치는 원본 문서(Source documents)를 기반으로 검증 가능해야 합니다. 금융 산업이 전통적으로 의존해 온 도구들은 데이터를 추출할 수 있지만, 그 검증 과정에는 여전히 분석가의 개입이 필요합니다. 기존 분석 시스템은 자연어로 된 질문을 이해하거나, 이를 여러 단계로 세분화하거나, 단일 지표를 계산하기 위해 특정 회계 연도의 서로 다른 세 가지 항목을 가져와야 한다는 것을 스스로 파악하지 못합니다.

AI 시스템은 이러한 해석을 수행할 수 있지만, 계산과 동일한 단계에서 처리하므로 생성되는 숫자는 결국 모델이 만들어낸 것입니다. 이 과정에서 모델은 실수를 할 수 있습니다. 비누 가네시(Vinoo Ganesh)와 존 맥레이븐(John McRaven)은 팔란티어(Palantir)에서 국방, 에너지 및 금융 회사를 위한 데이터 시스템을 수년간 구축했습니다. 그 과정에서 답변에 대한 검증이 필수적인 환경에서 신뢰를 어떻게 다뤄야 하는지에 대한 통찰을 얻었습니다.

케플러를 창립하기 전, 이들은 사모펀드(PE), 헤지펀드, 투자은행(IB) 등 147개의 금융 회사와 대화를 나눴고, 거의 모든 곳에서 동일한 이야기를 들었습니다. 모두가 리서치에 AI를 사용하고 싶어 했지만, 아무도 그 결과를 신뢰하지 않았습니다. 한 이사(Managing Director)가 그들에게 한 말처럼, "제가 감사(Audit)할 수 없는 것을 어떻게 신뢰할 수 있겠습니까?"

이에 대한 이들의 해결책은 AI를 위한 신뢰 및 검증 계층 역할을 하는 '결정론적 인프라(Deterministic infrastructure)'를 구축하는 것이었습니다. 이 인프라는 추론 및 해석 계층인 클로드와 함께 케플러 파이낸스(Kepler Finance)를 구동합니다. 케플러 파이낸스는 분석가들이 자연어(Plain English)로 질문하고 즉시 검증 가능한 답변을 받을 수 있도록 설계된 금융 서비스용 리서치 플랫폼입니다.

길고 다단계적인 작업 처리 및 모호성 표시 금융 분석은 복잡하고 다단계적인 계산, 조밀한 데이터, 과도한 전문 용어를 포함하며 오류를 용납하지 않습니다. 이를 염두에 두고 케플러는 긴 계획을 일관되게 유지하면서도 모호성을 표시할 수 있는 모델이 필요했습니다. 예를 들어, 분석가가 지난 8개 분기 동안의 특정 기업의 재고 회전일(Inventory days outstanding)을 요청하면, 모델은 답변에 필요한 요소(올바른 공식, 정확한 회계 기간, 숫자에 영향을 미칠 수 있는 재추정 여부 등)를 파악해야 합니다.

팀은 모든 최신 프론티어 모델(Frontier models)을 대상으로 벤치마크 테스트를 진행했습니다. 단순한 쿼리(질의)에서는 모델들의 성능이 비슷했습니다. 하지만 상호 의존성이 있는 길고 다단계적인 계획으로 넘어가자, 클로드를 제외한 모든 모델이 네 번째나 다섯 번째 단계에 이르러 지름길을 택하거나 제약 조건을 잃어버리기 시작했습니다.

"우리의 워크로드(Workloads)에서 클로드는 유일하게 계획을 끝까지 일관되게 유지하는 모델이었습니다." 가네시는 말합니다. "다른 모델들은 초기에 강하게 시작했다가 다섯 번째 단계쯤 조용히 제약 조건 하나를 놓쳤습니다."

가장 명확한 차이는 각 모델이 불확실성을 처리하고 사람이 개입(Humans in the loop)할 수 있도록 유지하는 방식이었습니다. 예를 들어, 하나의 용어가 두 가지 다른 의미를 가질 수 있는 상황에서 대부분의 모델은 한 가지 의미를 임의로 선택해 작업을 계속 진행했습니다. 반면 클로드는 진행을 멈추고 분석가에게 결정을 요청했습니다.

"이러한 동작 방식은 어떤 벤치마크 점수보다 중요합니다." 가네시는 강조합니다. "금융 분석 초기에 잘못된 가정을 세우면, 그 이후의 모든 파이프라인이 완전히 망가지게 됩니다."

클로드를 둘러싼 컨텍스트(Context) 엔지니어링 케플러 팀은 구조화된 도메인 데이터(Domain data)로 보강되어 명확하게 정의된 작업(Task)이 주어졌을 때 클로드가 더 나은 결과를 생성한다는 것을 발견했습니다.

원문 보기
원문 보기 (영어)
How Kepler built verifiable AI for financial services with Claude Inside a platform that indexes 26M+ SEC filings, earnings call transcripts, IR presentations, consensus estimates, and private data across 14,000+ companies and 27 global markets, and how the team behind it built AI that validates every number to the exact filing, page, and line item. Category Enterprise AI Product Claude Platform Date April 30, 2026 Reading time 5 min Share Copy link https://claude.com/blog/how-kepler-built-verifiable-ai-for-financial-services-with-claude In our series, How startups build with Claude , we highlight how startups are transforming their industries with AI. In this article, we share how Kepler built a trust and verification layer for AI in financial services. Financial firms operate in a heavily regulated environment where reporting has to be auditable and accountable. Every figure in a regulatory filing, deal pitch, or research report needs to be verifiable against source documents. The tools the financial industry has traditionally relied on can pull data, but they still require analysts for that verification process. An analytics system can’t interpret a freeform question, decompose it into steps, or work out that a single metric requires pulling three different line items across specific fiscal periods. AI systems can do that interpretation, but they handle it in the same step as the computation, so the numbers they produce are generated by the model, which can make mistakes. Vinoo Ganesh and John McRaven spent years at Palantir building data systems for defense, energy, and financial firms. That work shaped how they think about trust in environments where answers must be verifiable. Before founding Kepler , they spoke with 147 financial firms, including private equity, hedge funds, and investment banks, and heard the same thing at nearly all of them: everyone wanted to use AI for research, but nobody trusted the output. As one managing director told them, "How am I supposed to trust something I can't audit?" The duo’s answer was to build deterministic infrastructure that serves as a trust and verification layer for AI. That infrastructure, together with Claude as the reasoning and interpretation layer, powers Kepler Finance: a research platform for financial services used by analysts to ask questions in plain English and receive instantly verifiable answers. Handling long, multi-step tasks and flagging ambiguity Financial analysis involves complex, multi-step calculations, dense data, and overloaded terminology, and has no tolerance for error. With that in mind, Kepler needed a model that could hold a long plan together without drift and flag ambiguity. For example, if an analyst asks for a company’s inventory days outstanding over the last eight quarters, the model needs to figure out what the answer needs: the right formula, correct fiscal periods, and any restatements that might affect the numbers. The team benchmarked across all frontier models. They found that on straightforward queries, models performed comparably. But when it came to long, multi-step plans with interdependencies, all but Claude started taking shortcuts or losing track of constraints by the fourth or fifth step. "On our workloads, Claude was the model that consistently held the plan together," Ganesh says. “Other models would start strong and then quietly drop a constraint by step five.” The clearest difference was how each model handled uncertainty and kept humans in the loop. For example, in situations where one term can have two different meanings, most models picked one meaning and kept going. Claude stopped and asked the analyst to decide. "That behavior matters more than any benchmark score," Ganesh says. "One wrong assumption early in a financial analysis breaks everything downstream." Engineering the context around Claude The Kepler team found that Claude produced better results when given precisely defined tasks enhanced with structured domain knowledge, definitions, and hard boundaries on what to resolve versus what to escalate. "In finance, the model can’t be the whole system. We treat it as one stage in a pipeline whose job is to hand the model exactly what it needs to succeed at exactly that stage," says McRaven. “Prompt engineering optimizes a call while content engineering optimizes the system around it.” The team built deterministic execution environments that Claude can invoke for every operation that needs to be provably correct, such as computing a ratio or resolving a fiscal period. They developed a proprietary ontology that maps financial concepts to precise definitions and formulas, customizable on a per-use basis. Security and access control restrictions are enforced at every step, governing which data sources each user can pull from. On top of this, they built recurring, customizable skills for the most common workflows in their pipeline, such as enterprise value calculations across complex capital structures (e.g. handling preferred shares, convertibles, and minority interests) and segment revenue waterfall reconciliation across reporting period changes. These skills coordinate between deterministic and nondeterministic stages and are idempotent by design: the same input will always generate the same output. Next, they decomposed their workflows into a multi-stage pipeline, matching different Claude models to different stages: Opus 4.7 for complex reasoning like decomposing intent, resolving ambiguity, and producing structured execution plans, and Sonnet 4.6 for higher-throughput stages where tasks are more constrained. They also trained their own specialized models for recall (some use Claude as the foundation, some are proprietary to Kepler), scoring 94% accuracy on tasks like mapping financial statement labels to standardized taxonomy codes, compared with the 38-46% accuracy achieved by other models. The team tests every prompt change, model upgrade, and context modification against thousands of cases before going to production. They’ve built automated evaluation pipelines that compare Claude's output against known-correct answers at every stage, checking both the structured plan and the final computed result. When a test fails, they can trace whether the issue was in Claude's reasoning, the context provided, or the downstream execution. When Anthropic ships a new model version, Kepler benchmarks it within hours and knows exactly which stages improve, which regress, and which need prompt adjustments. Scaling with Claude Kepler Finance has indexed more than 26 million SEC filings across 14,000+ companies, 50M+ public documents, and 1M+ private documents spanning 27 global markets. Claude makes that volume of unstructured data usable, interpreting questions against the entire corpus and reconciling differences in terminology across companies and time periods. Kepler's retrieval layer then pulls figures from verified SEC filings, computes the result, and assembles the results into the desk's Excel template, where with a single click analysts can trace each number back to its exact line item highlighted in the source document. The separation between Claude's reasoning and Kepler's deterministic infrastructure lets a small team build at this scale. Claude handles the interpretation layer that would otherwise require many domain-specific NLP engineers and Kepler's infrastructure handles the rest. New capabilities that would take a large team months to ship can be built in weeks because the architecture is modular: the team improves the reasoning at one stage without touching the rest of the pipeline. As financial institutions require compliance infrastructure before they engage, Kepler has built full audit logging, siloed customer environments, and end-to-end provenance from the start, and has SOC 2 Type II certification, with ISO 27001 certification underway. Kepler’s platform is domain-agnostic by design. The tea