메뉴
HN
Hacker News 36일 전

에이펌(Affirm), 1주일 만에 AI 에이전트 개발 조직 개편

IMP
8/10
핵심 요약

핀테크 기업 Affirm은 800명 이상의 엔지니어를 대상으로 업무를 일주일간 중단하고 'AI 리툴링 위크'를 진행하여 60% 이상의 PR이 에이전트의 도움을 받는 체제를 단기간에 구축했습니다. Anthropic의 Claude Code를 기본 도구로 채택하고 반복 가능한 에이전트 워크플로우를 표준화하여 소수 선도 개발자의 생산성을 전체 조직으로 빠르게 전파하는 데 성공했습니다. 이 사례는 성숙해진 에이전트 AI를 실무에 도입할 때 체계적인 조직적 훈련과 인프라 재설계가 필수적임을 보여줍니다.

번역된 본문

제목: Affirm이 1주일 만에 에이전트 기반 소프트웨어 개발을 위해 엔지니어링 조직을 개편한 방법 소스: hackernews

저자: Daniel Martin, 엔지니어링 수석 책임자, 개발자 생산성 부서

2026년 2월, 우리는 정상적인 엔지니어링 업무를 일주일간 중단하고 800명 이상의 엔지니어에게 에이전트 AI(Agentic AI)를 사용하여 아이디어 도출부터 구현, 테스트 및 코드 리뷰에 이르는 실제 작업을 수행하도록 요청했습니다. 우리는 에이전트 도구가 우리의 업무 방식을 변화시킬 만큼 충분히 성숙했으며, 이를 잘 도입하려면 도구를 둘러싼 시스템 전반을 재고해야 한다는 신중한 베팅을 했습니다. 이 글에서는 우리의 풀 리퀘스트(PR) 중 60% 이상이 어떻게 에이전트의 지원을 받게 되었는지, 즉 왜 이런 일을 했는지, 어떻게 준비했는지, 그 주은 어땠는지, 무엇이 문제였는지, 그리고 그 결과로 지금 무엇에 투자하고 있는지 다룹니다.

우리가 이 일을 한 이유 Affirm은 연간 1억 3천만 건 이상의 거래 규모로 투명한 금융 상품을 제공하는 신용 네트워크를 구축했습니다. 이 네트워크의 추가적인 확장은 양질의 소프트웨어를 출시하는 능력에 달려 있지만, 우리는 속도 측면에서 여러 제약 조건하에 운영되고 있습니다. 우리는 자금을 이동시키는 역할을 하므로 실수의 대가가 크고 품질은 계약상 타협할 수 없습니다. 우리는 구조적 병목 현상(비대한 테스트 스위트, 수동 코드 리뷰, 불안정한 CI, 그리고 우리에게 필요한 속도에 맞지 않는 배포 인프라)을 가진 12년 된 모노레포(monorepo) 위에 시스템을 구축합니다. 저는 이러한 병목 현상을 해결하기 위해 존재하는 조직인 개발자 생산성 부서를 이끌고 있습니다.

2025년 내내 우리는 이미 AI 지원 개발에 투자해 왔고, 12월까지 엔지니어링 팀의 80% 이상이 AI 지원 개발자 도구의 주간 활성 사용자가 되었습니다. 하지만 그 무렵 새로운 클래스의 도구가 중요한 분기점을 넘었습니다. Anthropic의 Opus 4.5와 같은 모델들은 에이전트 AI 개발을 실용적으로 만들었습니다. 즉, 코딩 에이전트가 이제 최소한의 인간 개입만으로 코드베이스를 검색하고, 접근 방식을 계획하고, 코드를 작성하고, 테스트를 실행하고, 실패 시 개선 작업을 반복할 수 있게 된 것입니다. 당사의 데이터와 인터뷰에 따르면 수십 명의 엔지니어가 이미 우리의 코드베이스에서 이러한 도구를 효과적으로 사용하고 있었으며, 이것이 그들의 업무 방식을 혁신하고 있었습니다. 문제는 이와 같은 가속화를 Affirm의 다른 800명의 개발자에게 어떻게 가져올 것인가였습니다.

1월 중순, 우리 사장은 전사적인 메시지를 보냈습니다. 에이전트 AI 개발은 우리가 소프트웨어를 구축하는 핵심 방식이 될 것이라고 선언한 것입니다. 이 메시지는 'AI 리툴링 주간(AI Retooling Week)'의 날짜도 설정했습니다. 모든 불필요한 회의는 연기되고, 제품 출시일은 지연되었으며, 모든 엔지니어와 매니저는 그 주가 끝날 때까지 완전히 에이전트에 의한 워크플로우(작업 할당부터 PR 제출까지)를 완료하도록 요청받았습니다. 우리가 점진적인 도입 대신 일주일간의 전담 기간을 선택한 이유는 이러한 도구를 이미 효과적으로 사용하고 있는 엔지니어와 동료들 사이의 격차가 커지고 있었고, 이를 빠르게 좁히고 싶었기 때문입니다.

기반 구축 리툴링을 준비하면서 우리는 9명의 엔지니어로 구성된 실무 그룹을 구성했습니다. 그들의 임무는 2주 안에 맞춤형 설정이나 전문 지식 없이도 일반 개발자가 대부분의 코딩 작업을 자동화할 수 있는 반복 가능한 에이전트 워크플로우를 만드는 것이었습니다. 이 그룹은 이후의 모든 과정을 형성한 세 가지 결정을 내렸습니다. 첫째, 단일 기본 툴체인입니다. 우리는 Claude Code를 기본 에이전트 코딩 도구로 선택하고 그 기본 요소에 맞춰 전체 워크플로우를 작성했으므로, 엔지니어들은 첫날부터 명확한 출발점을 가질 수 있었습니다. 둘째, 로컬 우선(local-first) 개발이었습니다. 툴링 환경이 중앙 집중식 플랫폼으로 수렴되지 않았고 우리는 엔지니어들이 즉시 생산성을 낼 수 있기를 원했기 때문입니다. 셋째, 판단이 중요한 명시적인 인간 체크포인트였습니다. 의도 제공, 계획 승인, 코드 검토 및 병합(merge) 단계가 그것입니다. 이러한 체크포인트를 제외한 나머지 지루하고 반복적인 작업은 안전하게 제거할 수 있는 만큼 자동화했습니다.

'기본' 도구가 '의무'를 의미하지는 않았습니다. 그것은 시작하는 데 따르는 마찰을 줄인다는 뜻이었습니다. 다른 도구를 선호하는 엔지니어들도 약간의 수정을 거치면 대부분의 동일한 결과물을 재사용할 수 있었습니다. 기본값이 맞지 않는 경우 기술 총괄(Tech Leads)이 자신의 팀에 맞게 조정을 담당했습니다. 우리가 가르친 멘탈 모델은 단순하고 도구에 구애받지 않았습니다. 계획(Plan), 검토(Review), 실행(Execute), 확인(Verify), 반복(Repeat)의 프로세스였습니다.

원문 보기
원문 보기 (영어)
How Affirm Retooled its Engineering Organization for Agentic Software Development in One Week Affirm Technology 9 min read · Just now -- Listen Share Author: Daniel Martin , Sr. Director of Engineering, Developer Productivity In February 2026, we paused normal engineering delivery for a week and asked over 800 engineers to use agentic AI to take real tasks from ideation through implementation, testing, and code review. We made a deliberate bet that agentic tools had matured enough to change how we work, and that adopting them well would require rethinking the systems around them. This post covers how we got to a place where over 60% of our pull requests (PRs) are agent-assisted: why we did it, how we prepared, what the week looked like, what broke, and what we are investing in now as a result. Why We Did It Affirm has built a credit network that delivers honest financial products at a scale of over 130 million transactions a year. Further scaling of that network depends on our capacity to ship quality software, but we operate under several constraints on our speed. We move money, so mistakes are costly and quality is contractually non-negotiable. We build on a twelve-year-old monorepo with structural bottlenecks: bloated test suites, manual code review, unstable CI, and deploy infrastructure not made for the pace we need. I lead Developer Productivity, the organization that exists to remove those bottlenecks. Throughout 2025, we had already invested in AI-assisted development and, by December, over 80% of our engineering team was a weekly active user in an AI assisted developer tool. But around that time, a new class of tool had crossed a threshold. Models like Anthropic’s Opus 4.5 made agentic AI development practical: coding agents could now reliably search a codebase, plan an approach, write code, run tests, and iterate on failures with minimal human intervention. Our data and interviews showed that a few dozen engineers were already using these tools effectively on our codebase and it was transforming how they worked. The question was how to bring that same acceleration to another 800 developers at Affirm. In mid-January, our President sent a company-wide message: agentic AI development would become a core part of how we build software. The message also set a date for AI Retooling Week. All non-essential meetings would be suspended, product delivery dates delayed, and every engineer and manager asked to complete a fully agentic workflow — from task to submitted PR — by the end of the week. We chose a dedicated week over a gradual rollout because the gap between the engineers already using these tools effectively and their peers was growing and we wanted to close it fast. Building the Foundation In the buildup to Retooling, we assembled a working group of nine engineers. Their mandate: in two weeks produce a repeatable agentic workflow that allows the average developer at Affirm to automate most of their coding work without bespoke setup or expert knowledge. The group made three decisions that shaped everything that followed. First, a single default toolchain. We chose Claude Code as our default agentic coding tool and wrote the entire workflow against its primitives, so engineers had a clear starting point on day one. Second, local-first development, because the tooling landscape had not converged on a centralized platform and we wanted engineers to be productive immediately. Third, explicit human checkpoints where judgment matters: providing intent, approving plans, reviewing code, and merging. Outside those checkpoints, we automated as much toil as we could safely remove. “Default” tooling did not mean “mandatory.” It meant lowered friction to get started. Engineers who preferred other tools could reuse most of the same artifacts with light translation. Where the defaults did not fit, Tech Leads owned the adaptation for their team. The mental model we taught was simple and tool-agnostic: Plan, Review, Execute, Verify, Review, Deliver. The Workflow The workflow we delivered was built around the principle one task equals one agent session equals one PR. A key insight was to move decision-making earlier. Rather than going back and forth with an agent at implementation time, you make the architectural and scoping decisions upfront during planning, then hand the agent a tightly scoped task. This lets engineers work through multiple tasks in parallel on separate worktrees, each a self-contained unit of work. We built custom tooling for each stage of the loop: Plan — an agent-assisted planning skill transforms requirements into a structured implementation plan and breaks it into well-scoped tasks. Review — the engineer reviews and approves the plan before any code is written. Execute — the agent implements a single task on a dedicated worktree. Verify — the agent runs tests and linters, fixes what it finds, and reviews its own code. When CI fails, it fetches build logs, correlates failures, and proposes fixes. This loop repeats until CI passes. Review — the engineer reviews and edits the agent’s output. One rule we were explicit about: do not send unreviewed AI output to your coworkers. Reviewers use agents too, pointing the review tool at the PR along with their team’s architectural context. But the reviewer reads the code, applies their own judgment, and catches what the agent misses. Deliver — the engineer receives human approval and merges. Underlying all of this was a system of context files maintained at multiple levels of the codebase: conventions, domain knowledge, and team decisions where agents could find them. We distributed the tooling through an internal plugin with a central marketplace where teams could build and share their own skills. Retooling Week The week was structured to balance learning with doing. Monday opened with a leadership kickoff and a live demo of the full workflow on a real task. Tuesday featured “art of the possible” sessions held in-person and remotely, where engineers saw the tools tested on real-world tasks. Wednesday was heads-down time. Thursday was team-led demos. Friday was the big show: org-wide demos of the best work from the week, selected by engineering leaders and voted on by the whole organization. Throughout the week we staffed dedicated support channels by timezone, ran helpdesk sessions for anyone who was stuck, and tracked a leaderboard of agentic PR submissions by team. We acknowledged that progress would be lumpy, that some codebases and types of tasks would be harder than others, and we asked teams to give each other grace. The emphasis was on experimentation over perfection. What We Found We measured everything. Adoption rate by team and workflow step, PR volume, opened versus merged PR count. We set a budget of nearly $200k (around $250/engineer) for the week’s token usage and monitored spend daily, investigated outlier patterns, and landed at around 70% of budget. By the end of the week, 92% of the engineering organization, including managers, had submitted at least one agentic PR, most many more. We surveyed every team. Engineers who had been unsure about agentic tools were finding them useful by mid-week, and teams were already asking how to keep the momentum going after the week ended. But the most valuable output was a candid picture of what did not work. Several bottlenecks stood out: Our change review process was the single most-cited friction point in the engineering-wide survey we ran, with roughly 40% of respondents raising it unprompted. PRs often sit at this stage for days, and as volume scaled manual review processes became a chokepoint. CI speed and reliability were a major constraint. Our unit test suite at p75 ran in ~8 minutes, but full end to end regression suites on our ephemeral test environments took an excruciating 100+ minutes. It was not designed for the change-validate-fix-revalidate loops that agentic development demands. Tool integrations created unexpected friction.