메뉴
HN
Hacker News 26일 전

모두가 AI를 쓰지만 조직은 여전히 배우지 못하는 이유

IMP
9/10
핵심 요약

기업 내 개개인의 AI 생산성 향상이 조직 전체의 성과로 자동으로 이어지지 않는 '지저분한 중간 단계(Messy middle)'의 문제를 다룹니다. 기존의 느린 변화 관리 프로세스로는 실무자들 사이에서 파편화되어 숨겨진 AI 활용법과 혁신을 제대로 포착하고 공유할 수 없습니다. 따라서 리더십, 실무자(Crowd), 그리고 연구개발 조직(Lab)이 긴밀하게 협력하여 개인의 학습을 조직적 자산으로 빠르게 전환하는 새로운 메커니즘이 필요합니다.

번역된 본문

Ethan Mollick은 한동안 조직 내 AI 도입에 대해 글을 써왔습니다. 그의 저서 'Making AI Work: Leadership, Lab, and Crowd'에서 그는 AI를 통한 개인의 생산성 향상이 조직의 성과로 자동으로 이어지지는 않는다고 지적합니다. 사람들은 더 빨라지고, 더 나은 글을 쓰고, 더 많이 분석하고, 더 많은 작업을 자동화하거나, 조용히 사이보그와 같은 모습으로 진화할 수 있습니다. 하지만 회사는 여전히 아무것도 배우지 못할 수 있습니다.

이제 많은 기업들이 GitHub Copilot 라이선스가 제공되고, ChatGPT Enterprise가 시스템 어딘가에 존재하며, Claude나 Gemini 또는 Cursor가 곳곳에서 사용되고, 모든 팀에 공식적인 도입 교육 자료가 가정하는 것보다 훨씬 앞서 나가는 사람이 적어도 한 명 이상 있는 단계에 진입했습니다. 이러한 변화의 일부는 눈에 보이지만, 대부분은 그렇지 않습니다. 경영진은 라이선스 사용량("작년에 Anthropic에 지불한 200만 유로의 ROI(투자 수익률)는 어디에 있나요?"), 어쩌면 프롬프트 호출 횟수, 설문 조사 결과, 또는 운영 위원회에 보고하기에 충분히 고무적으로 보이는 몇 가지 내부 PoC(개념 증명)를 확인할 수 있습니다. 다른 회사들에서는 AI가 곧바로 IT 부서로 넘어가서 흔적도 없이 사라졌습니다.

모든 사람이 이제 상황이 복잡해지는, 정말로 복잡해지는 단계에 접어들었다는 것을 알고 있다고 생각합니다. AI 도입의 '지저분한 중간 단계(messy middle)'는 AI 사용이 도처에 퍼져 있고, 불균형하며, 부분적으로 숨겨져 있고, 비교하기 어렵고, 아직 조직적 학습과 연결되지 않았을 때 시작됩니다.

모두가 Copilot을 사용합니다

AI 도입의 첫 번째 단계는 (대부분) 다른 기업용 소프트웨어 도입과 비슷해 보이기 때문에 비교적 편안합니다. 사용자 라이선스를 구매합니다. 허용되는 사용 범위를 정의합니다. 교육을 진행합니다. 챔피언(핵심 활용자) 네트워크를 만듭니다. 사람들에게 Teams 채널에서 유스케이스를 공유하도록 요청합니다. 그 채널은 잠시 활기차 보이다가 나중에는 좋은 의도로 가득 찬 또 하나의 사내 창고가 될 것입니다.

두 번째 단계는 훨씬 더 이상합니다. 한 팀은 Copilot을 자동 완성 정도로만 사용하고 하루를 마감합니다. 다른 팀은 테스트, 코드 리뷰, 지속적인 방향 수정을 거치며 Claude Code(Claude 기반 코딩 에이전트)를 빡빡한 루프 안에서 돌립니다. 프로덕트 오너(PO)는 갑자기 Figma에서 목업 화면을 그리는 대신 실제 작동하는 소프트웨어 프로토타입을 만들어 냅니다. 수석 엔지니어는 근본 원인 분석(Root-cause analysis)을 AI 에이전트에게 맡기고 1시간도 안 되어 유효한 해결책을 얻습니다. AI가 없었다면 이 작업은 2주가 걸렸을 것입니다. 주니어 개발자는 세련된 코드를 작성하지만 시스템에 어떤 아키텍처 가정이 비밀리에 스며들었는지 전혀 알지 못합니다. 고객 지원 팀은 반복되는 문의 티켓을 조용히 워크플로우 자동화로 바꿉니다. 그들은 업무의 어디에 통증이 있는지 정확히 알고 있으며, 우수성 센터(Center of Excellence)의 누구도 올바른 질문을 던지지 않았다는 것을 알기 때문입니다.

이 모든 일들이 같은 회사에서 동시에 일어날 수 있습니다. 지저분한 중간 단계를 지저분하게 만드는 것은 바로 이것입니다. 즉, 도입의 단위가 더 이상 조직 전체가 아니며, 어쩌면 팀 단위도 아닙니다. 바로 업무 내부의 '루프(loop)'가 된 것입니다!

이 지점에서 Mollick의 리더십, 연구소(Lab), 그리고 대중(Crowd) 프레임워크가 유용합니다. 리더십은 방향과 권한을 부여하고, 실무자(Crowd)는 실제 업무를 수행하기 때문에 유스케이스를 발견합니다. 그리고 연구소(Lab)는 그러한 발견들을 공유된 관행, 도구, 벤치마크 및 새로운 시스템으로 변환합니다.

하지만 내가 계속 막히는 부분은 에이전트 기반 엔지니어링(Agentic engineering)에서 반복적으로 나타나는 것과 같은 의문입니다. '그 학습은 실제로 어떻게 확산되는가?'

기존의 변화 관리 체계는 이 속도를 따라가기에 너무 느립니다.

대부분의 기업은 이미 갖추고 있는 기존 체계를 통해 AI 도입을 처리하려고 할 것입니다. 실무 커뮤니티, 사내 세미나(Brown-bag sessions), 챔피언 네트워크, 도입 교육 자료, 오피스 아워, 월간 데모, 설문 조사, 어쩌면 대시보드 등이 그것입니다. 충분히 이해합니다. 나도 그랬고, 당신도 그랬을 것입니다. 이러한 노력은 특히 실험 자체에 대한 허락이 필요한 조직에서 어느 정도 도움이 됩니다.

하지만 진정으로 흥미롭고 가치 있는 AI 활용은 다음 커뮤니티 회의를 기다리지 않습니다. 그것은 코드 리뷰, 제안서 작성, 연구 과제, 제품 프로토타입, 프로덕션 장애, 테스트 전략, 컴플라이언스(규정 준수) 질문 속에서突연히 나타납니다. 또는 누군가 특정 클래스의 제품 구성 요소에 대해 다크 팩토리(Dark factory, 무인 자동화 공장)에 가까운 시스템을 구축할 수 있다는 것을 깨달을 때 등장합니다. 즉, 의도를 작성하고, 에이전트가 매우 느슨한 루프를 실행하도록 두고, 궤도에서 벗어나지 않도록 충분한 제어(Backpressure)를 가하며, 강력한 시나리오에 대해 결과를 평가하고, 의도를 다듬어서 반복적으로 고품질 결과를 얻어내는 방식 말입니다.

원문 보기
원문 보기 (영어)
Ethan Mollick has been writing about AI adoption in organizations for a while now. In Making AI Work: Leadership, Lab, and Crowd , he makes the point that individual productivity gains from AI do not automatically become organizational gains. People may get faster, write better, analyze more, automate more, or quietly become cyborg versions of themselves. The company may still learn almost nothing. A lot of companies are now entering the phase where GitHub Copilot licenses are provisioned, ChatGPT Enterprise exists somewhere in the stack, Claude or Gemini or Cursor show up in pockets, and every team has at least one person who is much further along than the official enablement material assumes. Some of this is visible, yet much of it is not. Management sees license usage (“Where is the ROI for the 2 mio € we paid Anthropic last year?”), maybe prompt counts, maybe a survey, maybe a few internal PoCs that feel encouraging enough to put into a steering committee deck. In other companies, AI went straight to IT and died. I think everyone knows this is the phase where it gets complicated, like, really complicated. The “messy middle” of AI adoption starts when AI use is everywhere, uneven, partially hidden, difficult to compare, and not yet connected to organizational learning. Everyone has Copilot now The first phase of AI adoption is (mostly) comfortable because it looks like other enterprise rollouts. You buy seats. You define acceptable use. You run training. You create a champion network. You ask people to share use cases in a Teams channel, which will briefly look alive and then become one more corporate attic full of good intentions. The second phase is much stranger: one team uses Copilot as autocomplete and calls it a day. Another team runs Claude Code in tight loops, with tests, reviews, and constant steering. A product owner suddenly prototypes real software instead of mocking screens in Figma. A senior engineer delegates a root-cause analysis to an agent and comes back to the valid solution in under an hour; this would’ve taken him two weeks without AI. A junior person produces polished code but has no idea which architectural assumptions got smuggled into the system. A support team quietly turns recurring tickets into workflow automation, because they know exactly where the work hurts and nobody in the Center of Excellence ever asked the right question. All of these things can happen in the same company at the same time. That is what makes the messy middle messy: the adoption unit is no longer the organization, and maybe not even the team. It is the loop inside the work! Mollick’s Leadership, Lab, and Crowd frame is useful here. Leadership sets direction and permission, The Crowd discovers use cases because the Crowd does the actual work. The Lab turns those discoveries into shared practices, tools, benchmarks, and new systems. But the part I keep getting stuck on is the same one that shows up in agentic engineering again and again: how does the learning actually travel? The old change machinery is too slow for this Most companies will try to process AI adoption through the machinery they already have. Communities of practice, brown-bag sessions, champion networks, enablement decks, office hours, monthly demos, surveys, maybe a dashboard. Fair enough, I did it, you did it. Some of that helps, especially in organizations that still need permission to experiment at all. But the interesting AI work does not wait for the next community meeting. It appears inside a code review, a sales proposal, a research task, a product prototype, a production incident, a test strategy, a compliance question. Or when someone figures out that for a certain class of product components, they can set up something close to a dark factory: write the intent, let the agent run a very loose loop, apply enough backpressure to keep it on track, evaluate the outcome against strong scenarios, refine the intent, and repeatedly get high-quality results. By the time the story is cleaned up enough to become a best-practice slide, the important learning has often lost its teeth. What made it useful was the friction: the missing context, the test that failed, the weird API behavior, the moment where the agent sprawled into nonsense and someone had to pull it back. I have been thinking about this through the same lens as the elastic loop . AI collaboration is not one mode! It stretches from tight, synchronous co-driving to looser, asynchronous delegation. The adoption question is not simply “are people using AI?” It is whether teams know which loop size to use, where they need resistance, which artifacts should survive the loop, and how those artifacts become something the organization can learn from. That is a much harder question than tool usage or bean (token) counting. Scrum was built for expensive iteration I argued that much of modern software process exists because human iteration used to be expensive. Sprint planning, estimation, standups, user stories, ticket grooming, handoffs, all the ceremony around coordination and risk reduction. Reasonable, given the constraints. If a single iteration takes days or weeks, you need structures that prevent people from wasting too many of them. But agentic engineering changes the economics: It makes more options materializable! It lets teams move from intent to prototype to evaluation much faster. It lets product people see working software earlier. It lets engineers test more hypotheses before committing. It does not magically make delivery easy, but it moves the constraint away from implementation and toward intent, verification, judgment, and feedback. The awkward thing is that many organizations spent twenty years calling themselves agile while preserving the organizational reflexes agile was supposed to remove. Now AI makes real agility more plausible, and the system still asks for two-week sprint commitments, handoff documents, and all the stuff that assumes iteration is scarce. That is the ceremony graveyard again, but now at adoption level. The loop can move faster than the organization can metabolize what the loop learned. The open bar will not stay open forever There is another pressure building underneath all this. AI usage will become more visibly metered. The current enterprise feeling of “everyone has access, don’t worry too much about the bill” will not hold forever, at least not in the form people are getting used to. Model routing, token budgets, usage-contingent pricing, inference costs, governance around which model is allowed for which task: all of that will become more explicit as companies move from casual assistance to serious agentic work. I do not want to make this a cost panic story, that would be the least interesting way to think about “rented intelligence”. The question is not how to minimize token spend in the abstract, any more than the question of software delivery was ever how to minimize keystrokes. But the bill will force a better question: what changed because we spent those tokens? Please, I beg you, don’t count pull requests. Better: Which loops closed faster? Which decisions improved? Which root-cause analyses got sharper? Which reviews caught more? Which teams learned reusable patterns? Which product ideas were killed earlier because a prototype made the weakness obvious? Where did AI create learning, and where did it just create more output? Token-to-output is the old measurement reflex in a new costume. Token-to-learning is closer to the thing that matters. Loop Intelligence is the missing feedback path I keep coming back to three capabilities companies will need in the messy middle. Agent Operations: which agents and AI tools are running, what systems they can touch, which data they can see, which actions require approval, where identity, audit, permissions, and runtime visibility live. This is the control side, and it matters because agentic work eventually touches real systems. Loop Intellig