최근 6개월 LLM 생태계 핵심 요약
2025년 11월은 코딩 에이전트가 실용적인 수준으로 급부상하며 LLM 생태계의 결정적인 전환점이 된 시기였습니다. 이 기간 동안 주요 빅테크 기업 간의 최고 성능 모델 경쟁이 치열했으며, 개발자들은 이를 활용해 '바이브 코딩(Vibe coding)'과 같은 혁신적인 실험을 주도했습니다. 특히 '오픈클로(OpenClaw)'라는 이름의 개인형 AI 어시스턴트 프로젝트가 등장하며 로컬 환경에서 AI를 구동하는 새로운 개발자 문화를 탄생시켰습니다.
Simon Willison’s Weblog 구독 스폰서: Datadog — LLM 관측 기능(Observability)으로 신뢰할 수 있는 AI를 더 빠르게 출시하세요. 모범 사례 가이드 읽어보기
최근 6개월 LLM 생태계 핵심 요약 (5분 만에 보는 LLM 동향)
2026년 5월 19일 저는 PyCon US 2026에서 진행한 5분짜리 라이트닝 토크(Lightning talk) 발표 자료를 저만의 주석 달기 프레젠테이션 도구를 사용해 정리해 보았습니다.
저는 PyCon US 2026 라이트닝 토크에서 최근 6개월간의 LLM 발전 과정을 5분 만에 요약해 발표했습니다.
6개월은 꽤 다루기 편한 시기입니다. 제가 '2025년 11월 변곡점(Inflection point)'이라고 부르는 현상을 아주 잘 보여주기 때문입니다. 특히 코딩 분야에서 11월은 LLM 역사상 매우 중요한 달이었습니다.
한 가지 분명한 사실은, (주로 체감에 따라 결정되는) 소위 '최고' 모델의 자리가 3대 메이저 제공업체 사이에서 무려 5번이나 주인을 바꿨다는 것입니다.
평소처럼 저는 모델 간의 차이를 보여주기 위해 '자전거를 타는 펠리컨 SVG 그리기' 테스트를 사용했습니다. 왜 이 테스트일까요? 펠리컨을 그리기도 어렵고, 자전거를 그리기도 어렵고, 게다가 펠리컨이 자전거를 탈 리도 없기 때문입니다. 그리고 어떤 AI 연구소도 이런 황당한 작업을 수행하도록 모델을 학습시킬 확률은 0%에 가깝습니다.
11월 초, 대중적으로 널리 인정받던 '최고' 모델은 9월 29일에 출시된 Claude Sonnet 4.5였습니다. 이 모델은 저에게 이런 펠리컨을 그려주었습니다. 그러나 11월에 접어들며 GPT-5.1, Gemini 3, GPT-5.1 Codex Max에 차례로 자리를 내주었고, 결국 Anthropic이 Claude Opus 4.5로 다시 왕좌를 탈환했습니다. 이중 Gemini 3이 가장 멋진 펠리컨을 그린 것 같지만, 펠리컷 그리기가 전부는 아니죠. 대부분의 실무자들은 Opus 4.5가 이후 몇 달간 최고의 자리를 지켰다는 데 동의할 것입니다.
이 사실이 명확해지는 데는 시간이 조금 걸렸지만, 11월의 진짜 뉴스는 바로 '코딩 에이전트가 실력을 발휘하기 시작했다'는 점이었습니다. OpenAI와 Anthropic은 2025년 대부분의 기간 동안 '검증 가능한 보상으로부터의 강화학습(Reinforcement Learning from Verifiable Rewards)'을 실행하여 모델이 작성하는 코드의 품질을 높였고, 특히 자사의 Codex 및 Claude Code 에이전트 하네스(Harness)와 페어링했을 때의 성능을 극대화했습니다. 11월이 되자 이러한 노력의 결과가 명확히 나타났습니다. 코딩 에이전트는 '종종 작동함'에서 '대부분 작동함' 수준으로 발전했습니다. 바보 같은 실수를 고치는 데 대부분의 시간을 낭비할 필요 없이, 일상적인 실무를 처리하는 주력 도구로 사용할 수 있는 수준의 품질 장벽을 넘은 것입니다.
또한 11월에 이런 일도 있었습니다. Pete라는 사람이 'Warelay'라는 생소한(당시에는) 저장소에 첫 커밋을 한 것입니다.
12월부터 1월까지의 연말연시 휴가 기간 동안, 많은 사람들이 이 휴식 시간을 활용해 새로운 모델과 코딩 에이전트를 만져보며 그 능력을 테스트했습니다. 그 능력은 실로 엄청났습니다! 일부는 약간 과도하게 흥분하기도 했습니다. 저 역시 얼마나 한계를 밀어붙일 수 있을지 보고자 야심 찬 프로젝트들을 마구잡이로 시작하면서, 짧지만 LLM 정신착란(Psychosis) 비슷한 증상을 겪었습니다.
제 프로젝트 중 하나는 Python으로 구현한 '바이브 코딩(Vibe-coded)' 기반의 JavaScript였습니다. MicroQuickJS를 느슨하게 포팅한 것으로, 제가 micro-javascript라고 불렀습니다. 이 놀이터(Playground)에서 브라우저 상에 바로 사용해 볼 수 있습니다.
이 놀이터 데모는 제 micro-javascript 라이브러리를 사용하는 JavaScript 코드를 보여줍니다. 이 코드는 Python 안에서 실행되고, 그 Python은 Pyodide 안에서 실행되며, 그 Pyodide는 WebAssembly 안에서, 그 WebAssembly는 JavaScript 안에서, 마지막으로 그 JavaScript는 브라우저 안에서 실행됩니다! 정말 멋지죠! 하지만 세상 누가 버그투성이에 느리고, 보안에 취약한, 덜 익힌 Python용 JavaScript 구현체를 필요로 했을까요? 아무도 필요로 하지 않았습니다. 연말연시에 진행했던 저의 다른 수많은 프로젝트들 역시 조용히 폐기되었습니다!
이제 2월으로 넘어가 봅시다. 11월 말에 첫 커밋이 있었던 Warelay 프로젝트 기억하시나요?
12월과 1월에 걸쳐 이 프로젝트는 꽤 여러 차례 이름이 바뀌었습니다. 그리고 2월이 되자 최종 이름인 'OpenClaw'로 전 세계를 휩쓸기 시작했습니다. 출시된 지 3개월도 채 되지 않은 프로젝트가 이처럼 엄청난 관심을 받은 것은 정말 놀라운 일이었습니다.
OpenClaw는 '개인형 AI 어시스턴트'입니다. 그리고 NanoClaw, ZeroClaw 등과 같은 파생 프로젝트들이 등장하면서, 이런 부류의 프로그램을 지칭하는 일반 용어가 탄생했으니, 바로 'Claws'입니다.
실리콘밸리를 중심으로 Mac Mini가 매진 사태를 일으키기 시작했습니다. 사람들이 자신의 'Claws'를 구동시키기 위해 기기를 사들이기 시작한 것입니다. - Drew Breunig