메뉴
HN
Hacker News 12일 전

최근 6개월 LLM 생태계 핵심 요약

IMP
8/10
핵심 요약

2025년 11월은 코딩 에이전트가 실용적인 수준으로 급부상하며 LLM 생태계의 결정적인 전환점이 된 시기였습니다. 이 기간 동안 주요 빅테크 기업 간의 최고 성능 모델 경쟁이 치열했으며, 개발자들은 이를 활용해 '바이브 코딩(Vibe coding)'과 같은 혁신적인 실험을 주도했습니다. 특히 '오픈클로(OpenClaw)'라는 이름의 개인형 AI 어시스턴트 프로젝트가 등장하며 로컬 환경에서 AI를 구동하는 새로운 개발자 문화를 탄생시켰습니다.

번역된 본문

Simon Willison’s Weblog 구독 스폰서: Datadog — LLM 관측 기능(Observability)으로 신뢰할 수 있는 AI를 더 빠르게 출시하세요. 모범 사례 가이드 읽어보기

최근 6개월 LLM 생태계 핵심 요약 (5분 만에 보는 LLM 동향)

2026년 5월 19일 저는 PyCon US 2026에서 진행한 5분짜리 라이트닝 토크(Lightning talk) 발표 자료를 저만의 주석 달기 프레젠테이션 도구를 사용해 정리해 보았습니다.

저는 PyCon US 2026 라이트닝 토크에서 최근 6개월간의 LLM 발전 과정을 5분 만에 요약해 발표했습니다.

6개월은 꽤 다루기 편한 시기입니다. 제가 '2025년 11월 변곡점(Inflection point)'이라고 부르는 현상을 아주 잘 보여주기 때문입니다. 특히 코딩 분야에서 11월은 LLM 역사상 매우 중요한 달이었습니다.

한 가지 분명한 사실은, (주로 체감에 따라 결정되는) 소위 '최고' 모델의 자리가 3대 메이저 제공업체 사이에서 무려 5번이나 주인을 바꿨다는 것입니다.

평소처럼 저는 모델 간의 차이를 보여주기 위해 '자전거를 타는 펠리컨 SVG 그리기' 테스트를 사용했습니다. 왜 이 테스트일까요? 펠리컨을 그리기도 어렵고, 자전거를 그리기도 어렵고, 게다가 펠리컨이 자전거를 탈 리도 없기 때문입니다. 그리고 어떤 AI 연구소도 이런 황당한 작업을 수행하도록 모델을 학습시킬 확률은 0%에 가깝습니다.

11월 초, 대중적으로 널리 인정받던 '최고' 모델은 9월 29일에 출시된 Claude Sonnet 4.5였습니다. 이 모델은 저에게 이런 펠리컨을 그려주었습니다. 그러나 11월에 접어들며 GPT-5.1, Gemini 3, GPT-5.1 Codex Max에 차례로 자리를 내주었고, 결국 Anthropic이 Claude Opus 4.5로 다시 왕좌를 탈환했습니다. 이중 Gemini 3이 가장 멋진 펠리컨을 그린 것 같지만, 펠리컷 그리기가 전부는 아니죠. 대부분의 실무자들은 Opus 4.5가 이후 몇 달간 최고의 자리를 지켰다는 데 동의할 것입니다.

이 사실이 명확해지는 데는 시간이 조금 걸렸지만, 11월의 진짜 뉴스는 바로 '코딩 에이전트가 실력을 발휘하기 시작했다'는 점이었습니다. OpenAI와 Anthropic은 2025년 대부분의 기간 동안 '검증 가능한 보상으로부터의 강화학습(Reinforcement Learning from Verifiable Rewards)'을 실행하여 모델이 작성하는 코드의 품질을 높였고, 특히 자사의 Codex 및 Claude Code 에이전트 하네스(Harness)와 페어링했을 때의 성능을 극대화했습니다. 11월이 되자 이러한 노력의 결과가 명확히 나타났습니다. 코딩 에이전트는 '종종 작동함'에서 '대부분 작동함' 수준으로 발전했습니다. 바보 같은 실수를 고치는 데 대부분의 시간을 낭비할 필요 없이, 일상적인 실무를 처리하는 주력 도구로 사용할 수 있는 수준의 품질 장벽을 넘은 것입니다.

또한 11월에 이런 일도 있었습니다. Pete라는 사람이 'Warelay'라는 생소한(당시에는) 저장소에 첫 커밋을 한 것입니다.

12월부터 1월까지의 연말연시 휴가 기간 동안, 많은 사람들이 이 휴식 시간을 활용해 새로운 모델과 코딩 에이전트를 만져보며 그 능력을 테스트했습니다. 그 능력은 실로 엄청났습니다! 일부는 약간 과도하게 흥분하기도 했습니다. 저 역시 얼마나 한계를 밀어붙일 수 있을지 보고자 야심 찬 프로젝트들을 마구잡이로 시작하면서, 짧지만 LLM 정신착란(Psychosis) 비슷한 증상을 겪었습니다.

제 프로젝트 중 하나는 Python으로 구현한 '바이브 코딩(Vibe-coded)' 기반의 JavaScript였습니다. MicroQuickJS를 느슨하게 포팅한 것으로, 제가 micro-javascript라고 불렀습니다. 이 놀이터(Playground)에서 브라우저 상에 바로 사용해 볼 수 있습니다.

이 놀이터 데모는 제 micro-javascript 라이브러리를 사용하는 JavaScript 코드를 보여줍니다. 이 코드는 Python 안에서 실행되고, 그 Python은 Pyodide 안에서 실행되며, 그 Pyodide는 WebAssembly 안에서, 그 WebAssembly는 JavaScript 안에서, 마지막으로 그 JavaScript는 브라우저 안에서 실행됩니다! 정말 멋지죠! 하지만 세상 누가 버그투성이에 느리고, 보안에 취약한, 덜 익힌 Python용 JavaScript 구현체를 필요로 했을까요? 아무도 필요로 하지 않았습니다. 연말연시에 진행했던 저의 다른 수많은 프로젝트들 역시 조용히 폐기되었습니다!

이제 2월으로 넘어가 봅시다. 11월 말에 첫 커밋이 있었던 Warelay 프로젝트 기억하시나요?

12월과 1월에 걸쳐 이 프로젝트는 꽤 여러 차례 이름이 바뀌었습니다. 그리고 2월이 되자 최종 이름인 'OpenClaw'로 전 세계를 휩쓸기 시작했습니다. 출시된 지 3개월도 채 되지 않은 프로젝트가 이처럼 엄청난 관심을 받은 것은 정말 놀라운 일이었습니다.

OpenClaw는 '개인형 AI 어시스턴트'입니다. 그리고 NanoClaw, ZeroClaw 등과 같은 파생 프로젝트들이 등장하면서, 이런 부류의 프로그램을 지칭하는 일반 용어가 탄생했으니, 바로 'Claws'입니다.

실리콘밸리를 중심으로 Mac Mini가 매진 사태를 일으키기 시작했습니다. 사람들이 자신의 'Claws'를 구동시키기 위해 기기를 사들이기 시작한 것입니다. - Drew Breunig

원문 보기
원문 보기 (영어)
Simon Willison’s Weblog Subscribe Sponsored by: Datadog — Ship reliable AI faster with LLM Observability. Read the best practices guide The last six months in LLMs in five minutes 19th May 2026 I put together these annotated slides from my five minute lightning talk at PyCon US 2026, using the latest iteration of my annotated presentation tool . # I presented this lightning talk at PyCon US 2026, attempting to summarize the last six months of developments in LLMs in five minutes. # Six months is a pretty convenient time period to cover, because it captures what I’ve been calling the November 2025 inflection point . November was a critical month in LLMs, especially for coding. # For one thing, the supposedly “best” model (depending mostly on vibes) changed hands five times between the three big providers. # As always, I’m using my Generate an SVG of a pelican riding a bicycle test to help illustrate the differences between the models. Why this test? Because pelicans are hard to draw, bicycles are hard to draw, pelicans can’t ride bicycles ... and there’s zero chance any AI lab would train a model for such a ridiculous task. # At the start of November the widely acknowledged “best” model was Claude Sonnet 4.5, released on 29th September . It drew me this pelican. In November it was overtaken by GPT-5.1 , then Gemini 3 , then GPT-5.1 Codex Max , and then Anthropic took the crown back again with Claude Opus 4.5 . I think Gemini 3 drew the best pelican out of this lot, but pelicans aren’t everything. Most practitioners will agree that Opus 4.5 held the crown for the next couple of months. # It took a little while for this to become clear, but the real news from November was that the coding agents got good . OpenAI and Anthropic had spent most of 2025 running Reinforcement Learning from Verifiable Rewards to increase the quality of code written by their models, especially when paired up with their Codex and Claude Code agent harnesses. In November the results of this work became apparent. Coding agents went from often-work to mostly-work, crossing a quality barrier where you could use them as a daily-driver to get real work done, without needing to spend most of your time fixing their stupid mistakes. # Also in November, this happened—the first commit to an obscure (back then) repo called “Warelay” by some guy called Pete. # Over the holiday period, from December to January, a whole lot of us took advantage of the break to have a poke at these new models and coding agents and see what they could do. They could do a lot! Some of us got a little bit over-excited. I had my own short-lived bout of a form of LLM psychosis as I started spinning up wildly ambitious projects to see how far I could push them. # One of my projects was a vibe-coded implementation of JavaScript in Python—a loose port of MicroQuickJS —which I called micro-javascript . You can try it out in your browser in this playground . # That playground demo shows JavaScript code run using my micro-javascript library, in Python, running inside Pyodide, running in WebAssembly, running in JavaScript, running in a browser! It’s pretty cool! But did anyone out there need a buggy, slow, insecure half-baked implementation of JavaScript in Python? They did not. I have quite a few other projects from that holiday period that I have since quietly retired! # On to February. Remember that Warelay project that had its first commit at the end of November? # In December and January it had gone through quite a few name changes ... and by February it was taking the world by storm under its final name, OpenClaw. The amount of attention it got is pretty astonishing for a project that was less than three months old. # OpenClaw is a “personal AI assistant”, and we actually got a generic term for these, based on NanoClaw and ZeroClaw and suchlike... they’re called Claws . # Mac Minis started to sell out around Silicon Valley, because people were buying them to run their Claws. Drew Breunig joked to me that this is because they’re the new digital pets, and a Mac Mini is the perfect aquarium for your Claw. # My favourite metaphor for Claws is Alfred Molina’s Doc Ock in the 2004 movie Spider-Man 2. His claws were powered by AI, and were perfectly safe provided nothing damaged his inhibitor chip... after which they turned evil and took over. # Also in February: Gemini 3.1 Pro came out, and drew me a really good pelican riding a bicycle . Look at this! It’s even got a fish in its basket. # And then Google’s Jeff Dean tweeted this video of an animated pelican riding a bicycle, plus a frog on a penny-farthing and a giraffe driving a tiny car and an ostrich on roller skates and a turtle kickflipping a skateboard and a dachshund driving a stretch limousine. So maybe the AI labs have been paying attention after all! # A lot of stuff happened just in the past month. # Google released the Gemma 4 series of models, which are the most capable open weight models I’ve seen from a US company. # Also last month, Chinese AI lab GLM came out with GLM-5.1 —an open weight 1.5TB monster! This is a very effective model... if you can afford the hardware to run it. # GLM-5.1 drew me this very competent pelican on a bicycle. # ... though when it tried to animate it the bicycle bounced off into the top and the bicycle got warped. # Charles on Bluesky suggested I try it with a North Virginia Opossum on an E-scooter # And it did this! I’ve tried this on other models and they don’t even come close. “Cruising the commonwealth since dusk” is perfect. It’s animated too . # The other neat Chinese open weight models in April came from Qwen. Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7 . That’s a 20.9GB open weights model that runs on my laptop! (I think this mainly demonstrates that the pelican on the bicycle has firmly exceeded its limits as a useful benchmark.) # Here’s that Claude Sonnet 4.5 pelican from September for comparison. # So those were the two main themes of the past six months. The coding agents got really good... and the laptop-available models, while a lot weaker than the frontier, have started wildly outperforming expectations. Posted 19th May 2026 at 1:09 am · Follow me on Mastodon , Bluesky , Twitter or subscribe to my newsletter More recent articles Notes on the xAI/Anthropic data center deal - 7th May 2026 Live blog: Code w/ Claude 2026 - 6th May 2026 This is The last six months in LLMs in five minutes by Simon Willison, posted on 19th May 2026 . lightning-talks 7 pycon 28 speaking 120 ai 2025 generative-ai 1792 local-llms 157 llms 1758 annotated-talks 31 pelican-riding-a-bicycle 114 coding-agents 203 Previous: Notes on the xAI/Anthropic data center deal Monthly briefing Sponsor me for $10/month and get a curated email digest of the month's most important LLM developments. Pay me to send you less! Sponsor & subscribe Disclosures Colophon © 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026