메뉴
BL
MIT Tech Review 52일 전

무스타파 술레이만: AI 발전이 당분간 멈추지 않을 이유

IMP
8/10
핵심 요약

Microsoft AI CEO인 무스타파 술레이만은 AI 발전이 한계에 부딪힐 것이라는 회의론을 반박하며, 하드웨어, 메모리, 클러스터 연결망, 그리고 소프트웨어 알고리즘의 혁신적 결합이 전례 없는 컴퓨팅 파워의 지수적 성장을 이끌고 있다고 강조합니다. 2010년 이후 AI 모델의 학습 데이터와 컴퓨팅은 폭발적으로 증가했으며, 최근에는 동일 성능 도달을 위한 연산량이 8개월마다 절반으로 줄어드는 등 AI 배포 비용이 급감하고 있습니다. 이러한 복합적 혁신 추세는 2028년까지 실질적인 컴퓨팅 파워를 약 1,000배 이상 추가로 증가시킬 것으로 예측됩니다.

번역된 본문

우리는 선형적인 세계에 맞춰 진화해 왔습니다. 한 시간을 걸으면 일정한 거리를 이동하고, 두 시간을 걸으면 그 두 배의 거리를 이동합니다. 이러한 직관은 초원에서 우리에게 유용했습니다. 하지만 AI와 그 핵심인 지수적 추세를 마주할 때는 처참하게 실패합니다. 제가 2010년에 AI 연구를 시작했을 때부터 지금까지, 최첨단 AI 모델에 투입되는 학습 데이터의 양은 놀라울 정도로 1조 배나 증가했습니다. 초기 시스템의 경우 대략 10의 14승 플롭스(FLOPs, 부동소수점 연산으로 컴퓨팅의 핵심 단위)에서 시작해 오늘날 가장 큰 모델은 10의 26승 플롭스 이상을 처리하고 있습니다. 이것은 문자 그대로 폭발적인 성장입니다. AI 분야의 다른 모든 현상은 이 사실에서 비롯됩니다.

회의론자들은 계속해서 발전의 한계(벽)에 부딪힐 것이라고 예측해 왔습니다. 하지만 이 기적적이고 세대를 아우르는 컴퓨팅 파워의 비약적 발전 앞에서 그들은 계속 틀려 왔습니다. 그들은 종종 무어의 법칙이 둔화되고 있다고 지적합니다. 또한 데이터 부족이나 에너지 한계를 언급하기도 합니다. 하지만 이 혁명을 주도하는 결합된 힘들을 살펴보면, 지수적 추세는 상당히 예측 가능하게 보입니다. 왜 그런지 이해하려면 헤드라인 아래에 있는 복잡하고 빠르게 움직이는 현실을 살펴볼 필요가 있습니다.

AI 학습을 계산기로 계산하는 사람들로 가득 찬 방이라고 상상해 보십시오. 수년 동안 컴퓨팅 파워를 늘리는 것은 그 방에 계산기를 가진 더 많은 사람들을 추가하는 것을 의미했습니다. 대부분의 시간 동안 그 작업자들은 책상 위에서 손가락을 두드리며 다음 계산을 위한 숫자가 들어오기를 기다리며 유휴 상태로 앉아 있었습니다. 모든 일시 중지는 낭비된 잠재력이었습니다. 오늘날의 혁명은 더 많고 더 나은 계산기를 확보하는 것(비록 그것을 제공하기도 하지만)을 넘어, 실제로 모든 계산기가 결코 멈추지 않도록 보장하고 그것들이 하나처럼 함께 작동하도록 만드는 것에 있습니다. 이를 가능하게 하는 세 가지 발전이 지금 결합되고 있습니다.

첫째, 기본 계산기(칩)가 더 빨라졌습니다. 엔비디아의 칩은 불과 6년 만에 2020년 312 테라플롭스(Teraflops)에서 오늘날 2,500 테라플롭스로 8배의 원시 성능 향상을 이루었습니다. 올해 1월에 출시된 당사의 자체 칩인 마이아 200(Maia 200)은 당사 하드웨어 플릿에서 어떤 다른 하드웨어보다 달러당 30% 더 나은 성능을 제공합니다.

둘째, HBM(High Bandwidth Memory, 고대역폭 메모리)라는 기술 덕분에 데이터(숫자)가 더 빨리 도착합니다. HBM은 작은 마천루처럼 칩을 수직으로 쌓아 올립니다. 최신 세대인 HBM3는 이전 세대보다 대역폭을 3배 늘려, 프로세서가 항상 바쁘게 작업할 수 있을 만큼 충분히 빠르게 데이터를 공급합니다.

셋째, 계산기를 가진 사람들이 있던 방이 하나의 사무실 빌딩으로, 그리고 전체 캠퍼스나 도시로 확장되었습니다. NVLink 및 인피니밴드(InfiniBand)와 같은 기술은 수십만 개의 GPU를 창고 크기의 슈퍼컴퓨터로 연결하여 단일 인지 실체처럼 기능하게 만듭니다. 몇 년 전만 해도 이것은 불가능했습니다. 이러한 이득이 모여 극적으로 더 많은 컴퓨팅 파워를 제공합니다. 2020년에 8개의 GPU로 언어 모델을 학습시키는 데 167분이 걸렸다면, 오늘날 동등한 최신 하드웨어에서는 4분 미만이 걸립니다. 이를 비교해 보면, 무어의 법칙은 이 기간 동안 약 5배의 향상만을 예측할 것입니다. 하지만 우리는 50배의 향상을 보았습니다. 우리는 2012년 현대 딥러닝 붐을 일으킨 이미지 인식 모델인 알렉스넷(AlexNet)을 학습시키는 데 단 2개의 GPU를 사용했던 시절에서, 각각이 이전 세대보다 훨씬 더 강력한 오늘날 최대 규모 클러스터의 10만 개 이상의 GPU에 이르기까지 발전했습니다.

그리고 소프트웨어 혁명도 있습니다. 에포크 AI(Epoch AI)의 연구에 따르면, 고정된 성능 수준에 도달하는 데 필요한 컴퓨팅 연산량은 약 8개월마다 절반으로 줄어드는 것으로 나타났으며, 이는 무어의 법칙의 전통적인 18~24개월 두 배 증가 주기보다 훨씬 빠른 속도입니다. 최근 일부 모델을 서비스하는 비용은 연간 기준 최대 900분의 1까지 급감했습니다. AI 배포가 급진적으로 저렴해지고 있는 것입니다.

가까운 미래를 위한 수치도 마찬가지로 놀랍습니다. 선도적인 연구소들이 매년 거의 4배의 용량을 늘리고 있다는 점을 고려해 보십시오. 2020년 이후 최첨단 모델을 학습시키는 데 사용되는 컴퓨팅 파워는 매년 5배씩 증가했습니다. 글로벌 AI 관련 컴퓨팅 파워는 2027년까지 H100에 상응하는 1억 대에 도달할 것으로 예측되며, 이는 3년 만에 10배 증가하는 것입니다. 이 모든 것을 종합해 보면, 2028년 말까지 실질적인 컴퓨팅 파워가 약 1,000배 더 증가할 것으로 예상됩니다. 2030년이면 우리가 [원문 후략]

원문 보기
원문 보기 (영어)
We evolved for a linear world. If you walk for an hour, you cover a certain distance. Walk for two hours and you cover double that distance. This intuition served us well on the savannah. But it catastrophically fails when confronting AI and the core exponential trends at its heart. From the time I began work on AI in 2010 to now, the amount of training data that goes into frontier AI models has grown by a staggering 1 trillion times—from roughly 10¹⁴ flops (floating-point operations‚ the core unit of computation) for early systems to over 10²⁶ flops for today’s largest models. This is an explosion. Everything else in AI follows from this fact. The skeptics keep predicting walls. And they keep being wrong in the face of this epic generational compute ramp. Often, they point out that Moore’s Law is slowing. They also mention a lack of data, or they cite limitations on energy. But when you look at the combined forces driving this revolution, the exponential trend seems quite predictable. To understand why, it’s worth looking at the complex and fast-moving reality beneath the headlines. Think of AI training as a room full of people working calculators. For years, adding computational power meant adding more people with calculators to that room. Much of the time those workers sat idle, drumming their fingers on desks, waiting for the numbers to come through for their next calculation. Every pause was wasted potential. Today’s revolution goes beyond more and better calculators (although it delivers those); it is actually about ensuring that all those calculators never stop, and that they work together as one. Three advances are now converging to enable this. First, the basic calculators got faster. Nvidia’s chips have delivered an eightfold increase in raw performance in just six years, from 312 teraflops in 2020 to 2,500 teraflops today . Our own Maia 200 chip, launched this January, delivers 30% better performance per dollar than any other hardware in our fleet. Second, the numbers arrive faster thanks to a technology called HBM, or high bandwidth memory, which stacks chips vertically like tiny skyscrapers; the latest generation, HBM3, triples the bandwidth of its predecessor, feeding data to processors fast enough to keep them busy all the time. Third, the room of people with calculators became an office and then a whole campus or city. Technologies like NVLink and InfiniBand connect hundreds of thousands of GPUs into warehouse-size supercomputers that function as single cognitive entities. A few years ago this was impossible. These gains all come together to deliver dramatically more compute. Where training a language model took 167 minutes on eight GPUs in 2020, it now takes under four minutes on equivalent modern hardware. To put this in perspective: Moore’s Law would predict only about a 5x improvement over this period. We saw 50x. We’ve gone from two GPUs training AlexNet, the image recognition model that kicked off the modern boom in deep learning in 2012, to over 100,000 GPUs in today’s largest clusters, each one individually far more powerful than its predecessors. Then there’s the revolution in software. Research from Epoch AI suggests that the compute required to reach a fixed performance level halves approximately every eight months, much faster than the traditional 18-to-24-month doubling of Moore’s Law. The costs of serving some recent models have collapsed by a factor of up to 900 on an annualized basis. AI is becoming radically cheaper to deploy. The numbers for the near future are just as staggering. Consider that leading labs are growing capacity at nearly 4x annually. Since 2020, the compute used to train frontier models has grown 5x every year . Global AI-relevant compute is forecast to hit 100 million H100-equivalents by 2027, a tenfold increase in three years. Put all this together and we’re looking at something like another 1,000x in effective compute by the end of 2028. It’s plausible that by 2030 we’ll bring an additional 200 gigawatts of compute online every year—akin to the peak energy use of the UK, France, Germany, and Italy put together. What does all this get us? I believe it will drive the transition from chatbots to nearly human-level agents—semiautonomous systems capable of writing code for days, carrying out weeks- and months-long projects, making calls, negotiating contracts, managing logistics. Forget basic assistants that answer questions. Think teams of AI workers that deliberate, collaborate, and execute. Right now we’re only in the foothills of this transition, and the implications stretch far beyond tech. Every industry built on cognitive work will be transformed. The obvious constraint here is energy. A single refrigerator-size AI rack consumes 120 kilowatts, equivalent to 100 homes. But this hunger collides with another exponential: Solar costs have fallen by a factor of nearly 100 over 50 years; battery prices have dropped 97% over three decades. There is a pathway to clean scaling coming into view. The capital is deployed. The engineering is delivering. The $100 billion clusters, the 10-gigawatt power draws, the warehouse-scale supercomputers ... these are no longer science fiction. Ground is being broken for these projects now across the US and the world. As a result, we are heading toward true cognitive abundance. At Microsoft AI, this is the world our superintelligence lab is planning for and building. Skeptics accustomed to a linear world will continue predicting diminishing returns. They will continue being surprised. The compute explosion is the technological story of our time, full stop. And it is still only just beginning. Mustafa Suleyman is CEO of Microsoft AI. Deep Dive Artificial intelligence A “QuitGPT” campaign is urging people to cancel their ChatGPT subscriptions Backlash against ICE is fueling a broader movement against AI companies’ ties to President Trump. By Michelle Kim archive page OpenAI is throwing everything into building a fully automated researcher An exclusive conversation with OpenAI’s chief scientist, Jakub Pachocki, about his firm's new grand challenge and the future of AI. By Will Douglas Heaven archive page How Pokémon Go is giving delivery robots an inch-perfect view of the world Exclusive: Niantic's AI spinout is training a new world model using 30 billion images of urban landmarks crowdsourced from players. By Will Douglas Heaven archive page This startup wants to change how mathematicians do math Axiom Math is giving away a powerful new AI tool. But it remains to be seen if it speeds up research as much as the company hopes. By Will Douglas Heaven archive page Stay connected Illustration by Rose Wong Get the latest updates from MIT Technology Review Discover special offers, top stories, upcoming events, and more. Enter your email Privacy Policy Thank you for submitting your email! Explore more newsletters It looks like something went wrong. We’re having trouble saving your preferences. Try refreshing this page and updating them one more time. If you continue to get this message, reach out to us at customer-service@technologyreview.com with a list of newsletters you’d like to receive.