메뉴
BL
The Decoder 51일 전

LLM, 코딩·수학은 완벽하지만 단순한 질문엔 말문 막히는 이유

IMP
8/10
핵심 요약

안드레이 카르파시(Andrej Karpathy)는 최신 AI 모델이 복잡한 코딩과 수학 문제를 완벽히 해결하면서도 단순한 일상적인 질문에는 엉뚱한 대답을 하는 현상에 대해 설명했습니다. 그 이유는 강화 학습을 통해 결과를 명확하게 검증할 수 있는 분야(코딩, 수학)에서는 AI의 발전이 압도적으로 빠르기 때문입니다. 이는 검증 가능성(Verifiability)이 향후 AI의 발전 속도와 자동화의 범위를 결정하는 핵심 요소임을 시사합니다.

번역된 본문

AI 모델은 복잡한 프로그래밍 작업은 몇 시간 만에 해결할 수 있지만, 기본적인 일상적인 질문 앞에서는 쉽게 오답을 내놓곤 합니다. 안드레이 카르파시(Andrej Karpathy)는 이것이 사실 모순이 아니라고 설명합니다.

카르파시에 따르면, 현재 사람들은 두 가지 다른 관점으로 AI의 발전을 바라보고 있습니다. 첫 번째 그룹은 무료 버전의 ChatGPT나 음성 모드를 사용해 보고, 그 어리석은 실수와 환각(Hallucination) 현상에 영향을 받아 AI에 대한 부정적인 의견을 갖고 있습니다. 카르파시는 이러한 구형 모델들이 현재 AI의 실제 수준을 반영하지 못한다고 말합니다.

두 번째 그룹은 OpenAI의 GPT-5.4 Thinking이나 Claude Opus 4.6 같은 최신 모델을 Codex나 Claude Code 같은 유능한 환경 내에서 활용하여 프로그래밍, 수학, 연구 분야의 전문적인 작업에 사용하는 사람들입니다. 카르파시는 올해 이러한 분야에서 엄청난 발전이 있었다고 말하며, 이제 모델들이 자율적으로 전체 코드베이스를 구조화하거나 보안 취약점을 스스로 찾아낼 수 있게 되었다고 덧붙였습니다.

카르파시는 이 두 그룹이 서로 엇갈린 대화를 하고 있다고 말합니다. 그는 다음과 같이 지적했습니다. "OpenAI의 무료이자 약간 방치된(?) '고급 음성 모드(Advanced Voice Mode)'가 인스타그램 릴스에 나오는 가장 단순한 질문에도 쩔쩔매는 것이 사실입니다. 하지만 '동시에', OpenAI의 최고급 유료 Codex 모델은 1시간 동안 작동하며 전체 코드베이스를 완벽하게 재구조화하거나 컴퓨터 시스템의 취약점을 찾아내고 이를 공격할 수도 있습니다."

카르파시의 견해는 더 큰 맥락을 가리킵니다. 코딩이나 수학과 같이 답이 맞는지 틀린지 명확하게 확인할 수 있고, 검증 가능한 보상을 통한 강화 학습(Reinforcement Learning)으로 구체적으로 강화할 수 있는 분야에서는 AI 발전으로부터 점점 더 많은, 특히 측정 가능한 이익을 얻고 있습니다. 반면, 글쓰기나 컨설팅처럼 최적화할 수 있는 명확한 지표가 없는 모호한 분야보다 훨씬 빠르게 발전하고 있습니다.

왜 검증 가능성이 AI 발전을 이끄는가 이는 현재 AI 연구의 핵심 질문을 제기합니다. 과연 일반 지능(General Intelligence)이 언어 모델에서 실제로 등장할 수 있는가, 아니면 이러한 모델은 특정 도메인 내에서만 잘 수행되도록 조정될 수 있는가라는 문제입니다.

카르파시는 이전 글에서 이러한 구조적 문제를 제기한 바 있습니다. 즉, '소프트웨어 2.0(Software 2.0)' 패러다임에서 중요한 것은 작업을 지시할 수 있는지의 여부가 아니라 결과를 검증할 수 있는지의 여부라는 것입니다. 시스템은 합격/불합격(Pass/Fail) 확인이나 명확한 보상 신호와 같은 자동화된 피드백을 받을 때만 강화 학습을 통해 효율적으로 훈련될 수 있습니다.

카르파시는 "작업이나 직업이 검증 가능할수록 새로운 프로그래밍 패러다임에서 자동화되기 쉽다"고 말했습니다. 작년 여름, OpenAI에서 모든 도메인에서 강화 학습이 작동하게 만들 범용 검증기(Universal Verifier)에 대한 소문이 돌았습니다. 하지만 지금까지 구체적인 것은 출시되지 않았습니다.

한편, OpenAI의 강화 학습 전략을 이끌었던 핵심 인물 중 한 명인 제리 트워렉(Jerry Tworek)은 최근 회사를 떠나며 "딥러닝 연구는 끝났다"고 말했습니다.

원문 보기
원문 보기 (영어)
LLMs crush coding and math but choke on casual questions, and that's not a contradiction Matthias Bastian View the LinkedIn Profile of Matthias Bastian Apr 10, 2026 Nano Banana Pro prompted by THE DECODER Ask about this article… Search AI models can solve complex programming tasks in hours but fall apart when faced with basic everyday questions. Andrej Karpathy explains why that's not actually a contradiction. There are two different ways people think about AI progress right now, according to Karpathy . The first group has tried the free version of ChatGPT or its voice mode and walked away with an opinion shaped by silly mistakes and hallucinations. Those outdated models don't reflect where things actually stand today, Karpathy says. The second group uses the latest models—like OpenAI's GPT-5.4 Thinking or Claude Opus 4.6—inside capable harnesses like Codex or Claude Code for professional work in programming, math, and research. Progress in these areas has been massive this year , Karpathy says, with models now capable of autonomously restructuring entire codebases or hunting down security vulnerabilities on their own . Karpathy says these two groups are basically talking past each other. Ad It really is simultaneously the case that OpenAI's free and I think slightly orphaned (?) "Advanced Voice Mode" will fumble the dumbest questions in your Instagram's reels and *at the same time*, OpenAI's highest-tier and paid Codex model will go off for 1 hour to coherently restructure an entire code base, or find and exploit vulnerabilities in computer systems. Ad DEC_D_Incontent-1 Karpathy via X Karpathy's take points to something bigger: areas like code or math, where you can clearly check whether an answer is right or wrong and specifically reinforce it through reinforcement learning with verifiable rewards , are seeing more and especially measurable gains from AI progress than fuzzy domains like writing or consulting, where there's no clean metric to optimize against. Why verifiability drives AI progress This raises a core question in AI research right now : can general intelligence actually emerge from language models, or can these models only be tuned to perform well within specific domains ? Ad Karpathy laid out this structural problem in an earlier essay : in the "Software 2.0" paradigm, what matters isn't whether you can specify a task, but whether you can verify the result. A system can only be trained efficiently through reinforcement learning when it gets automated feedback - pass/fail checks or clear reward signals. "The more a task/job is verifiable, the more amenable it is to automation in the new programming paradigm," Karpathy says. Last summer, rumors circulated about a universal verifier from OpenAI that would make reinforcement learning work across all domains. So far, nothing concrete has shipped. Meanwhile, Jerry Tworek , one of the key figures behind OpenAI's reinforcement learning strategy, recently left the company and said that "deep learning research is done." Ad DEC_D_Incontent-2 Ad AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now