메뉴
HN
Hacker News 45일 전

CPU의 시대는 끝나지 않았다: 노트북으로 돌리는 2B 모델이 GPT-3.5 터보를 능가하다

IMP
8/10
핵심 요약

구글의 오픈소스 소형 언어 모델인 Gemma 2B가 단순한 파이썬 래퍼 169줄과 일반적인 소비자용 CPU 환경(GPU 불필요)만으로 MT-Bench 벤치마크에서 약 8.0점을 기록하며 GPT-3.5 Turbo(7.94점)를 추월했습니다. 개발팀은 모델의 고질적인 논리 오류 및 제약 무시 등 7가지 실패 패턴을 분석하고 약 60줄의 파이썬 코드를 통해 이를 정교하게 수정하여 점수를 8.2점으로 끌어올렸습니다. 이를 통해 현재 AI 분야의 발목을 잡고 있는 병목 현상은 하드웨어 연산량의 한계가 아니라 소프트웨어 엔지니어링의 문제이며, 동기 부여만 있다면 개발자 누구나 주말 만에 이 격차를 좁힐 수 있음을 증명했습니다.

번역된 본문

CPU의 시대는 끝나지 않았다. Gemma 2B가 GPT-3.5 터보를 능가하다

CPU의 시대는 끝나지 않았습니다. Gemma 2B가 GPT-3.5 터보를 이 분야에서 유명하게 만든 바로 그 테스트에서 더 높은 점수를 기록했습니다. 당신의 노트북에서 실행할 수도 있고, Cloudflare를 통해 월 5달러에 이용할 수도 있습니다.

Gemma 2B는 MT-Bench에서 약 8.0점을 기록했습니다. GPT-3.5 터보는 7.94점이었습니다. 이는 GPU를 전혀 사용하지 않고 오직 노트북 CPU만을 사용한, 크기가 87배나 작은 모델이 내놓은 결과입니다. 우리는 모든 질문, 모든 턴, 모든 점수가 포함된 전체 기록을 공개하여 누구나 이를 검증할 수 있도록 했습니다.

우리는 7가지 실패 클래스를 발견했습니다. 단순한 환각(Hallucination)이 아니었습니다. 구체적인 패턴이 있었습니다: 계산은 올바르게 했지만 잘못된 숫자를 먼저 적어버린 산술 문제, 올바른 답을 증명해놓고 결국 잘못된 답을 제출한 논리 퍼즐, 흐트러진 제약 조건, 깨진 페르소나, 무시된 한정사들이 그것입니다. 각각 약 60줄의 파이썬 코드로 구성된 6가지 정교한 수정 사항을 적용했고, 하나의 알려진 한계점을 문서화했습니다. 그 결과 점수는 약 8.2까지 올랐습니다.

하드웨어는 처음부터 충분했습니다. 이 분야에서 컴퓨팅 문제라고 불렸던 것은 사실 소프트웨어 엔지니어링 문제였으며, 의지가 있는 개발자라면 누구나 주말 동안 이 격차를 좁힐 수 있습니다. 전체 기록, 코드, 수정 사항은 모두 공개되어 있습니다. 아무런 수정 사항도 적용하지 않은 날것 그대로의 모델이 작동하는 봇이 지금 텔레그램에서 실시간으로 돌아가고 있습니다. 대화해 보세요. 압박을 가해 보세요. 고장 내보세요. 그리고 방금 경험한 것에 대해 읽어보세요.

S SeqPU 팀 2026년 4월 출판 · 현장 보고서 · SeqPU.com

영원히 무료로 직접 실행해 보세요: pip install torch transformers accelerate python chat.py # 전체 스크립트는 아래에 있습니다.

첫 다운로드 이후에는 오프라인에서도 작동합니다. 계정도, API 키도 필요 없습니다. 당신의 노트북. 당신의 데이터. 그 누구도 관여하지 않습니다.

전 세계에서 접근할 수 있기를 원하시나요? Cloudflare Containers를 사용하면 월 5달러입니다. 사용하지 않을 때는 0으로 스케일링되고, 유휴 상태에서는 슬립 모드로 전환되며, 요청 시 다시 깨어납니다. 자세한 내용은 아래에 있습니다.

아니면 먼저 설치 없이 미리 사용해 보세요. 가드레일이나 스캐폴딩(보조 프롬프트 구조) 없이 순수 모델을 실행하는 봇이 지금 텔레그램에서 실시간으로 서비스 중입니다. 이 글의 모든 점수를 도출해 낸 바로 그 추론 경로입니다. 응답당 30~60초 정도 소요됩니다. GPU 클러스터에서 스트리밍하는 것이 아니라 CPU 위에서 생각하기 때문입니다.

지금 텔레그램에서 실시간 서비스 중: t.me/CPUAssistantBot SeqPU.com에 접속하여 무료 API 키를 생성한 다음, 텔레그램에서 /connect yourkey.access를 전송하세요. 모든 계정에는 수백 개의 메시지를 보낼 수 있는 충분한 무료 크레딧이 제공됩니다.

@CPUAssistantBot과의 진정한 대화. 텍스트를 입력하고, 음성을 보내고, 이야기를 들어보세요.

아무도 이것을 보지 못했습니다. 60초 안에 대화를 시작해 보세요.

  1. SeqPU.com에 접속합니다. 구글이나 이메일로 가입합니다.
  2. 'API Keys'를 클릭합니다. 'Create'를 클릭합니다. 키를 복사합니다.
  3. 텔레그램을 엽니다. t.me/CPUAssistantBot에 접속합니다. 발급받은 실제 키를 사용하여 /connect yourkey.access를 전송합니다.
  4. 대화를 시작합니다. 텍스트, 음성 메모, 이미지, PDF를 보낼 수 있습니다. 모든 신규 계정에는 수백 개의 메시지를 처리할 수 있는 무료 크레딧이 기본 제공됩니다.

GPT-3.5 터보와 필적하는 모델을 실행하는 프라이빗 CPU 추론 환경이 활성화되었습니다. 이 봇이 당신이 필요로 하는 작업을 수행한다면, 더 이상 고민할 필요가 없습니다. 그냥 사용하시면 됩니다. 왜 작동하는지 이해하고 싶거나 직접 실행하거나 그 위에 무언가를 구축하고 싶다면 계속 읽어보세요.

가설 — 그리고 MT-Bench를 선택한 이유 구글의 Gemma 4 E2B-it는 20억 파라미터(2-billion-parameter) 모델입니다. 오픈 웨이트(Open weights). 디스크 용량은 4GB입니다. 무료입니다.

우리는 이 모델이 소비자용 CPU에서 GPT-3.5 터보와 필적할 수 있다고 믿었습니다. GPT-3.5 터보는 1,750억 파라미터 규모의 폐쇄 소스 모델로, 1년 넘게 ChatGPT를 구동했으며 '프로덕션에 사용하기에 충분히 좋은' 모델의 기준을 세운 OpenAI의 GPU 클라우드에서 실행되는 모델입니다.

무려 87대 1의 크기 차이입니다. 이런 종류의 주장은 단순한 단언이 아닌 증거가 필요합니다. 그래서 우리는 모두가 이미 알고 있는 벤치마크를 선택했습니다.

MT-Bench (Zheng et al. 2023)는 글쓰기, 역할극, 추론, 수학, 코딩, 정보 추출, STEM(이공계), 인문학 분야에 걸쳐 80개의 개방형 질문과 2번의 턴으로 구성된 테스트이며 1~10점 척도로 평가됩니다. GPT-3.5 터보는 7.94점을, GPT-4는 8.99점을 기록했습니다. 지난 3년 동안 출시된 모든 주요 모델은 이 벤치마크를 기준으로 측정되었습니다. 이 평가 척도는 이미 보정되어 있으며, 별도의 설명 없이도 그 결과를 직관적으로 이해할 수 있습니다. 우리가 '약 8.0점'이라고 말할 때, 여러분은 이미 그것이 무슨 의미인지 알 것입니다.

우리는 169줄짜리 단순한 파이썬 래퍼(wrapper)를 사용해 모든 질문을 Gemma 4 E2B-it에 통과시켰습니다. 복잡한 스캐폴딩도, 추론 모드 트릭도, 파인튜닝도, 검색(RAG)도, 검증 체인도 없었습니다. 오직 모델, 채팅 템플릿, 그리고 model.generate() 함수뿐이었습니다. 엔지니어라면 누구나 첫날 작성할 법한 가장 기초적인 코드였습니다.

최종 점수: MT-Bench에서 약 8.0점. GPT-

원문 보기
원문 보기 (영어)
CPUs Aren't Dead. Gemma 2B Just Scored Higher Than GPT-3.5 Turbo on the Test That Made It Famous — Your Laptop Can Run It, or Cloudflare for $5/Mo. Gemma 2B scored ~8.0 on MT-Bench. GPT-3.5 Turbo scored 7.94. An 87-times-smaller model on a laptop CPU, no GPU anywhere in the stack. We published the full tape — every question, every turn, every score — so anyone can verify it. We found seven failure classes. Not hallucinations. Specific patterns: arithmetic where it computed correctly but committed the wrong number first, logic puzzles where it proved the right answer then shipped the wrong one, constraints it drifted on, personas it broke, qualifiers it ignored. Six surgical fixes, about 60 lines of Python each. One known limitation documented. Score climbed to ~8.2. The hardware was enough all along. What the field has been calling a compute problem is a software engineering problem — and any motivated developer can close that gap in a weekend. The tape, the code, and the fixes are all open. A bot running the raw model — no fixes applied, warts and all — is live on Telegram right now. Talk to it. Push it. Break it. Then read about what you just experienced. S The SeqPU Team PUBLISHED APRIL 2026 · FIELD REPORT · SeqPU.com Run it yourself for free, forever: pip install torch transformers accelerate python chat.py # full script below Works offline after the first download. No account. No API key. Your laptop. Your data. Nobody else involved. Want it globally accessible? Cloudflare Containers, $5/month. Scales to zero. Sleeps when idle. Wakes on request. Details below. Or preview it first — no install needed. A bot running the raw model — no guardrails, no scaffolding — is live on Telegram right now. The same inference path that produced every score in this article. Give it 30–60 seconds per response. It is thinking on a CPU, not streaming from a GPU cluster. Live on Telegram now t.me/CPUAssistantBot Go to SeqPU.com, create a free API key, send /connect yourkey.access in Telegram. Every account comes with enough free credits for hundreds of messages. Real conversation with @CPUAssistantBot — text in, voice in, story out. Nobody else saw this. Talk to it in 60 seconds. 01 Go to SeqPU.com . Sign up with Google or email. 02 Click API Keys . Click Create . Copy the key. 03 Open Telegram. Go to t.me/CPUAssistantBot . Send /connect yourkey.access with your actual key. 04 Start talking. Text, voice memos, images, PDFs. Every new account comes with enough free credits for hundreds of messages. You are live on private CPU inference running the model that matched GPT-3.5 Turbo. If the bot does what you need, you are done. Use it. If you want to understand why it works, run it yourself, or build on top of it — keep reading. The Hypothesis — And Why MT-Bench Google’s Gemma 4 E2B-it is a 2-billion-parameter model. Open weights. Four gigabytes on disk. Free. We believed it could match GPT-3.5 Turbo — a 175-billion-parameter closed-source model running on OpenAI’s GPU cloud, the model that powered ChatGPT for over a year, the model that set the bar for “good enough for production” — on a consumer CPU. An 87-to-1 size difference. That kind of claim requires proof, not assertions. So we picked the benchmark everybody already knows. MT-Bench (Zheng et al. 2023) — 80 open-ended questions, two turns each, across writing, roleplay, reasoning, math, coding, extraction, STEM, and humanities. Graded 1–10. GPT-3.5 Turbo scores 7.94. GPT-4 scores 8.99. Every major model of the last three years has been measured against it. The scale is calibrated. The comparison lands without a primer. When we say ~8.0, you already know what that means. We ran every question through Gemma 4 E2B-it with a 169-line naive Python wrapper . No scaffolding. No thinking-mode tricks. No fine-tuning. No retrieval. No verification chains. Just the model, the chat template, and model.generate() . The floor — what any engineer would write on day one. Final score: ~8.0 on MT-Bench. GPT-3.5 Turbo scores 7.94. Match. We ran the full benchmark on a CPU — 4 cores, 16 GB RAM. The same spec as any modern laptop. The model runs identically on your laptop, your mini-PC, your old ThinkPad. Same weights. Same wrapper. Same output quality. The point is what the model can do on hardware you already own, for free, offline, with nobody in between. ~8.0 MT-Bench Score 7.94 GPT-3.5 Turbo 2B Parameters 87× Smaller 4 CPU Cores $0 Forever What This Actually Means The model that matched GPT-3.5 Turbo runs on your laptop. Not on a cloud GPU. Not through an API. On the hardware sitting in front of you right now. It is a 4 GB download from HuggingFace. After the first download, it runs offline forever. No subscription. No API key. No account. No monthly bill. No vendor lock-in. No terms of service. Nobody sees your data. Nobody can revoke the weights. Nobody can change what the model will or will not answer. Forget the cost comparison with OpenAI’s API. That is the wrong frame entirely. For three years, every conversation about deploying language models started the same way: you need GPUs, you need 13–70 billion parameters, you need a cloud account, you probably need a specialist ML engineer. None of that is true anymore. The capability they were gatekeeping just walked out the door as a 4 GB download. Here is what most people in the field have not absorbed yet: open source is not catching up. It caught up. The naive baseline — no guardrails, no tricks, just the raw model — already matches GPT-3.5 Turbo. That is the floor. Add seven surgical guardrails, each about 60 lines of Python, and it climbs above. A weekend of focused work, Claude as pair programmer, no ML degree required — and you have a production-quality local AI system that competes with paid cloud services. On hardware you already own. We did not project this. We measured it. The model is strong across every category — but its failures are more interesting than its successes. They are not vague “hallucination” problems. They are specific, named, replicable failure modes at concrete commit boundaries — seven of them — each documented with tape examples, each correctable with about 60 lines of Python. The model does not need to be retrained. It needs surgical guardrails at the exact moments where its output layer flinches. With those guardrails — a calculator for arithmetic, a logic solver for formal puzzles, a per-requirement verifier for structural constraints, and a handful of regex post-passes — the projected score climbs to ~8.2 . Above GPT-3.5 Turbo. Approaching GPT-4 territory on specific question classes. Still on a laptop CPU. Still free. The honest tradeoffs: latency is 30–60 seconds per response on 4 cores versus 1–5 seconds on OpenAI’s API. Peak quality is ~8.0, not GPT-4’s 8.99 — solid workhorse reasoning, not frontier reasoning. You manage your own dependencies and model weights. And you pin to whatever version you downloaded — nobody silently upgrades or downgrades behind your back, which is a tradeoff and a feature depending on how you look at it. Eyes open. The field assumed you needed 175 billion parameters on a GPU cluster to get GPT-3.5-class output. That assumption is empirically wrong. Model Params Hardware Cost To Run MT-Bench GPT-4 ~1.7T MoE OpenAI’s GPU fleet $20/mo sub or ~$0.03–0.06/turn API 8.99 Gemma 4 E2B + guardrails 2B Your laptop CPU $0. You already own it. ~8.2 Gemma 4 E2B naive baseline 2B Your laptop CPU $0. You already own it. ~8.0 GPT-3.5 Turbo ~175B OpenAI’s GPU fleet $20/mo sub or ~$0.002/turn API 7.94 Vicuna-33B 33B A100 80GB GPU ~$1.50–2.50/hr cloud or ~$15K–20K to buy 7.12 Llama-2-70B-chat 70B 2×A100 GPUs ~$3–5/hr cloud or ~$30K–40K to buy 6.86 Vicuna-7B 7B RTX 4080 GPU ~$0.50–1/hr cloud or ~$1K–1.2K to buy 6.17 Every model below Gemma requires a GPU that costs $1,000–40,000 to buy or $0.50–5/hr to rent. Every model above Gemma is a closed-source API you pay per-token or per-month. Gemma matches the best of the paid tier on har