메뉴
HN
Hacker News 28일 전

중국 AI 모델, 코딩 경진대회서 클로드·GPT 제쳤다

IMP
8/10
핵심 요약

중국 스타트업 문샷AI(Moonshot AI)의 오픈웨이트 모델인 'Kimi K2.6'이 실시간 프로그래밍 및 퍼즐 대회에서 서구권 주요 AI 모델들을 제치고 압도적인 1위를 차지했습니다. 특히 2위 역시 중국 샤오미의 'MiMo V2-Pro'가 차지하며, 특정 과제에서 중국산 AI 모델들의 코딩 및 전략적 추론 능력이 글로벌 최고 수준에 도달했음을 보여주었습니다.

번역된 본문

오픈웨이트 중국 모델, 프로그래밍 챌린지에서 Claude, GPT-5.5, Gemini를 제치다 2026년 4월 30일 작성자: Rohana Rezel

저는 주요 대형 언어 모델(LLM)들을 실시간 프로그래밍 과제에 참여시키고 객관적인 점수를 매겨 겨루는 진행 중인 AI 코딩 대회를 운영하고 있습니다. 12일차의 과제는 '워드 젬 퍼즐(Word Gem Puzzle)'이었습니다. 10개의 모델이 참가했으며, 그 결과는 대부분의 사람들이 예상치 못한 것이었습니다.

중국 스타트업 문샷AI(Moonshot AI)의 오픈웨이트 모델인 Kimi K2.6이 22승점(7승 1무 0패)으로 챌린지에서 완벽한 우승을 차지했습니다. 샤오미의 MiMo V2-Pro가 2위, GPT-5.5가 3위를 기록했습니다. Claude Opus 4.7은 5위에 그쳤습니다. 서구권 프론티어 연구소(빅테크)의 모든 모델이 1, 2위 아래로 내려앉았습니다.

도전 과제 워드 젬 퍼즐은 타일을 밀어서 이동시키는 글자 퍼즐입니다. 게임판은 10×10, 15×15, 20×20, 25×25 또는 30×30 크기의 직사각형 격자로, 글자 타일과 하나의 빈칸으로 채워져 있습니다. 참가 봇들은 인접한 타일을 빈칸으로 밀어 넣을 수 있으며, 언제든지 가로 또는 세로 일직선으로 형성된 유효한 영어 단어를 선점(claim)할 수 있습니다. 대각선은 인정되지 않으며, 거꾸로 읽는 것도 인정되지 않습니다.

채점 방식은 긴 단어에 보상을 주고 짧은 단어에 벌점을 줍니다. 7글자 미만의 단어는 점수가 깎입니다(예: 5글자 단어는 1점 감점, 3글자는 3점 감점). 7글자 이상의 단어는 '글자 수 - 6'의 점수를 얻으므로, 8글자 단어는 2점의 가치가 있습니다. 같은 단어는 한 번만 선점할 수 있으며, 다른 봇이 먼저 선점한 경우 점수를 얻지 못합니다.

각 모델 쌍은 격자 크기당 한 번씩 총 5라운드를 진행했으며, 라운드당 제한 시간은 10초였습니다. 격자는 실제 사전 단어를 십자말풀이 형태로 배치한 뒤, 남은 칸은 스크래블(Scrabble) 타일 빈도에 따라 가중치를 적용한 글자로 채워집니다. 마지막으로 빈칸의 위치를 섞는데, 보드가 클수록 더 강하게 섞습니다. 10×10 크기에서는 초기 배치된 시드(seed) 단어들이 그대로 유지되는 경우가 많지만, 30×30 크기에서는 거의 모든 단어가 망가집니다. 이는 결과에 매우 큰 영향을 미쳤습니다.

한편, 엔비디아의 Nemotron Super 3가 생성한 코드에는 구문 오류가 포함되어 있어 게임 서버에 접속조차 하지 못했습니다. 결국 9개의 모델만이 실제로 경쟁했습니다.

순위 및 결과 1위: Kimi K2.6 - 22승점 (7승 1무 0패) 2위: MiMo V2-Pro - 20승점 (6승 2무 0패) 3위: ChatGPT GPT-5.5 - 16승점 (5승 1무 2패) 4위: GLM 5.1 - 15승점 (5승 0무 3패) 5위: Claude Opus 4.7 - 12승점 (4승 0무 4패) 6위: Gemini Pro 3.1 - 9승점 (3승 0무 5패) 7위: Grok Expert 4.2 - 9승점 (3승 0무 5패) 8위: DeepSeek V4 - 3승점 (1승 0무 7패) 9위: Muse Spark - 0승점 (0승 0무 8패)

Kimi K2.6은 2023년에 설립된 중국 스타트업 문샷AI가 공개한 오픈웨이트 모델입니다. MiMo V2-Pro는 현재 API로만 사용 가능하지만, 샤오미는 최신 V2.5 Pro 모델의 가중치(weights)를 곧 공개할 예정이라고 확인했습니다.

Anthropic, OpenAI, Google, xAI의 모델들은 3위부터 7위 사이에 머물렀습니다. 중국 연구소 지푸AI(Zhipu AI)의 GLM 5.1은 4위를 차지했으며, 딥시크(DeepSeek)는 8위를 기록했습니다. 이는 단순히 '중국이 서구를 이겼다'는 식의 단순한 구도가 아니며, 두 특정 모델이 이번 경연에서 승리를 거둔 것입니다.

관찰 결과 이동 로그(move log)가 승리의 비결을 말해줍니다. Kimi는 공격적으로 타일을 밀어내며 승리했습니다. 이 모델의 접근 방식은 탐욕적(greedy)이었습니다. 가능한 모든 이동 경로에 대해 양수의 점수를 얻을 수 있는 새로운 단어를 만드는지 평가한 뒤, 가장 좋은 수를 실행하고 이를 반복했습니다. 양수의 가치를 가진 단어를 만들 수 있는 이동이 없으면, 사전순으로 가장 빠른 방향을 기본값으로 삼아 이동했습니다.

이로 인해 때로는 비효율적인 '가장자리 진동(edge-oscillation)'이라는 2사이클 패턴이 발생하여, 봇이 빈칸을 앞뒤로만 움직이며 진전 없이 제자리걸음을 하기도 했습니다. 시드 단어가 그대로 남아있는 작은 격자에서는 이 전략이 악영향을 미쳤습니다. 하지만 섞어버리기(scramble) 과정을 통해 거의 모든 단어가 파괴되어 단어를 재조립하는 것만이 득점의 유일한 방법이었던 30×30 격자에서는, 엄청난 양의 타일 밀기(slide) 작업이 결국 큰 성과를 거두었습니다. Kimi의 누적 점수는 대회 전체에서 가장 높은 77점이었습니다.

MiMo의 타일 밀기 코드는 저장소(repo)에 존재하지만, '0보다 큰 최고의 가치'를 찾는 임계값이 한 번도 트리거되지 않아 실제로는 타일을 단 한 번도 밀지 않았습니다. 대신 초기 격자를 스캔하여 7글자 이상의 단어를 찾는 데 곧장 들어갔고, 가능한 모든 단어를 선점하며 점수를 쓸어 담았습니다.

원문 보기
원문 보기 (영어)
Home About Us Authors Terms of Use Privacy Policy Contact Civil Liberties Economy Labour Business Industry Oil and Gas Renewable Energy Government Elections Transparency Policy Security Crime Science Environment Health International An open-weights Chinese model just beat Claude, GPT-5.5, and Gemini in a programming challenge April 30, 2026 Business , Front Page , Science By Rohana Rezel I'm running the ongoing AI Coding Contest where I pit major language models against each other in real-time programming tasks with objective scoring. Day 12 was the Word Gem Puzzle . Ten models entered. The results were not what most people would have predicted. Kimi K2.6, an open-weights model from Chinese startup Moonshot AI, won the challenge outright: 22 match points, 7-1-0. MiMo V2-Pro from Xiaomi came second. GPT-5.5 was third. Claude Opus 4.7 finished fifth. Every model from the Western frontier labs landed below the top two. The challenge The Word Gem Puzzle is a sliding-tile letter puzzle. The board is a rectangular grid (10×10, 15×15, 20×20, 25×25, or 30×30) filled with letter tiles and one blank space. Bots can slide any adjacent tile into the blank and at any point claim valid English words formed in straight horizontal or vertical lines. Diagonals don't count. Backwards doesn't count. The scoring rewards longer words and punishes short ones. Words under seven letters cost points: a five-letter word loses you one point, a three-letter word costs three. Seven letters or more score their length minus six, so an eight-letter word is worth two points. The same word can only be claimed once; if another bot gets there first, you get nothing. Each pair of models played five rounds, one per grid size, with a ten-second wall-clock limit per round. The grids are seeded with real dictionary words in a crossword-style layout, then the remaining cells are filled with letters weighted by Scrabble tile frequencies, and finally the blank is scrambled, more aggressively on larger boards. On a 10×10, many seed words survive intact. On a 30×30, almost none do. That turns out to matter a lot. The code produced by Nvidia's Nemotron Super 3 contained a syntax error, so it never connected to the game server. Nine models actually competed. Rank Model Match Points Record 1 Kimi K2.6 22 7-1-0 2 MiMo V2-Pro 20 6-2-0 3 ChatGPT GPT-5.5 16 5-1-2 4 GLM 5.1 15 5-0-3 5 Claude Opus 4.7 12 4-0-4 6 Gemini Pro 3.1 9 3-0-5 7 Grok Expert 4.2 9 3-0-5 8 DeepSeek V4 3 1-0-7 9 Muse Spark 0 0-0-8 Kimi K2.6 is open-weights, publicly available from Moonshot AI, a Chinese startup founded in 2023. MiMo V2-Pro is currently API-only; the tweet linked here is Xiaomi confirming that weights for their newer V2.5 Pro model are dropping soon. [1] https://x.com/XiaomiMiMo/status/2047840164777726076 The models from Anthropic, OpenAI, Google, and xAI placed third through seventh. GLM 5.1, from Chinese lab Zhipu AI, placed fourth. DeepSeek finished eighth. This isn't a clean China-beats-West story; it's two specific models that won. What I saw The move logs tell the story. Kimi won by sliding aggressively. Its approach was greedy: score each possible move by what new positive-value words it unlocks, execute the best one, repeat. When no move unlocked a positive word, it fell back to the first legal direction alphabetically. This caused some inefficient edge-oscillation, a 2-cycle pattern where the bot bounced the blank back and forth without progress. On smaller grids where seed words were still largely intact, that hurt. On the 30×30 grids, where the scramble had broken up nearly everything and reconstruction was the only path to points, the sheer slide volume eventually paid off. Kimi's cumulative score of 77 was the highest in the tournament. MiMo's sliding code exists in the repo, but its "best value greater than zero" threshold never triggered, so in practice it never slid once. It went straight to scanning the initial grid for words of seven letters or more and blasted all its claims in a single TCP packet. Brittle strategy: entirely dependent on the scramble leaving intact seed words. On grids where words survived, MiMo cleaned up fast. On grids where they didn't, it scored nothing. Final tally: 43 cumulative points, second place. Claude also didn't slide. The move logs show it holding up well on 25×25 boards where scramble density was still manageable, then falling apart on 30×30 where actual tile movement was needed. Not sliding is a real limitation in a puzzle built around sliding. GPT-5.5 was more conservative, roughly 120 slides per round with a cap to avoid thrashing, and showed the strongest numbers on 15×15 and 30×30 grids. Grok never slid either, yet scored reasonably on the larger boards. GLM was the most aggressive slider in the whole tournament, over 800,000 total slides, but stalled badly whenever it ran out of positive moves. DeepSeek sent malformed data every round. Zero useful output. At least it didn't make things worse by playing. Muse made things worse by playing. The scoring penalizes short words: three-letter words cost three points, four-letter words cost two, five-letter words cost one. The intent is to stop bots from carpet-bombing the board with "the" and "and" and "it." Every serious competitor filtered their dictionary to words of seven letters or more. Muse claimed everything. Every word it could find, regardless of length, fired off as a claim. On a 30×30 grid with hundreds of short valid words visible at any moment, Muse found them all and claimed every one. Its cumulative score was −15,309. It lost all eight matches and won zero rounds. There is a version of Muse that simply connected to the server and did nothing, and that version would have scored zero, a 15,309-point improvement. The gap between Muse and eighth place was larger than the gap between eighth and first. DeepSeek's malformed output tells you something about how it handles novel protocol specs under time pressure. Muse's spiral tells you something different: it saw valid words and claimed them, with no apparent model of what "valid" meant given the scoring rules. It read the task partially and executed that partial reading in full. Worth noting for anyone deploying these models on structured tasks with penalties. What surprised me I design these challenges, so I have a reasonable sense of what they test. What I didn't fully anticipate was how starkly the 30×30 grids would separate the field. On smaller boards, the difference between a static scanner and an active slider was modest. At full scale, models that could only find what was already there ran out of road. Kimi's greedy loop, flawed as it was, kept producing output when the static scanners had nothing left to claim. The other thing worth noting: MiMo and Kimi finished two points apart despite doing almost opposite things. Two different theories of the same puzzle, nearly identical results. That means the gap between first and second was partly seed variance, not just capability difference. The bigger picture One fair counterargument: this scoring system rewards aggressive word claiming, and heavily safety-tuned models may be more conservative about that kind of carpet-bombing. If so, the results reflect a mismatch between task design and aligned model behaviour, not raw capability. It's a reasonable objection. It doesn't change the outcome. One challenge doesn't overturn general benchmarks. This puzzle tests real-time decision-making and whether a model can write clean functional code that connects to a TCP server and plays a novel game correctly. It doesn't test long-context reasoning or code generation from a spec. But I've been running these challenges long enough to notice what's changing. A year ago, the assumption was that the Western frontier labs had a capability lead open-weights couldn't close. Kimi K2.6 now scores 54 on the Artificial Analysis Intelligence Index. GPT-5.5 scores 60, Claude 57. That's not parity, but it's close, and it's coming