중국 AI 모델, 코딩 경진대회서 클로드·GPT 제쳤다
중국 스타트업 문샷AI(Moonshot AI)의 오픈웨이트 모델인 'Kimi K2.6'이 실시간 프로그래밍 및 퍼즐 대회에서 서구권 주요 AI 모델들을 제치고 압도적인 1위를 차지했습니다. 특히 2위 역시 중국 샤오미의 'MiMo V2-Pro'가 차지하며, 특정 과제에서 중국산 AI 모델들의 코딩 및 전략적 추론 능력이 글로벌 최고 수준에 도달했음을 보여주었습니다.
오픈웨이트 중국 모델, 프로그래밍 챌린지에서 Claude, GPT-5.5, Gemini를 제치다 2026년 4월 30일 작성자: Rohana Rezel
저는 주요 대형 언어 모델(LLM)들을 실시간 프로그래밍 과제에 참여시키고 객관적인 점수를 매겨 겨루는 진행 중인 AI 코딩 대회를 운영하고 있습니다. 12일차의 과제는 '워드 젬 퍼즐(Word Gem Puzzle)'이었습니다. 10개의 모델이 참가했으며, 그 결과는 대부분의 사람들이 예상치 못한 것이었습니다.
중국 스타트업 문샷AI(Moonshot AI)의 오픈웨이트 모델인 Kimi K2.6이 22승점(7승 1무 0패)으로 챌린지에서 완벽한 우승을 차지했습니다. 샤오미의 MiMo V2-Pro가 2위, GPT-5.5가 3위를 기록했습니다. Claude Opus 4.7은 5위에 그쳤습니다. 서구권 프론티어 연구소(빅테크)의 모든 모델이 1, 2위 아래로 내려앉았습니다.
도전 과제 워드 젬 퍼즐은 타일을 밀어서 이동시키는 글자 퍼즐입니다. 게임판은 10×10, 15×15, 20×20, 25×25 또는 30×30 크기의 직사각형 격자로, 글자 타일과 하나의 빈칸으로 채워져 있습니다. 참가 봇들은 인접한 타일을 빈칸으로 밀어 넣을 수 있으며, 언제든지 가로 또는 세로 일직선으로 형성된 유효한 영어 단어를 선점(claim)할 수 있습니다. 대각선은 인정되지 않으며, 거꾸로 읽는 것도 인정되지 않습니다.
채점 방식은 긴 단어에 보상을 주고 짧은 단어에 벌점을 줍니다. 7글자 미만의 단어는 점수가 깎입니다(예: 5글자 단어는 1점 감점, 3글자는 3점 감점). 7글자 이상의 단어는 '글자 수 - 6'의 점수를 얻으므로, 8글자 단어는 2점의 가치가 있습니다. 같은 단어는 한 번만 선점할 수 있으며, 다른 봇이 먼저 선점한 경우 점수를 얻지 못합니다.
각 모델 쌍은 격자 크기당 한 번씩 총 5라운드를 진행했으며, 라운드당 제한 시간은 10초였습니다. 격자는 실제 사전 단어를 십자말풀이 형태로 배치한 뒤, 남은 칸은 스크래블(Scrabble) 타일 빈도에 따라 가중치를 적용한 글자로 채워집니다. 마지막으로 빈칸의 위치를 섞는데, 보드가 클수록 더 강하게 섞습니다. 10×10 크기에서는 초기 배치된 시드(seed) 단어들이 그대로 유지되는 경우가 많지만, 30×30 크기에서는 거의 모든 단어가 망가집니다. 이는 결과에 매우 큰 영향을 미쳤습니다.
한편, 엔비디아의 Nemotron Super 3가 생성한 코드에는 구문 오류가 포함되어 있어 게임 서버에 접속조차 하지 못했습니다. 결국 9개의 모델만이 실제로 경쟁했습니다.
순위 및 결과 1위: Kimi K2.6 - 22승점 (7승 1무 0패) 2위: MiMo V2-Pro - 20승점 (6승 2무 0패) 3위: ChatGPT GPT-5.5 - 16승점 (5승 1무 2패) 4위: GLM 5.1 - 15승점 (5승 0무 3패) 5위: Claude Opus 4.7 - 12승점 (4승 0무 4패) 6위: Gemini Pro 3.1 - 9승점 (3승 0무 5패) 7위: Grok Expert 4.2 - 9승점 (3승 0무 5패) 8위: DeepSeek V4 - 3승점 (1승 0무 7패) 9위: Muse Spark - 0승점 (0승 0무 8패)
Kimi K2.6은 2023년에 설립된 중국 스타트업 문샷AI가 공개한 오픈웨이트 모델입니다. MiMo V2-Pro는 현재 API로만 사용 가능하지만, 샤오미는 최신 V2.5 Pro 모델의 가중치(weights)를 곧 공개할 예정이라고 확인했습니다.
Anthropic, OpenAI, Google, xAI의 모델들은 3위부터 7위 사이에 머물렀습니다. 중국 연구소 지푸AI(Zhipu AI)의 GLM 5.1은 4위를 차지했으며, 딥시크(DeepSeek)는 8위를 기록했습니다. 이는 단순히 '중국이 서구를 이겼다'는 식의 단순한 구도가 아니며, 두 특정 모델이 이번 경연에서 승리를 거둔 것입니다.
관찰 결과 이동 로그(move log)가 승리의 비결을 말해줍니다. Kimi는 공격적으로 타일을 밀어내며 승리했습니다. 이 모델의 접근 방식은 탐욕적(greedy)이었습니다. 가능한 모든 이동 경로에 대해 양수의 점수를 얻을 수 있는 새로운 단어를 만드는지 평가한 뒤, 가장 좋은 수를 실행하고 이를 반복했습니다. 양수의 가치를 가진 단어를 만들 수 있는 이동이 없으면, 사전순으로 가장 빠른 방향을 기본값으로 삼아 이동했습니다.
이로 인해 때로는 비효율적인 '가장자리 진동(edge-oscillation)'이라는 2사이클 패턴이 발생하여, 봇이 빈칸을 앞뒤로만 움직이며 진전 없이 제자리걸음을 하기도 했습니다. 시드 단어가 그대로 남아있는 작은 격자에서는 이 전략이 악영향을 미쳤습니다. 하지만 섞어버리기(scramble) 과정을 통해 거의 모든 단어가 파괴되어 단어를 재조립하는 것만이 득점의 유일한 방법이었던 30×30 격자에서는, 엄청난 양의 타일 밀기(slide) 작업이 결국 큰 성과를 거두었습니다. Kimi의 누적 점수는 대회 전체에서 가장 높은 77점이었습니다.
MiMo의 타일 밀기 코드는 저장소(repo)에 존재하지만, '0보다 큰 최고의 가치'를 찾는 임계값이 한 번도 트리거되지 않아 실제로는 타일을 단 한 번도 밀지 않았습니다. 대신 초기 격자를 스캔하여 7글자 이상의 단어를 찾는 데 곧장 들어갔고, 가능한 모든 단어를 선점하며 점수를 쓸어 담았습니다.