클로드 오푸스 4.7, 확장 벤치마크서 41%로 대폭 하락
최근 공개된 클로드 오푸스 4.7(high) 모델이 NYT 커넥션스 확장 벤치마크에서 41.0%의 저조한 성능을 기록해, 94.7%를 기록했던 이전 버전인 오푸스 4.6 대비 큰 성능 저하를 보였습니다. 현재 해당 벤치마크 상위권은 구글의 제미나이 3.1 프로 프리뷰(98.4%)와 오푸스 4.6이 차지하고 있으며, 이번 결과는 최신 모델이라고 해서 항상 모든 벤치마크에서 우수한 성능을 보이는 것은 아니라는 점을 시사합니다.
확장 버전(Extended Version) 이 벤치마크는 940개의 NYT 커넥션스 퍼즐을 사용하여 대형 언어 모델(LLM)을 평가하며, 난이도를 높이기 위해 추가 단어를 포함합니다. 2025년 2월 4일 기준으로 벤치마크의 새로운 버전이 출시되었습니다. 표준 NYT 커넥션스 벤치마크는 점차 포화 상태에 이르고 있으며, o1 모델이 90.7점을 기록했고 올해 o3를 포함한 다른 추론 모델들도 출시될 예정입니다. 현재 규칙은 세 가지 카테고리만 알면 네 번째 카테고리는 자연스럽게 결정되는 방식입니다. 난이도를 높이기 위해 확장 커넥션스(Extended Connections)는 각 퍼즐에 최대 4개의 함정 단어를 추가합니다. 우리는 추가된 단어 중 해당 퍼즐에 사용된 카테고리에 맞는 것이 없도록 이중 확인을 거칩니다. 2026년 2월 2일 기준으로 새로운 퍼즐이 추가되어 총 퍼즐 수가 436개에서 940개로 확장되었습니다.
[표: 확장 버전 리더보드: 확장 버전] 순위 | 모델 | 점수(%) | 퍼즐 수 1 | Gemini 3.1 Pro Preview | 98.4 | 940 2 | gemini-3-pro-preview | 96.3 | 940 3 | Claude Opus 4.6 (high reasoning) | 94.7 | 940 4 | GPT-5.4 (xhigh reasoning) | 94.0 | 940 5 | GPT-5.4 (high reasoning) | 93.6 | 940 6 | Grok 4.20 Multi-Agent Exp Beta 0304 | 93.4 | 940 7 | GPT-5.4 (medium reasoning) | 91.9 | 940 8 | grok-4-1-fast-reasoning | 91.7 | 940 9 | Grok 4.20 0309 (Reasoning) | 90.3 | 940 10 | grok-4.20-experimental-beta-0304-reasoning | 89.5 | 940 11 | gpt-5.2-xhigh | 88.6 | 940 12 | Gemini 3 Flash Preview | 88.4 | 940 13 | GPT-5.2 Pro | 85.7 | 940 14 | Claude Sonnet 4.6 (high reasoning) | 85.7 | 940 15 | GLM-5.1 | 84.3 | 940 16 | Claude Sonnet 4.6 Thinking 32K | 82.4 | 940 17 | GLM-5 | 81.7 | 940 18 | Claude Opus 4.6 Thinking 16K | 81.7 | 940 19 | Gemma 4 31B Reasoning | 79.5 | 940 20 | Kimi K2.5 Thinking | 78.3 | 940 21 | gpt-5.2-high | 77.5 | 940 22 | GPT-5.4 Mini (xhigh reasoning) | 71.8 | 940 23 | gpt-5.2-medium | 71.4 | 940 24 | Qwen 3.6 Plus | 71.3 | 940 25 | Qwen3.5-397B-A17B | 69.2 | 940 26 | gpt-5.2-low | 66.7 | 940 27 | Qwen3.5-122B-A10B | 63.6 | 940 28 | Claude Opus 4.5 Thinking 16K | 62.6 | 940 29 | Qwen3.5-27B | 60.7 | 940 30 | Claude Opus 4.5 (no reasoning) | 60.3 | 940 31 | Claude Sonnet 4.6 Thinking 16K | 57.6 | 940 32 | Claude Opus 4.6 (no reasoning) | 55.9 | 940 33 | Claude Sonnet 4.6 (no reasoning) | 55.0 | 940 34 | DeepSeek V3.2 | 50.2 | 940 35 | Claude Sonnet 4.5 Thinking 16K | 49.4 | 940 36 | Claude Sonnet 4.5 (no reasoning) | 47.4 | 940 37 | qwen3-max-2026-01-23 | 42.1 | 940 38 | ByteDance Seed2.0 Pro | 42.1 | 940 39 | Claude Opus 4.7 (high reasoning) | 41.0 | 940 40 | Xiaomi MiMo V2 Pro | 40.9 | 940 41 | Step 3.5 Flash | 39.9 | 940 42 | MiniMax-M2.7 | 35.2 | 940 43 | GPT-5.4 (no reasoning) | 32.8 | 940 44 | LongCat Flash Thinking | 31.0 | 940 45 | Gemma 4 31B IT | 30.1 | 940 46 | minimax-m2.5 | 29.6 | 940 47 | Arcee Trinity Large Thinking | 29.5 | 940 48 | gpt-5.2-none | 28.1 | 940 49 | minimax-m2 | 27.0 | 940 50 | Claude 4.5 Haiku | 26.0 | 940 51 | grok-4-1-fast-non-reasoning | 25.1 | 940 52 | qwen3-max-thinking | 24.1 | 940 53 | minimax-m2.1 | 22.7 | 940 54 | Baidu Ernie 5.0 | 21.2 | 940 55 | Gemini 3.1 Flash-Lite Preview | 19.7 | 940 56 | Grok 4.20 0309 (Non-Reasoning) | 19.2 | 940 57 | Llama 4 Maverick | 18.4 | 940 58 | DeepSeek V3.2 (no reasoning) | 17.8 | 940 59 | grok-4.20-experimental-beta-0304-non-reasoning | 17.6 | 940 60 | Mistral Large 3 | 17.2 | 940 61 | Mistral Medium 3.1 | 15.5 | 940 62 | Claude Opus 4.7 (no reasoning) | 15.3 | 940
퍼즐 수준 결과의 상관관계: 히트맵
최신 100개 퍼즐. LLM의 학습 데이터에 정답이 포함되어 있을 가능성을 방지하기 위해, 우리는 가장 최근의 퍼즐 100개만 테스트했습니다. 초기 퍼즐의 난이도가 낮았기 때문에 낮은 점수가 반드시 NYT 커넥션스 정답이 학습 데이터에 포함되어 있음을 의미하지는 않는다는 점에 유의하세요.
[표: 확장 버전 기준 최신 100개 퍼즐]
인간 vs. LLM 최고 수준의 언어 모델(LLM)이 뉴욕 타임스 커넥션스 퍼즐에서 인간과 어떻게 비교되는지 알아보기 위해, 우리는 u/Bryschien1996이 분석한 2024년 12월부터 2025년 2월까지의 공식 NYT 성능 데이터를 인간의 게임 경험을 반영한 시뮬레이션 설정과 함께 사용했습니다. 이 설정은 풀이자가 그룹을 반복적으로 제안하고, 피드백("정답", "하나 차이", "오답")을 받으며, 실패하기 전까지 최대 4번의 실수가 허용되는 다단계 프로세스를 포함합니다. NYT 데이터에 따르면, 평균적인 인간 플레이어는 2024년 12월부터 2025년 2월까지 3개월 동안 약 71%의 퍼즐을 해결했습니다.