#ARC-AGI

The Decoder • 3일 전

IMP 9

클로드 오푸스 5, 진정한 지능 벤치마크서 경쟁 모델 압도

Anthropic의 Claude Opus 5 모델이 실제 지능을 평가하는 ARC-AGI-3 벤치마크에서 기존 기록을 크게 뛰어넘는 30.2%를 기록하며 새로운 1위를 차지했습니다. 특히 이 모델은 낯선 환경에서 스스로 규칙을 유추하고 대수학적 표기법을 사용하는 등 이전 AI에서는 볼 수 없었던 고도화된 논리적 추론 능력을 입증했습니다. 하지만 일부 독자적인 테스트에서는 상대적으로 작은 향상만을 보여, 벤치마크 특화 성능 향상일 가능성도 제기되고 있습니다.

Anthropic Claude Opus 5 ARC-AGI

#ARC-AGI

클로드 오푸스 5, 진정한 지능 벤치마크서 경쟁 모델 압도

최신 AI 모델들도 범하는 3가지 체계적 추론 오류