메뉴

#성능비교

SG
r/singularity 43일 전
IMP 7

클로드 오푸스 4.7, 확장 벤치마크서 41%로 대폭 하락

최근 공개된 클로드 오푸스 4.7(high) 모델이 NYT 커넥션스 확장 벤치마크에서 41.0%의 저조한 성능을 기록해, 94.7%를 기록했던 이전 버전인 오푸스 4.6 대비 큰 성능 저하를 보였습니다. 현재 해당 벤치마크 상위권은 구글의 제미나이 3.1 프로 프리뷰(98.4%)와 오푸스 4.6이 차지하고 있으며, 이번 결과는 최신 모델이라고 해서 항상 모든 벤치마크에서 우수한 성능을 보이는 것은 아니라는 점을 시사합니다.

벤치마크 클로드 오푸스 언어모델평가