r/singularity • 88일 전

ARC-AGI-3 벤치마크 업데이트 (GPT-5.5, 오푸스 4.7)

IMP

8/10

핵심 요약

최신 AI 모델들의 추론 능력을 평가하는 난이도 높은 벤치마크인 ARC-AGI-3에서 GPT-5.5가 0.43%, 오푸스(Opus) 4.7이 0.18%의 매우 낮은 성적을 기록했습니다. 이는 해당 테스트가 현재 AI의 한계를 시험하는 매우 까다로운 과제임을 보여줍니다. 업계에서는 과연 어떤 모델이 이 벽을 깨고 문제를 풀어낼지 큰 관심을 보이고 있습니다.

번역된 본문

GPT-5.5: 0.43%
오푸스 4.7(Opus 4.7): 0.18%

ARC-AGI-3는 절대 만만치 않은 벤치마크입니다. 과연 어떤 모델이 마침내 이 난관을 돌파할지 매우 기대됩니다.

원문 보기

원문 보기 (영어)

\- GPT-5.5: 0.43% \- Opus 4.7: 0.18% ARC-AGI-3 is no joke. I can’t wait to see which models finally crack.

ARC-AGI-3 GPT-5.5 오푸스 4.7 AI 벤치마크 범용인공지능(AGI)

영국 AISI 테스트: GPT-5.5, 사이버 공격 성능서 클로드 마이토스와 동등

영국 AI 안전 연구소(AISI)의 테스트 결과, 오픈AI의 GPT-5.5가 앤스로픽의 '클로드 마이토스'와 동등한 수준의 해킹 및 사이버 공격 능력을 갖춘 것으로 나타났습니다. 이는 보안 취약점을 뚫는 AI의 능력이 개별적으로 학습된 결과가 아닌, 모델의 전반적인 추론 및 코딩 능력 향상에 따른 필연적인 부산물로 발생하고 있음을 시사합니다. 다만, 이러한 실험은 방어 시스템이 없는 폐쇄망에서 진행되었으며, 실제 보안이 강화된 네트워크에서의 침투 성공 여부는 여전히 미지수입니다.

AI 보안 사이버 공격 GPT-5.5