앤스로픽 클로드 4.7, 코딩 대폭 향상 및 보안 능력 축소
앤스로픽이 자율적 코딩 능력과 이미지 해상도를 대폭 향상한 '클로드 오푸스 4.7'을 출시했습니다. 이 모델은 코딩 벤치마크에서 64.3%를 기록하며 전작 대비 큰 성능 향상을 보여주지만, 악용을 막기 위해 사이버 보안 공격 관련 능력은 의도적으로 축소 및 통제했습니다. 단, 새로운 토크나이저 도입으로 인해 실제 사용 비용이 최대 35% 증가할 수 있어 사용자의 주의가 필요합니다.
앤스로픽의 새로운 플래그십 모델인 클로드 오푸스 4.7(Claude Opus 4.7)은 코딩 작업에서 상당한 발전을 이루었습니다. 이번 훈련 과정에서 회사는 특정 사이버 보안 능력을 의도적으로 축소하려 노력했습니다.
앤스로픽은 전작인 오푸스 4.6의 직접적인 업그레이드 버전인 클로드 오푸스 4.7을 출시했습니다. 회사는 이 모델을 주로 자율적 코딩(Autonomous coding) 분야에서의 도약으로 포지셔닝하고 있습니다.
SWE-bench Pro 코딩 벤치마크에서 오푸스 4.7은 64.3%를 기록했습니다. 이는 전작의 53.4%보다 크게 향상된 수치이며, 오픈AI의 GPT-5.4가 기록한 57.7%보다도 앞서는 성과입니다. 단, 앤스로픽의 최상위 모델인 클로드 미토스 프리뷰(Claude Mythos Preview)는 여전히 77.8%로 압도적인 격차를 유지하고 있습니다.
앤스로픽에 따르면 오푸스 4.7은 전작보다 지시 사항을 훨씬 더 정확하게 따릅니다. 회사는 기존 모델에 맞춰 작성된 프롬프트가 예상치 못한 결과를 낳을 수 있다고 지적했습니다. 오푸스 4.6이 지시 사항을 대략적으로 해석하거나 일부를 건너뛰는 경향이 있었던 반면, 오푸스 4.7은 지시를 더욱 글자 그대로 해석하기 때문입니다.
이미지 해상도 3배 향상으로 시각적 이해력 개선 오푸스 4.7은 긴 변 기준 최대 2,576픽셀까지 이미지를 처리할 수 있으며, 앤스로픽은 이를 약 375만 픽셀(3.75 megapixels) 수준이라고 설명했습니다. 이는 기존 클로드 모델이 처리할 수 있었던 해상도보다 3배 이상 높은 것입니다. 이는 단순한 API 설정이 아닌 모델 수준의 변화로, 이미지가 자동으로 더 높은 해상도로 처리되지만 그만큼 더 많은 토큰을 소비하게 됩니다. 추가적인 디테일이 필요 없는 사용자는 전송 전에 이미지 해상도를 낮출 수 있습니다. 앤스로픽은 이러한 고해상도 처리가 복잡한 스크린샷을 읽어야 하는 컴퓨터 사용 에이전트나 복잡한 다이어그램에서 데이터를 추출할 때 큰 이점이 된다고 봅니다. 문서 추론 벤치마크인 OfficeQA Pro에서는 정확도가 오푸스 4.6의 57.1%에서 80.6%로 크게 향상되었습니다. 또한 생체분자 추론(biomolecular reasoning) 및 시각적 내비게이션(ScreenSpot-Pro) 벤치마크에서도 상당한 성능 향상을 보여주었습니다.
의도적인 사이버 보안 능력 통제 이번 출시의 가장 주목할 만한 측면 중 하나는 앤스로픽이 모델의 사이버 보안 능력을 다루는 방식입니다. 회사는 훈련 과정에서 특정 사이버 보안 능력을 실험적으로 차별화하여 축소하려고 시도했습니다. 새로운 안전장치는 금지되거나 고위험인 사이버 보안 사용을 시사하는 요청을 자동으로 감지하고 차단하도록 설계되었습니다.
이러한 조치의 배경에는 최근 발표된 '프로젝트 글래스윙(Project Glasswing)'이 있습니다. 이 프로젝트에서 앤스로픽은 AI 모델이 사이버 보안에 미치는 위험과 이점을 다루었습니다. 회사는 성능이 더 뛰어난 미토스 프리뷰의 출시를 제한하고, 먼저 성능이 낮은 모델에서 새로운 안전장치를 테스트하겠다고 설명한 바 있습니다. 오푸스 4.7은 이 전략에 대한 첫 번째 테스트 케이스입니다.
모델을 침투 테스트나 레드팀(Red-teaming)에 사용하려는 보안 연구원은 새롭게 마련된 '사이버 검증 프로그램(Cyber Verification Program)'에 신청할 수 있습니다.
환각(Hallucination) 현상은 감소했지만 완전히 사라지지는 않아 시스템 카드에 따르면, 앤스로픽은 환각 현상을 두 가지 유형으로 구분합니다. 조작된 인용문이나 잘못된 데이터처럼 세상에 대한 잘못된 주장인 '사실적 환각(Factual hallucination)'과 모델이 실제로는 존재하지 않는 도구나 첨부 파일에 액세스할 수 있는 것처럼 행동하는 '입력 환각(Input hallucination)'이 그것입니다. 사실적 환각의 경우, 오푸스 4.7은 네 가지 벤치마크에서 오푸스 4.6과 동등하거나 더 나은 성능을 보여줍니다.