#AI 모델 평가

안스로픽 프로젝트 글래스윙 업데이트

안스로픽의 자체 소프트웨어 취약점 점검 프로젝트 '글래스윙'이 많은 취약점을 발견했지만, 실제 패치된 것은 거의 없습니다. 또한 안스로픽이 구체적인 데이터를 공개하지 않고 '우리를 믿으라'는 식으로 일관하고 있어 의구심을 사고 있습니다.

보안 취약점 안스로픽 소프트웨어 패치

TechCrunch AI • 56일 전

IMP 8

업계 반발에 트럼프, AI 감시 행정명령 축소 서명

미국 트럼프 대통령이 AI 업계의 강한 반발을 의식해, 강력한 AI 모델에 대한 사전 검토를 요구하는 행정명령의 원안을 대폭 축소한 뒤 서명했습니다. 새 명령에 따라 AI 기업들은 제품 출시 30일 전에 자발적으로 모델을 정부에 제출해 평가받도록 권고되며, 법무부는 AI 해킹 등 AI 보조 범죄를 최우선 단속 분야로 지정했습니다. 이는 미국의 AI 규제 방향성과 글로벌 기업들의 컴플라이언스에 직접적인 영향을 미치는 중요한 정책 변화입니다.

AI 규제 미국 정책 행정명령

Hacker News • 63일 전

IMP 8

DeepSWE: 데이터 오염 없는 장기 코딩 에이전트 벤치마크

기존 SWE-bench Pro의 한계를 극복하고 데이터 오염(Data Contamination) 문제를 원천적으로 차단한 새로운 소프트웨어 엔지니어링 벤치마크인 DeepSWE가 공개되었습니다. 이 벤치마크는 에이전트가 스스로 탐색하며 문제를 해결해야 하는 실제 개발 환경과 유사한 복잡한 과제를 제공하며, GPT-5.5가 70%의 해결률로 최고 성능을 기록했습니다.

벤치마크 코딩 에이전트 DeepSWE

Hacker News • 76일 전

IMP 8

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

AI 모델 평가 LMSYS Arena 성능 저하