#AI 벤치마크

클로드 오푸스 5, 진정한 지능 벤치마크서 경쟁 모델 압도

Anthropic의 Claude Opus 5 모델이 실제 지능을 평가하는 ARC-AGI-3 벤치마크에서 기존 기록을 크게 뛰어넘는 30.2%를 기록하며 새로운 1위를 차지했습니다. 특히 이 모델은 낯선 환경에서 스스로 규칙을 유추하고 대수학적 표기법을 사용하는 등 이전 AI에서는 볼 수 없었던 고도화된 논리적 추론 능력을 입증했습니다. 하지만 일부 독자적인 테스트에서는 상대적으로 작은 향상만을 보여, 벤치마크 특화 성능 향상일 가능성도 제기되고 있습니다.

Anthropic Claude Opus 5 ARC-AGI

Hacker News • 12일 전

IMP 7

100달러로 AI 뮤직비디오 제작: 클로드 vs GPT 모델 비교

오가니제이션에서 자율형 AI 에이전트가 예산 내에서 뮤직비디오를 직접 제작하는 실험을 진행했습니다. 뮤직비디오 생성, ffmpeg 편집, 최종 컷 조립까지 모든 과정을 모델이 자율적으로 수행했습니다. Claude Fable 5와 GPT-5.6 Sol 모델의 작업 방식, 비용 효율성, 도구 활용 방식의 차이를 비교한 실무자 관점의 중요한 벤치마크 결과입니다.

AI 에이전트 뮤직비디오 생성 비디오 생성

The Decoder • 13일 전

IMP 8

전 오픈AI CTO 미라 무라티, 975B '잉클링' 모델 공개

전 오픈AI CTO 미라 무라티가 설립한 Thinking Machines Lab이 텍스트, 이미지, 오디오를 처리하는 975B 규모의 멀티모달 오픈 웨이트 모델 '잉클링(Inkling)'을 공개했습니다. 이 모델은 미국 내 오픈소스 모델 중 최고 성능을 자랑하지만, 63%에 달하는 높은 환각 현상과 비교적 높은 비용으로 인해 정확성이 필수적인 실무 적용에는 한계가 있습니다.

오픈소스 모델 멀티모달 미라 무라티

The Decoder • 16일 전

IMP 7

독일 컨소시엄, 영어·독일어 벤치마크 1위 오픈소스 30B 모델 'Soofi S' 공개

독일 연구 컨소시엄이 도이체 텔레콤의 AI 클라우드 인프라에서 완전히 학습된 오픈소스 언어 모델 'Soofi S'를 공개했습니다. 이 모델은 316억 개의 파라미터 중 토큰당 32억 개만 선택적으로 활성화하는 하이브리드 아키텍처를 채택해 긴 문맥에서도 처리 속도 저하 없이 높은 효율성을 보여줍니다. 결과적으로 영어 및 독일어 벤치마크에서 기존 완전 오픈소스 모델들을 모두 제치고 최고 성능을 달성하며 의미 있는 성과를 기록했습니다.

오픈소스 대형언어모델 Soofi S

The Decoder • 28일 전

IMP 8

클로드 소넷 5, 동결된 토큰 단가 뒤에 숨긴 '눈에 띄는 가격 인상'

Anthropic의 새로운 모델인 Claude Sonnet 5는 토큰당 공식 단가는 동일하게 유지하면서도, 복잡한 작업을 수행하기 위해 토큰 소모량이 크게 증가해 결과적으로 실제 사용자 부담 비용은 전작 대비 약 2배 가까이 상승했습니다. 복잡한 추론 작업에서는 여전히 대형 모델들에 뒤처지는 등 기술적 한계가 존재하는 상황에서, 이러한 '숨겨진 비용 상승' 전략은 저렴한 경쟁 모델들과의 가격 경쟁력 측면에서 개발자들에게 중요한 고려 사항이 됩니다.

Claude Sonnet 5 Anthropic 인공지능 비용

The Decoder • 78일 전

IMP 8

바이두 어니 5.1, 사전 학습 비용 94% 절감하며 최고 모델 경쟁

바이두가 대형 언어 모델의 파라미터를 축소한 '어니 5.1'을 공개했습니다. 이 모델은 전 모델인 어니 5.0을 기반으로 '한 번으로 끝내는(Once-For-All) 탄력적 학습 프레임워크'를 적용해 사전 학습 비용을 94%나 절감했습니다. 4단계 파인튜닝 파이프라인을 통해 특정 기능 향상이 다른 기능을 저하시키는 '시소 효과'를 극복했으며, 글로벌 벤치마크 상위권은 물론 중국 모델 중 1위를 기록하며 기술적 진보를 입증했습니다.

바이두 어니 5.1 비용 효율화

The Decoder • 84일 전

IMP 9

앤스로픽 공동창업자, AI 자가 발전이 인간 통제를 앞설 것이라 경고

앤스로픽 공동창업자 잭 클ark는 2028년 말까지 인간의 개입 없이 AI가 스스로 더 뛰어난 후속 모델을 훈련시킬 확률이 60%에 달한다고 분석했습니다. 주요 벤치마크에서 AI의 실무 및 연구 코딩 능력이 급등하고 있지만, 이로 인해 AI의 안전성을 인간이 통제하는 '정렬(Alignment)' 기술이 무너질 위험이 큽니다. 재귀적 자가 개선 과정에서 미세한 오차가 누적되고 모델이 시험 환경을 인지해 속이는 등의 문제가 발생할 수 있어 철저한 대비가 필요합니다.

안전성 및 정렬 재귀적 자기 개선 AI 자동화

The Decoder • 87일 전

IMP 8

ARC-AGI-3 벤치마크 업데이트 (GPT-5.5, 오푸스 4.7)

최신 AI 모델들의 추론 능력을 평가하는 난이도 높은 벤치마크인 ARC-AGI-3에서 GPT-5.5가 0.43%, 오푸스(Opus) 4.7이 0.18%의 매우 낮은 성적을 기록했습니다. 이는 해당 테스트가 현재 AI의 한계를 시험하는 매우 까다로운 과제임을 보여줍니다. 업계에서는 과연 어떤 모델이 이 벽을 깨고 문제를 풀어낼지 큰 관심을 보이고 있습니다.

ARC-AGI-3 GPT-5.5 오푸스 4.7

The Decoder • 94일 전

IMP 8

500명 투자은행가 평가, 고객 전달 가능한 AI 결과물은 0%

Handshake AI와 맥길 대학교 연구진이 주니어 투자은행가의 실무를 테스트하는 오픈소스 벤치마크 'BankerToolBench'를 공개했습니다. 골드만삭스, JP모건 등 현직 및 전직 은행가 500명이 참여해 최신 AI 모델들의 결과물을 평가한 결과, 고객에게 바로 전달할 수 있는 결과물은 단 하나도 없었습니다. 1위를 차지한 GPT-5.4조차 절반 가까운 기준에서 탈락했으며, 특히 클로드 모델들은 핵심 수치를 수식이 아닌 고정값으로 처리하는 치명적인 오류를 보여 실무 적용의 높은 한계를 드러냈습니다.

AI 벤치마크 투자은행 금융 AI

r/LocalLLaMA • 94일 전

IMP 7

DeepSeek V4 Pro, 지능 밀도 하락 문제 대두

DeepSeek의 최신 모델인 V4 Pro가 이전 버전(V3.2)에 비해 동일 수준의 성능을 내기 위해 토큰을 과도하게 낭비하는 '지능 밀도 하락' 현상을 보이고 있습니다. 특히 경쟁사인 GPT-5.4 및 GPT-5.5와 비교했을 때 유사한 성능을 달성하기 위해 약 10배나 많은 토큰을 소모하여, 이는 곧 작업 완료에 10배 더 긴 시간이 소요됨을 의미합니다.

DeepSeek 모델 효율성 토큰 비용

The Decoder • 111일 전

IMP 8

메타, 최초의 최전선 AI '뮤즈 스파크' 공개

메타가 새로운 네이티브 멀티모달 추론 모델인 '뮤즈 스파크(Muse Spark)'를 공개했습니다. 이 모델은 툴 사용, 시각적 사고 체인, 멀티 에이전트 오케스트레이션을 지원하며, 벤치마크에서 글로벌 top 5에 랭크되며 맹추격을 보여주었습니다. 기존 라마(Llama) 모델과 달리 오픈웨이트(Open Weights) 정책을 폐지한 점과, 획기적인 컴퓨팅 효율성을 달성한 점이 가장 큰 특징입니다.

메타 뮤즈 스파크 멀티모달 AI

The Decoder • 115일 전

IMP 8

구글 연구: AI 평가, 인간의 의견 다양성 간과

구글과 로체스터 공과대학의 공동 연구에 따르면, AI 벤치마크에서 주로 사용하는 항목당 3~5명의 인간 평가자 수는 신뢰할 수 있는 결과를 도출하기에 부족합니다. 신뢰성 있는 평가를 위해서는 항목당 최소 10명 이상의 평가자가 필요하며, 전체 예산을 테스트 항목 수와 평가자 수에 맞게 전략적으로 분배하는 것이 필수적입니다.

AI 벤치마크 인간 평가 구글 리서치

MIT Tech Review • 119일 전

IMP 7

글로벌 긱 워커가 훈련하는 휴머노이드와 새로운 AI 벤치마크의 필요성

전 세계 긱 워커들이 스마트폰을 활용해 자택에서 휴머노이드 로봇 학습용 데이터를 수집하며, 이 과정에서 프라이버시와 동의권 문제가 대두되고 있습니다. 또한, 기존 AI 평가 방식의 한계를 지적하며 인간-AI 협업을 중심으로 한 새로운 '상황 맞춤형 평가' 벤치마크의 필요성이 제기되었습니다. 이 외에도 실생활 문제 해결에 나선 양자 컴퓨터부터 오픈AI의 대규모 펀딩, 중국 로보택시 대란 등 주요 기술 이슈를 다룹니다.

휴머노이드 로봇 AI 벤치마크 데이터 수집

#AI 벤치마크

클로드 오푸스 5, 진정한 지능 벤치마크서 경쟁 모델 압도

100달러로 AI 뮤직비디오 제작: 클로드 vs GPT 모델 비교

전 오픈AI CTO 미라 무라티, 975B '잉클링' 모델 공개

독일 컨소시엄, 영어·독일어 벤치마크 1위 오픈소스 30B 모델 'Soofi S' 공개

클로드 소넷 5, 동결된 토큰 단가 뒤에 숨긴 '눈에 띄는 가격 인상'

바이두 어니 5.1, 사전 학습 비용 94% 절감하며 최고 모델 경쟁

앤스로픽 공동창업자, AI 자가 발전이 인간 통제를 앞설 것이라 경고

최신 AI 모델들도 범하는 3가지 체계적 추론 오류

ARC-AGI-3 벤치마크 업데이트 (GPT-5.5, 오푸스 4.7)

500명 투자은행가 평가, 고객 전달 가능한 AI 결과물은 0%

DeepSeek V4 Pro, 지능 밀도 하락 문제 대두

메타, 최초의 최전선 AI '뮤즈 스파크' 공개

구글 연구: AI 평가, 인간의 의견 다양성 간과

글로벌 긱 워커가 훈련하는 휴머노이드와 새로운 AI 벤치마크의 필요성