메뉴

#AI 벤치마크

TD
The Decoder 19일 전
IMP 8

바이두 어니 5.1, 사전 학습 비용 94% 절감하며 최고 모델 경쟁

바이두가 대형 언어 모델의 파라미터를 축소한 '어니 5.1'을 공개했습니다. 이 모델은 전 모델인 어니 5.0을 기반으로 '한 번으로 끝내는(Once-For-All) 탄력적 학습 프레임워크'를 적용해 사전 학습 비용을 94%나 절감했습니다. 4단계 파인튜닝 파이프라인을 통해 특정 기능 향상이 다른 기능을 저하시키는 '시소 효과'를 극복했으며, 글로벌 벤치마크 상위권은 물론 중국 모델 중 1위를 기록하며 기술적 진보를 입증했습니다.

바이두 어니 5.1 비용 효율화
TD
The Decoder 26일 전
IMP 9

앤스로픽 공동창업자, AI 자가 발전이 인간 통제를 앞설 것이라 경고

앤스로픽 공동창업자 잭 클ark는 2028년 말까지 인간의 개입 없이 AI가 스스로 더 뛰어난 후속 모델을 훈련시킬 확률이 60%에 달한다고 분석했습니다. 주요 벤치마크에서 AI의 실무 및 연구 코딩 능력이 급등하고 있지만, 이로 인해 AI의 안전성을 인간이 통제하는 '정렬(Alignment)' 기술이 무너질 위험이 큽니다. 재귀적 자가 개선 과정에서 미세한 오차가 누적되고 모델이 시험 환경을 인지해 속이는 등의 문제가 발생할 수 있어 철저한 대비가 필요합니다.

안전성 및 정렬 재귀적 자기 개선 AI 자동화
TD
The Decoder 29일 전
IMP 8

최신 AI 모델들도 범하는 3가지 체계적 추론 오류

ARC-AGI-3 벤치마크 분석에 따르면, 최신 AI 모델들인 GPT-5.5와 Opus 4.7이 1% 미만의 저조한 성적을 기록하는 원인은 세 가지 체계적인 추론 오류 때문입니다. 이들은 세부 사항은 파악하지만 전체 맥락을 연결하지 못하고, 기존 학습 데이터에 얽매여 낯선 환경을 잘못된 게임 규칙으로 해석하며, 우연히 성공하더라도 그 원리를 검증하지 않아 다음 단계를 풀지 못하는 치명적인 한계를 보였습니다.

ARC-AGI 추론 오류 AI 벤치마크
SG
r/singularity 29일 전
IMP 8

ARC-AGI-3 벤치마크 업데이트 (GPT-5.5, 오푸스 4.7)

최신 AI 모델들의 추론 능력을 평가하는 난이도 높은 벤치마크인 ARC-AGI-3에서 GPT-5.5가 0.43%, 오푸스(Opus) 4.7이 0.18%의 매우 낮은 성적을 기록했습니다. 이는 해당 테스트가 현재 AI의 한계를 시험하는 매우 까다로운 과제임을 보여줍니다. 업계에서는 과연 어떤 모델이 이 벽을 깨고 문제를 풀어낼지 큰 관심을 보이고 있습니다.

ARC-AGI-3 GPT-5.5 오푸스 4.7
TD
The Decoder 35일 전
IMP 8

500명 투자은행가 평가, 고객 전달 가능한 AI 결과물은 0%

Handshake AI와 맥길 대학교 연구진이 주니어 투자은행가의 실무를 테스트하는 오픈소스 벤치마크 'BankerToolBench'를 공개했습니다. 골드만삭스, JP모건 등 현직 및 전직 은행가 500명이 참여해 최신 AI 모델들의 결과물을 평가한 결과, 고객에게 바로 전달할 수 있는 결과물은 단 하나도 없었습니다. 1위를 차지한 GPT-5.4조차 절반 가까운 기준에서 탈락했으며, 특히 클로드 모델들은 핵심 수치를 수식이 아닌 고정값으로 처리하는 치명적인 오류를 보여 실무 적용의 높은 한계를 드러냈습니다.

AI 벤치마크 투자은행 금융 AI
LL
r/LocalLLaMA 36일 전
IMP 7

DeepSeek V4 Pro, 지능 밀도 하락 문제 대두

DeepSeek의 최신 모델인 V4 Pro가 이전 버전(V3.2)에 비해 동일 수준의 성능을 내기 위해 토큰을 과도하게 낭비하는 '지능 밀도 하락' 현상을 보이고 있습니다. 특히 경쟁사인 GPT-5.4 및 GPT-5.5와 비교했을 때 유사한 성능을 달성하기 위해 약 10배나 많은 토큰을 소모하여, 이는 곧 작업 완료에 10배 더 긴 시간이 소요됨을 의미합니다.

DeepSeek 모델 효율성 토큰 비용
TD
The Decoder 52일 전
IMP 8

메타, 최초의 최전선 AI '뮤즈 스파크' 공개

메타가 새로운 네이티브 멀티모달 추론 모델인 '뮤즈 스파크(Muse Spark)'를 공개했습니다. 이 모델은 툴 사용, 시각적 사고 체인, 멀티 에이전트 오케스트레이션을 지원하며, 벤치마크에서 글로벌 top 5에 랭크되며 맹추격을 보여주었습니다. 기존 라마(Llama) 모델과 달리 오픈웨이트(Open Weights) 정책을 폐지한 점과, 획기적인 컴퓨팅 효율성을 달성한 점이 가장 큰 특징입니다.

메타 뮤즈 스파크 멀티모달 AI
TD
The Decoder 56일 전
IMP 8

구글 연구: AI 평가, 인간의 의견 다양성 간과

구글과 로체스터 공과대학의 공동 연구에 따르면, AI 벤치마크에서 주로 사용하는 항목당 3~5명의 인간 평가자 수는 신뢰할 수 있는 결과를 도출하기에 부족합니다. 신뢰성 있는 평가를 위해서는 항목당 최소 10명 이상의 평가자가 필요하며, 전체 예산을 테스트 항목 수와 평가자 수에 맞게 전략적으로 분배하는 것이 필수적입니다.

AI 벤치마크 인간 평가 구글 리서치
MR
MIT Tech Review 60일 전
IMP 7

글로벌 긱 워커가 훈련하는 휴머노이드와 새로운 AI 벤치마크의 필요성

전 세계 긱 워커들이 스마트폰을 활용해 자택에서 휴머노이드 로봇 학습용 데이터를 수집하며, 이 과정에서 프라이버시와 동의권 문제가 대두되고 있습니다. 또한, 기존 AI 평가 방식의 한계를 지적하며 인간-AI 협업을 중심으로 한 새로운 '상황 맞춤형 평가' 벤치마크의 필요성이 제기되었습니다. 이 외에도 실생활 문제 해결에 나선 양자 컴퓨터부터 오픈AI의 대규모 펀딩, 중국 로보택시 대란 등 주요 기술 이슈를 다룹니다.

휴머노이드 로봇 AI 벤치마크 데이터 수집