메뉴

#AI 평가

HN
Hacker News 33일 전
IMP 7

1930년대 텍스트로 학습된 빈티지 언어모델

1931년 이전의 텍스트만으로 학습된 13B(130억 파라미터) 규모의 '빈티지 언어 모델(vintage LM)'인 Talkie가 공개되었습니다. 이 모델은 과거 사람과 대화하는 듯한 경험을 제공할 뿐만 아니라, 현대 AI가 갖고 있는 데이터 오염(contamination) 문제를 원천적으로 차단하여 AI의 일반화 및 추론 능력을 평가하는 순수한 연구 환경을 제공합니다. 연구진은 이를 통해 모델이 미래를 예측하거나 새로운 발명품을 독립적으로 발견하는 등의 능력을 테스트하며 AI의 본질적인 성능을 이해하는 데 활용할 수 있을 것으로 기대하고 있습니다.

빈티지 언어 모델 AI 평가 데이터 오염
HN
Hacker News 47일 전
IMP 8

클로드 마이토스 프리뷰 사이버 공격 능력 평가

영국 AISI가 Anthropic의 Claude Mythos Preview 모델을 평가한 결과, 이전 세대 AI 모델들을 뛰어넘어 전문가 수준의 다단계 사이버 공격을 자율적으로 수행할 수 있는 것으로 나타났습니다. 특히 인간 전문가가 20시간 걸리는 32단계 기업 네트워크 침투 시뮬레이션을 10번 시도 중 3번 완주하며 복잡한 공격 체이닝 능력을 입증했습니다. 이는 방어가 약한 기업 시스템에 대한 자율적 해킹이 가시화되었음을 의미하며, 사이버 보안 위협의 수준이 한 단계 높아졌다는 점에서 매우 중요한 지표로 평가됩니다.

사이버 보안 AI 평가 클로드
TC
TechCrunch AI 60일 전
IMP 5

a16z 투자받은 AI 스타트업 'Yupp', 폐업

실리콘밸리의 대형 벤처캐피탈로부터 투자를 받았던 크라우드소싱 기반 AI 모델 피드백 스타트업 Yupp이 창업 약 1년 만에 사업을 닫습니다. 이는 AI 평가 및 피드백 시장의 수익성 및 사업 모델 검증에 대한 어려움을 시사하는 사례입니다.

스타트업 폐업 a16z