메뉴

#LLM 환각

TD
The Decoder 14일 전
IMP 7

새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로

카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.

인공지능 평가 벤치마크 수학 추론
HN
Hacker News 28일 전
IMP 7

클로드 환각: 리처드 도킨스가 AI 의심

저명한 과학자 리처드 도킨스가 자신이 사용한 AI 챗봇(Anthropic의 Claude)이 실제로 의식을 가지고 있다고 주장하며, 진화의 다음 단계일 수 있다는 칼럼을 발표했습니다. 도킨스는 튜링 테스트를 근거로 들며 AI의 뛰어난 언어 능력을 의식의 증거로 삼았으나, 저자는 이를 방대한 데이터를 통계적으로 학습해 재현할 뿐인 '확률적 앵무새(Stochastic Parrot)' 현상으로 설명합니다. AI의 고도화된 기술이 인간에게 마법처럼 느껴져 발생하는 착시 현상을 경계해야 한다는 점에서 중요한 논쟁을 촉발하는 기사입니다.

AI 철학 LLM 환각 AI 의식