메뉴

#인간 평가

MP
MarkTechPost 47일 전
IMP 7

구글 AI, 협력·창의성 측정 LLM 프로토콜 'Vantage' 제안

구글 AI 연구팀은 표준화된 시험으로 평가하기 어려운 협력, 창의성, 비판적 사고 등 소위 '내구성 있는 기술(Durable skills)'을 평가하기 위해 대규모 언어 모델(LLM) 기반의 새로운 프로토콜인 'Vantage'를 제안했습니다. 이 프로토콜은 팀원 간의 갈등 해소나 압박 상황에서의 참신한 아이디어 도출, 논리적 허점 파악과 같은 복합적인 인간 능력을 체계적으로 측정하는 데 중점을 둡니다. 이는 AI를 활용해 단순 지식 평가를 넘어 인간의 고차원적인 소프트 스킬을 정량화한다는 점에서 큰 의의가 있습니다.

구글 AI LLM 소프트 스킬
TD
The Decoder 56일 전
IMP 8

구글 연구: AI 평가, 인간의 의견 다양성 간과

구글과 로체스터 공과대학의 공동 연구에 따르면, AI 벤치마크에서 주로 사용하는 항목당 3~5명의 인간 평가자 수는 신뢰할 수 있는 결과를 도출하기에 부족합니다. 신뢰성 있는 평가를 위해서는 항목당 최소 10명 이상의 평가자가 필요하며, 전체 예산을 테스트 항목 수와 평가자 수에 맞게 전략적으로 분배하는 것이 필수적입니다.

AI 벤치마크 인간 평가 구글 리서치