메뉴

#JSON

HN
Hacker News 31일 전
IMP 8

LLM 정형화된 출력 평가용 새로운 벤치마크 공개

비정형 데이터를 정형화된 데이터(JSON)로 변환하는 LLM의 정확성을 평가하는 새로운 벤치마크인 SOB(Structured Output Benchmark)가 소개되었습니다. 기존 벤치마크들은 단순히 문법적 오류가 없는지(스키마 준수)만 확인하여 실제 업무 환경에서 발생할 수 있는 값의 환각이나 누락 문제를 잡아내지 못했습니다. 이를 해결하기 위해 SOB는 텍스트, 이미지, 오디오라는 3가지 입력 소스를 바탕으로 값의 정확도와 구조적 완성도 등 7가지 세부 지표를 사용해 실무에 적용 가능한 모델의 진짜 추출 능력을 평가합니다.

벤치마크 LLM 평가 정형 데이터