메뉴
HN
Hacker News 31일 전

LLM 정형화된 출력 평가용 새로운 벤치마크 공개

IMP
8/10
핵심 요약

비정형 데이터를 정형화된 데이터(JSON)로 변환하는 LLM의 정확성을 평가하는 새로운 벤치마크인 SOB(Structured Output Benchmark)가 소개되었습니다. 기존 벤치마크들은 단순히 문법적 오류가 없는지(스키마 준수)만 확인하여 실제 업무 환경에서 발생할 수 있는 값의 환각이나 누락 문제를 잡아내지 못했습니다. 이를 해결하기 위해 SOB는 텍스트, 이미지, 오디오라는 3가지 입력 소스를 바탕으로 값의 정확도와 구조적 완성도 등 7가지 세부 지표를 사용해 실무에 적용 가능한 모델의 진짜 추출 능력을 평가합니다.

번역된 본문

Interfaze Beta 가격 문서 블로그 로그인

구조화된 출력 벤치마크(SOB, Structured Output Benchmark) 소개

LLM은 점점 더 많은 비정형 및 반정형 소스에서 정형 데이터를 생성하기 위해 배포되고 있으며, 이는 송장 파싱, 의료 기록 처리, 회의록 변환 및 PDF를 데이터베이스 행으로 변환하는 작업 등에 활용됩니다. 결정론적 출력을 위해 워크플로우의 다음 단계는 특정 키를 읽고 특정 유형을 기대합니다. 환각(Hallucination)으로 인해 발생한 잘못된 invoice_total(송장 총액) 값이나 부정확한 날짜 값으로 인해 순서가 잘못된 배열은 하위 시스템을 조용히 고장 내버립니다. 그러나 기존의 벤치마크들은 스키마 준수 여부만 확인하거나 단일 소스 도메인 내에서 값의 정확성만 평가합니다.

한눈에 보는 상위 5개 모델 7가지 지표에서 상위 5개 모델을 나란히 비교한 결과입니다. 구조적 지표(JSON 통과율, 경로 재현율, 구조 적용범위, 타입 안정성)는 모든 모델에서 상한선에 가깝게 뭉쳐 있지만, '값의 정확도(Value Accuracy)'와 '완벽한 응답(Perfect Response)' 지표가 모델 간의 우열을 가립니다.

현재 구조화된 출력 벤치마크의 문제점 대부분의 벤치마크는 '구조화된 출력 품질'을 단일 숫자로 축소합니다. 즉, 응답이 구문 분석되는지 여부와 스키마에 대해 유효성 검사를 통과하는지만 확인합니다. 이는 필수적이지만 충분하지 않습니다.

  • 스키마 준수가 유일한 지표인 경우: 모델이 잘못된 값으로 완벽하게 유효한 JSON을 내보내도 100점을 받을 수 있습니다.
  • 단일 소스 입력(텍스트만): 실제 시스템은 깔끔한 텍스트뿐만 아니라 OCR, 스크린샷, 회의 오디오 및 PDF에서 데이터를 추출합니다.
  • 난이도 가중치 없음: 중간 및 어려운 스키마가 동일하게 점수를 받아, 중첩된 구조를 실제로 잘 처리하는 모델을 구별하지 못합니다.
  • 파싱/구조/값 오류의 분리 없음: 모델이 JSON, 스키마, 사실 중 어느 부분에서 실패했는지 알 수 없습니다.
  • 추론/사고의 연쇄(CoT) 혼합: 결과가 추출 능력 자체가 아닌 추론과 추출을 함께 측정합니다.

기존 벤치마크 참조: JSONSchemaBench | StructEval | DeepJSONEval | LLMStructBench

SOB 작동 방식 SOB는 동일한 평가 파이프라인을 사용하여 세 가지 모달리티(입력 형식)에 걸쳐 구조화된 출력을 평가합니다. 목표는 모델의 다른 모든 능력과 관계없이 순수한 추출 능력만을 분리해내는 것입니다.

세 가지 소스, 하나의 평가 파이프라인

  • 텍스트(Text): HotpotQA 컨텍스트 구절 (평가 레코드 5,000개)
  • 이미지(Image): olmOCR-bench 문서 (평가 레코드 209개)
  • 오디오(Audio): AMI Meeting Corpus 대화 (평가 레코드 115개)

모든 레코드는 JSON 스키마와 정답(Ground-truth)과 쌍을 이루며, 이 정답은 LLM 교차 확인을 통해 소스 컨텍스트와 대조하여 사람이 직접 작성 및 검증했습니다. 따라서 누락되거나 환각된 값은 명백하게 오류로 처리됩니다. 구조화된 출력 능력을 비전(Vision) 및 음성 인식(ASR) 품질과 분리하기 위해, 이미지 및 오디오 레코드는 평가 전에 텍스트로 정규화된 컨텍스트로 변환됩니다. 모델은 모달리티가 제거된 동일한 컨텍스트를 보게 되며, 남아 있는 차이는 서로 다른 콘텐츠 분포에서 모델이 스키마, 중첩 및 값 매핑을 어떻게 처리하는지에 기인합니다.

단일 지표가 아닌 7가지 지표 SOB는 모델이 어디에서 실패했는지 정확히 파악할 수 있도록 레코드당 7가지 지표를 제공합니다.

  • 값의 정확도(Value Accuracy): 검증된 정답과 완전히 일치하는 최말단 값(leaf-value) 측정 (주요 지표)
  • JSON 통과율(JSON Pass Rate): 응답이 구문 분석 가능한 JSON인지 여부
  • 타입 안정성(Type Safety): 모든 최말단 값이 선언된 JSON 스키마 유형과 일치하는지 여부
  • 구조 적용범위(Structure Coverage): 응답에 필요한 객체/배열 구조가 포함되어 있는지 여부
  • 경로 재현율(Path Recall): 필요한 모든 JSON 경로(키)가 존재하는지 여부
  • 충실도(Faithfulness): 값이 환각이 아니라 소스 컨텍스트에 기반하고 있는지 여부
  • 완벽한 응답(Perfect Response): 전체 레코드의 모든 최말단 값이 정확한지 여부

'값의 정확도(Value Accuracy)'는 실제 프로덕션 환경에서 가장 중요한 지표입니다. 이는 하위 시스템이 사람의 검토 단계 없이 신뢰할 수 있는 필드의 비율을 나타냅니다.

평가 게이트(Gate) 스키마 준수 여부만으로 점수가 부풀려지는 것을 방지하기 위해 두 가지 평가 게이트를 적용합니다:

  1. 강화 게이트(Hardening gate): JSON 파싱에 실패하면 해당 레코드의 하위 의미론적 지표는 0점 처리됩니다.
  2. 적용범위 게이트(Coverage gate): '값의 정확도'는 모델이 실제로 반환한 필드에 대해서만 인정되며, 누락된 경로는 오답으로 간주됩니다.

스키마는 쉬움, 중간 또는 어려움으로 태그가 지정됩니다. 최종 리더보드는 스키마 복잡도에 따라 가중치가 부여됩니다 (쉬움 = 1.0, ...).

원문 보기
원문 보기 (영어)
Interfaze Beta pricing docs blog sign in Introducing the Structured Output Benchmark (SOB) copy markdown LLMs are increasingly deployed to produce structured data from unstructured and semi-structured sources, parsing invoices, medical records, meeting transcripts, and converting PDFs to database rows. For deterministic output, the next step in a workflow reads a specific key and expects a specific type. A hallucinated invoice_total or an array ordered incorrectly because of inaccurate date values silently breaks downstream systems. Yet existing benchmarks either check schema compliance alone or evaluate value correctness within a single source domain. Top 5 at a glance A side-by-side look at the top 5 models across all seven metrics. The structural metrics (JSON Pass, Path Recall, Structure Coverage, Type Safety) cluster near the ceiling for every model, while Value Accuracy and Perfect Response separate them. The problem with current structured output benchmarks Most benchmarks collapse "structured output quality" into a single number: does the response parse, and does it validate against the schema? That's necessary, not sufficient. Problem in current benchmarks What it misses Schema compliance as the only metric A model can emit perfectly valid JSON with wrong values and score 100% Single-source inputs (text only) Real systems extract from OCR, screenshots, meeting audio, and PDFs, not just clean text No difficulty weighting Medium and hard schemas are scored identically, hiding which models actually handle nested structure No separation of parse / structure / value errors You can't tell if a model failed at JSON, at the schema, or at the facts Reasoning / chain-of-thought blended in Results measure reasoning + extraction together, not the extraction capability itself References to existing benchmarks: JSONSchemaBench | StructEval | DeepJSONEval | LLMStructBench How SOB works SOB evaluates structured output across three modalities using the same scoring harness. The goal is to isolate the extraction capability from every other ability a model has. Three sources, one scoring pipeline Modality Source dataset Eval records Text HotpotQA context passages 5,000 Image olmOCR-bench documents 209 Audio AMI Meeting Corpus conversations 115 Every record is paired with a JSON Schema and a ground-truth answer that was verified against the source context through human authoring with an LLM cross-check, so a missing or hallucinated value is unambiguously wrong. To isolate the structured-output capability from vision and ASR quality, image and audio records are converted to text-normalized context before scoring. Models see the same modality-stripped context, and the differences that remain are attributable to how they handle schemas, nesting, and value grounding under different content distributions. Seven metrics, not one SOB reports seven metrics per record so you can see exactly where a model fails: Metric What it measures Value Accuracy Exact leaf-value match against the verified ground truth ( primary ) JSON Pass Rate The response is parseable JSON Type Safety All leaf values match the declared JSON Schema types Structure Coverage The response includes the required object/array structure Path Recall All required JSON paths (keys) are present Faithfulness Values are grounded in the source context, not hallucinated Perfect Response Every leaf value is exactly correct for the full record Value Accuracy is the metric that matters for production. It's the share of fields a downstream system can trust without a human review step. Scoring gates Two gates prevent inflated scores from schema-only wins: Hardening gate: If JSON parse fails, downstream semantic metrics are zeroed for that record. Coverage gate: Value Accuracy is only credited on fields the model actually returned, with missing paths counting as wrong. Schemas are tagged between easy, medium or hard. The final leaderboard is schema-complexity-weighted (easy = 1.0, medium = 2.0, hard = 3.0) so hard schemas contribute more to the ranking than medium ones. The results We ran SOB on all models at temperature 0.0, max output 2048 tokens and no reasoning/thinking wherever the provider allows it, so the score reflects pure structured output and extraction capability. Unified leaderboard Rank Model Overall Value Acc Faithfulness JSON Pass Path Recall Structure Cov Type Safety Perfect 1 GPT-5.4 0.870 0.798 0.869 0.993 0.988 0.981 0.993 0.469 2 GLM-4.7 0.861 0.804 0.868 0.965 0.959 0.957 0.965 0.508 3 Qwen3.5-35B 0.861 0.801 0.863 0.969 0.962 0.960 0.969 0.500 4 Gemini-2.5-Flash 0.860 0.796 0.856 0.972 0.967 0.961 0.972 0.498 5 Qwen3-235B 0.857 0.786 0.854 0.978 0.970 0.968 0.978 0.463 6 Interfaze-Beta 0.855 0.795 0.858 0.967 0.962 0.957 0.967 0.480 7 Claude-Sonnet-4.6 0.854 0.779 0.858 0.979 0.975 0.969 0.979 0.442 8 GPT-4.1 0.850 0.783 0.853 0.969 0.963 0.959 0.969 0.454 9 GPT-5 0.849 0.769 0.859 0.983 0.978 0.972 0.983 0.398 10 Gemma-3-27B 0.847 0.777 0.842 0.969 0.961 0.958 0.969 0.454 11 Qwen3-30B 0.842 0.753 0.832 0.983 0.974 0.970 0.983 0.401 12 Nemotron-3-Nano-30B 0.841 0.747 0.817 0.987 0.975 0.971 0.987 0.400 13 GPT-5-Mini 0.835 0.751 0.837 0.972 0.966 0.960 0.972 0.388 14 Gemma-4-31B 0.833 0.778 0.843 0.943 0.934 0.934 0.943 0.461 15 Gemini-3-Flash-Preview 0.833 0.773 0.831 0.939 0.935 0.929 0.939 0.484 16 Schematron-8B 0.832 0.731 0.807 0.987 0.976 0.969 0.987 0.370 17 IBM-Granite-4.0 0.832 0.736 0.812 0.983 0.965 0.967 0.983 0.381 18 Phi-4 0.831 0.787 0.849 0.969 0.961 0.961 0.969 0.452 19 DS-R1-Distill-32B 0.827 0.747 0.819 0.960 0.945 0.947 0.960 0.411 20 Ministral-3-14B 0.778 0.700 0.773 0.906 0.898 0.896 0.906 0.368 21 GPT-OSS-20B 0.732 0.667 0.730 0.845 0.838 0.836 0.845 0.362 View the full leaderboard The top four are within 1 point of each other on overall score , but swap freely across individual metrics. Rank order is metric-specific, not absolute. Per-metric charts Each chart re-sorts all 21 models on that single metric, so you can see which models win each category (not just the overall average). To expose the gaps, each chart's x-axis starts from a floor appropriate to that metric (e.g. 60% for Value Accuracy, 80% for JSON Pass). Without that, the top cluster looks identical. Value Accuracy The metric production systems care about. Note how tightly the top cluster sits compared to the overall leaderboard spread. Faithfulness How often values are grounded in context instead of hallucinated. JSON Pass Rate Almost every modern model clears 95%+ in the unified leaderboard. This is why a pass-rate-only benchmark can't separate them anymore. Path Recall Whether all required keys appear in the output. Structure Coverage Whether nested objects and arrays are present with the correct shape. Type Safety Whether leaf values respect the declared JSON Schema types (no strings where numbers are expected). Perfect Response Rate The fraction of records where every single leaf value is exactly right. This is the hardest metric and collapses to roughly half even for the best models. The JSON-pass vs Value-Accuracy gap The single most important view: most models clear 95%+ on JSON Pass, but Value Accuracy sits 15 to 30 points lower. That gap is the space where structured output benchmarks have been lying to us. The gap column is the headline. Every model on this list passes JSON parsing 97%+ of the time, but actual leaf-value extraction drops by 17 to 26 points. Qwen3.5-35B has the tightest gap (16.8) and the highest Value Accuracy on the list, while Schematron-8B passes JSON 98.7% of the time but lands the lowest Value Accuracy at 73.1% — a 25.6 point fall. Model JSON Pass Value Accuracy Gap GPT-5.4 99.3% 79.8% 19.5 pp Nemotron-3-Nano-30B 98.7% 74.7% 24.0 pp Schematron-8B 98.7% 73.1% 25.6 pp GPT-5 98.3% 76.9% 21.4 pp Qwen3-30B 98.3% 75.3% 23.0 pp IBM-Granite-4.0 98.3% 73.6% 24.7 pp Claude-Sonnet-4.6 97.9% 77.9% 20.0 pp Qwen3-235B 97.8% 78.6% 19.2 pp Gemini-2.5-Flash 97.2% 79.6%