LLM 평가자는 개별 출력을 평가하는 데는 노이즈가 많아 신뢰하기 어렵지만, 충분한 샘플을 바탕으로 여러 에이전트의 평균 성능을 비교할 때는 노이즈가 상쇄되어 신뢰할 수 있는 결과를 제공합니다. 따라서 평가자가 완벽하지 않더라도 오프라인 환경에서 최적의 프롬프트나 모델을 선택하고 에이전트를 지속적으로 개선하는 데 매우 유용하게 활용될 수 있습니다.
번역된 본문
매우 노이즈가 많은 LLM 평가자도 AI 에이전트 개선에 유용하다
2026년 5월 12일 · Alan Mishler
요약
LLM 평가자는 종종 노이즈(Noise)가 많고 실제 결과와의 상관관계가 약합니다. 노이즈가 많은 평가자는 단일 출력을 판단해야 하는 프로덕션 결정(예: 가드레일)에는 가치가 제한적입니다. 하지만 매우 노이즈가 많은 평가자라도 어떤 에이전트가 평균적으로 더 나은지 확실하게 알려줄 수 있으므로, 배포할 최적의 변형(Variant)을 선택하고 시간이 지남에 따라 이를 개선하는 데 여전히 큰 도움이 됩니다.
신뢰할 수 있는 LLM 평가자를 개발하는 것은 놀라울 정도로 어렵습니다. 평가자는 종종 노이즈가 많고 실무자가 실제로 중요하게 여기는 지표나 결과와의 상관관계가 낮습니다. 때로는 목표가 직접적으로 측정 가능하지만 평가자가 전문가와 여전히 의견이 일치하지 않기도 합니다(예: 정확성이나 원본 문서에 대한 충실성). 또 다른 경우에는 프록시(Proxy)를 통해서만 목표에 접근할 수 있습니다(예: 테스트를 통과한 코드가 실제로 사용자의 요구를 충족하는지 여부). 그리고 때로는 목표를 전혀 관찰하기 어려운 경우도 있습니다(예: 고객이 상호작용에 실제로 만족했는지 여부).
왜 신뢰할 수 있는 LLM 평가자를 개발하는 것은 이렇게나 어려울까요? 규칙 기반 및 전통적인 NLP 지표는 종종 취약하고 중요한 의미적 차원을 간과합니다. 학습된 보상 모델(Reward models)은 분포 이동(Distribution shift)과 보상 해킹(Reward hacking)에 취약합니다. 'LLM-as-a-judge(심판으로서의 LLM)' 설정에 대한 연구는 체계적인 편향과 한계를 반복적으로 문서화했습니다. 즉, 평가자는 표면적인 스타일에 크게 휘둘리고, 품질이 비슷하다면 더 짧은 응답보다 더 긴 응답을 선호하며, 반복된 평가와 사소한 프롬프트 변형에 일관성이 없고, 인간의 판단과 잘 맞지 않으며, 예측하고자 하는 다운스트림 결과와 상관관계가 약할 수 있습니다.
평가자의 품질은 두 가지 세분성(Granularity)으로 측정할 수 있습니다.
출력 수준 상관관계(Output-level correlation)는 개별 출력에 대한 점수가 실제 결과와 얼마나 잘 일치하는지를 측정합니다. 이는 개별 출력에 따라 결정이 내려지고 노이즈가 많은 평가자를 신뢰할 수 없는 프로덕션 워크플로우(예: 가드레일)를 좌우합니다. 출력 수준 상관관계가 낮은 경우, 해당 평가자를 특정 지표나 관심 결과에 대해 노이즈가 많다고 부르겠습니다.
에이전트 수준 상관관계(Agent-level correlation)는 여러 출력에 대한 평가자의 평균이 에이전트의 실제 품질과 얼마나 잘 일치하는지를 측정합니다. 이는 오프라인 변형 선택(예: 최적의 프롬프트나 모델 선택)을 좌우하며, 출력 수준 상관관계와 달리 출력당 노이즈가 평균화됨에 따라 일반적으로 샘플 크기가 증가할수록 상승합니다. 매우 노이즈가 많은 평가자도 오프라인 선택에는 신뢰할 수 있으며, 이는 오늘날 더 나은 에이전트를 배포하고 지속적으로 개선하는 데 충분합니다.
노이즈가 많은 평가자도 여전히 에이전트의 순위를 매길 수 있는 이유
핵심 통찰력은 매우 노이즈가 많은 평가자라도 실제로 품질이 더 높은 에이전트에 대해 평균적으로 더 높은 점수를 산출할 수 있다는 것입니다. 노이즈는 많은 샘플에 걸쳐 상쇄되기 때문입니다. 이를 공식화하기 위해 비교하려는 두 에이전트 A와 B가 있다고 가정해 보겠습니다. 문제 설정에서 A와 B의 실제 평균 점수를 각각 μA와 μB라고 하며, 여기서 '실제 점수'는 우리가 이상적으로 측정하고자 하는 것(예: 에이전트가 고객의 쿼리를 얼마나 잘 처리했는지, 실행 가능한 코드를 생성했는지 여부)을 의미합니다. 점수가 높을수록 좋다고 가정할 때, μA > μB라면 A가 B보다 낫다고 말할 것입니다.
이제 평가 점수를 실제 점수의 노이즈가 포함된 버전으로 간주할 수 있는 평가자가 있다고 가정해 보겠습니다. 다음은 노이즈가 점진적으로 증가하는 평가자에 대한 세 가지 가상적인 실제 점수와 평가 점수 샘플입니다. 가장 왼쪽에 있는 평가자는 프로덕션 환경에서 개별 출력을 판단할 만큼 정확합니다. 가장 오른쪽에 있는 것은 그렇지 않습니다. 단일 출력에 대한 평판은 너무 노이즈가 많아 신뢰할 수 없습니다. 그러나 오프라인 환경에서 평가자를 사용하여 A와 B 중 하나를 선택한다면, 모든 개별 값이 정확할 필요는 없습니다. 우리는 평가자가 전반적으로 어느 에이전트가 더 나은지 알려주기만 하면 됩니다. 평가 샘플이 충분히 크다면, 이 세 평가자 모두 그 역할을 해낼 것입니다.
Even (very) noisy LLM evaluators are useful for improving AI agents May 12, 2026 · Alan Mishler Summary LLM evaluators are often noisy and weakly correlated with real-world outcomes. Noisy evaluators have limited value for production decisions that hinge on judging a single output (e.g. guardrails). However, even (very) noisy evaluators can reliably tell you which agent is better on average, meaning they can still help you pick the best variant to deploy and improve it over time. It’s surprisingly hard to develop reliable LLM evaluators: they’re often noisy and poorly correlated with the metrics or outcomes practitioners actually care about. Sometimes the target is directly measurable but evaluators still disagree with experts (e.g. on correctness or faithfulness to a source document). Other times the target is only accessible through a proxy (e.g. whether code that passes tests satisfies user needs). And sometimes the target is hard to observe at all (e.g. whether a customer was actually happy with an interaction). Why is it so hard to develop reliable LLM evaluators? Rule-based and classical NLP metrics are often brittle and miss the semantic dimensions that matter. 1 , 2 Learned reward models are vulnerable to distribution shift 3 and reward hacking. 4 Studies of LLM-as-a-judge setups have repeatedly documented systematic biases and limitations: judges are heavily swayed by surface-level style, 5 prefer longer responses to shorter ones of similar quality, 6 are inconsistent across repeated evaluators and minor prompt variations, 7 often align poorly with human judgments, 8 and may correlate weakly with the downstream outcomes they’re meant to predict. 9 An evaluator’s quality can be measured at two granularities: Output-level correlation measures how well its score on individual outputs matches real-world outcomes. It governs production workflows (e.g. guardrails), where decisions hinge on individual outputs and noisy evaluators are unreliable. We’ll call an evaluator noisy with respect to a metric or outcome of interest if its output-level correlation is low. Agent-level correlation measures how well its average over many outputs matches an agent’s real-world quality. It governs offline variant selection (e.g. picking the best prompt or model), and, unlike output-level correlation, it generally climbs with sample size as per-output noise averages out. Even very noisy evaluators can be reliable for offline selection: enough to ship better agents today and keep improving them over time. Why noisy evaluators can still rank agents The key insight is that even a very noisy evaluator can yield scores that are higher on average for agents that truly are higher quality: the noise washes out over many samples. To formalize this, suppose we have two agents we want to compare, A A A and B B B . Let μ A \mu_A μ A and μ B \mu_B μ B represent the mean true scores for A A A vs B B B in the problem setting of interest, where true score refers to the thing we’d ideally want to measure, like how well the agent handled a customer’s query or whether it produced runnable code. Suppose that higher scores are better. Then we’d say that A A A is better than B B B if μ A > μ B \mu_A > \mu_B μ A > μ B . Now suppose we have an evaluator whose scores can be regarded as noisy versions of the true scores. Here are three hypothetical samples of true scores and evaluator scores for increasingly noisy evaluators: The leftmost evaluator is accurate enough to judge individual outputs in production. The rightmost isn’t: its verdict on any single output is too noisy to trust. However, if we’re using an evaluator offline to choose between A A A and B B B , then we don’t need every individual value to be accurate. We just need the evaluator to tell us which agent is better overall. All three evaluators will do that, given sufficiently large evaluation samples. Suppose Agent A A A has true-score mean μ A = 0.6 \mu_A = 0.6 μ A = 0.6 and Agent B B B has μ B = 0.3 \mu_B = 0.3 μ B = 0.3 , so A A A is the better agent. Below are the same scatterplots as in the figure above, but with each output now colored by which agent it came from. Let μ ^ A \widehat{\mu}_A μ A and μ ^ B \widehat{\mu}_B μ B be the average evaluator scores for each agent, shown as horizontal dashed lines on each plot. In all three initial samples, μ ^ A > μ ^ B \widehat{\mu}_A > \widehat{\mu}_B μ A > μ B , meaning the evaluator correctly leads us to choose the better agent. Sampling details For each agent, we model the distribution of true scores as a Beta distribution parameterized by its mean μ ∈ ( 0 , 1 ) \mu \in (0, 1) μ ∈ ( 0 , 1 ) and a fixed concentration κ > 0 \kappa > 0 κ > 0 : S ∼ Beta ( κ μ , κ ( 1 − μ ) ) . S \sim \text{Beta}\left(\kappa\mu,\; \kappa(1 - \mu)\right). S ∼ Beta ( κ μ , κ ( 1 − μ ) ) . The mean of the distribution is exactly μ \mu μ , and increasing κ \kappa κ concentrates mass more tightly around μ \mu μ . We use κ = 5 \kappa = 5 κ = 5 , μ A = 0.6 \mu_A = 0.6 μ A = 0.6 , and μ B = 0.3 \mu_B = 0.3 μ B = 0.3 , which gives each agent a unimodal distribution with moderate spread while keeping the two visually comparable. For each evaluator with noise σ \sigma σ , the evaluator score for an output with true score S S S is V = clip ( S + ε , 0 , 1 ) , ε ∼ N ( 0 , σ 2 ) , V = \text{clip}(S + \varepsilon,\; 0,\; 1),\qquad \varepsilon \sim \mathcal{N}(0, \sigma^2), V = clip ( S + ε , 0 , 1 ) , ε ∼ N ( 0 , σ 2 ) , with σ = 0.03 , 0.12 , 0.25 \sigma = 0.03,\; 0.12,\; 0.25 σ = 0.03 , 0.12 , 0.25 for the slightly, moderately, and very noisy evaluators, respectively. Each click of the “Draw new samples” button shows a fresh random realization with N = 30 N = 30 N = 30 trajectories per agent; the empirical means μ ^ A , μ ^ B \widehat{\mu}_A, \widehat{\mu}_B μ A , μ B are the average evaluator scores within each agent’s sample. Even though the samples are noisier as we move from left to right, they still tend to produce the correct ordering ( μ ^ A > μ ^ B \widehat{\mu}_A > \widehat{\mu}_B μ A > μ B ) once they’re averaged. Of course, these values are random, so there’s always some chance that the empirical means will mislead us, pointing to the worse agent as the better one. How likely that is depends on a few things: How separated the agents are. A bigger gap between μ A \mu_A μ A and μ B \mu_B μ B , relative to the variances of the scores, makes it easier to preserve the correct ordering under noise. How noisy the evaluator is. A less noisy evaluator narrows the spread (lowers the variances) of μ ^ A \widehat{\mu}_A μ A and μ ^ B \widehat{\mu}_B μ B , making the correct ordering more likely at any given sample size. How many evaluator samples we have. Empirical means concentrate around their expected values as the sample size N N N grows, so larger evaluation datasets give more reliable comparisons — no matter how well separated the agents are or how noisy the evaluator. In general, even noisy evaluators can reliably distinguish stronger from weaker agents, given a sufficiently large evaluation dataset. How big does an evaluation dataset need to be? The sample size required to reliably distinguish two agents scales inversely with the square of the performance gap between them — halving the gap roughly quadruples the number of samples you need. This squared scaling comes from how the sampling distribution of a mean tightens with N N N : the variance of a sample mean shrinks as 1 / N 1/N 1/ N , so its standard error shrinks as 1 / N 1/\sqrt{N} 1/ N , and reliably resolving a gap of size Δ \Delta Δ requires the standard error to be small relative to Δ \Delta Δ — i.e., N N N to grow as 1 / Δ 2 1/\Delta^2 1/ Δ 2 . The interactive figure above is illustrative: with a 0.30 gap and only N = 30 N = 30 N = 30 samples per agent, even the noisiest of the three evaluators gets the ordering right essentially every draw. For agents that differ by 5 to