Hacker News • 76일 전

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

IMP

8/10

핵심 요약

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

번역된 본문

모든 모델 보기

이 프로젝트가 존재하는 이유는 무엇인가요? AI 연구소들은 모델을 출시한 후에도 잦은 업데이트를 진행합니다. 이러한 업데이트에는 과도한 검열, 컴퓨팅 비용 절감을 위한 무리한 양자화(Quantization), 또는 행동 성능 저하와 같은 이른바 '너프(Nerf)'가 포함되는 경우가 많습니다. 이 차트는 이러한 숨겨진 추세를 명확히 드러내는 역할을 합니다.

웹 UI vs API에 대한 참고 사항: LMSYS Arena는 API 엔드포인트(순수 'Raw' 모델)를 통해 모델의 성능을 테스트합니다. 반면 소비자용 챗 인터페이스(예: gemini.com 또는 chatgpt.com)는 순수 API에는 없는 시스템 프롬프트, 안전 필터, UI 전용 래퍼(Warpper) 등을 추가로 적용하는 경우가 많습니다. 또한 서비스 제공자는 트래픽이 몰리는 시간대에 컴퓨팅 자원을 절약하기 위해 사용자가 모르게 양자화(낮은 정밀도) 버전의 모델로 전환할 수도 있습니다. 이는 API 벤치마크가 완벽하게 포착하지 못하는 체감 성능 저하를 유발합니다. 실제 웹 인터페이스 환경에서의 평가를 반영하는 데이터 소스와 관련된 PR(Pull Request)은 언제든 환영합니다.

데이터의 출처는 어디인가요? 이 데이터는 Hugging Face에 공식적으로 등록된 LM Arena 리더보드 데이터셋에서 매일 자동으로 수집됩니다. 아레나는 수천 건의 블라인드 크라우드소싱 기반 인간 평가에 의존하므로, 이는 실제 모델의 역량을 측정하는 가장 신뢰할 수 있는 강력한 지표(Metric)입니다.

차트의 논리는 어떻게 작동하나요? 각 주요 AI 연구소는 해당 기관의 대표 라인업을 나타내는 '단 하나의 곡선'을 가집니다. 시간 경과에 따른 각 지점의 곡선은 리더보드에서 가장 최근에 발표된 모델이 아니라, 해당 기관에서 가장 높은 평가를 받은 대표 모델을 추적합니다.

최고 ELO 대표 모델: 연구소가 중급 모델(예: Sonnet)을 출시하더라도, 상위 모델(예: Opus)이 여전히 최고의 성능을 보인다면 해당 시점의 곡선은 Opus를 기준으로 유지됩니다.
추론 모드 변주 통합: '-thinking', '-reasoning', '-high'와 같은 접미사가 붙은 모델들은 기본적으로 동일한 모델의 다른 작동 모드일 뿐이므로, 곡선이 이들 사이를 불필요하게 오가지 않도록 하나로 통합하여 표시합니다.
신규 출시: 라벨이 있는 마커 포인트로 표시되며, 일반적으로 점수의 급격한 상승을 동반합니다.
성능 저하: 새로운 버전이 출시되기 전, 해당 모델의 수명 주기 동안 발생하는 하락세는 차트에서 명확하게 확인할 수 있습니다.

원문 보기

원문 보기 (영어)

Show All Models Why this exists? AI labs frequently update their models post-launch. These updates sometimes introduce "nerfs" such as aggressive censorship, excessive quantization (to save compute costs), or behavioral degradation. This chart exposes these hidden trends. Note on Web UIs vs. API: LMSYS Arena tests model performance via API endpoints (the "raw" model). Consumer chat interfaces (like gemini.com or chatgpt.com) often add system prompts, safety filters, and UI-specific wrappers not present in the raw API. Providers may also silently switch to quantized (lower-precision) versions of models to save compute during peak load, leading to perceived "nerfing" the API benchmarks don't fully capture. PRs are welcome for data sources representing true web-interface evaluations. Where does the data come from? The data is automatically fetched daily from the official LM Arena Leaderboard Dataset on Hugging Face. The Arena relies on thousands of blind, crowdsourced human evaluations, making it the most robust metric of actual model capability. How does the chart logic work? Each major AI lab has exactly ONE curve representing their flagship lineage. At each point in time the curve tracks the lab's highest-rated flagship-eligible model on the leaderboard — not just the most recently announced one. Highest-ELO flagship: If a lab ships a mid-tier model (e.g. Sonnet) while a higher-tier one (e.g. Opus) is still the top performer, the curve stays on Opus. Inference-mode variants collapsed: Suffixes like -thinking , -reasoning , and -high are the same underlying model in a different mode — they're merged so the curve doesn't flip-flop between them. New releases: Shown as marker points with labels, often accompanied by a jump in score. Degradation: Any downward trend in a model's lifecycle between releases is clearly visible.

AI 모델 평가 LMSYS Arena 성능 저하 벤치마크 양자화