메뉴
BL
The Decoder 42일 전

차트 복잡해지면 최고 AI 모델도 성능 절반 하락

IMP
8/10
핵심 요약

중국 연구진이 실제 데이터 기반의 복잡한 시각화를 테스트하는 새로운 벤치마크 'RealChart2Code'를 발표했습니다. 기존 단순한 차트에서 뛰어난 성능을 보이던 최고 수준의 상용 AI 모델들조차 복잡한 시각화 작업에서는 성능이 절반 가까이 급락하는 '복잡성 갭(Complexity gap)' 현상이 확인되었습니다. 이는 복잡한 실무 환경에서 현재 AI 모델의 시각적 데이터 처리 및 코드 생성 능력이 아직 큰 한계를 보이고 있음을 시사합니다.

번역된 본문

새로운 벤치마크 테스트에 따르면, 차트가 복잡해지면 최고 수준의 AI 모델조차 성능의 절반 가까이 잃는 것으로 나타났습니다. Jonathan Kemper가 작성한 THE DECODER의 보고서입니다.

'RealChart2Code' 벤치마크는 실제 데이터셋을 기반으로 구축된 복잡한 시각화 과제를 통해 14개의 선도적인 AI 모델을 테스트합니다. 결과적으로 단순한 테스트와 비교했을 때 최고 수준의 상용 모델들조차 성능이 절반 가까이 떨어졌습니다.

AI 모델은 이미지에서 단순한 차트를 재현하는 데에는 큰 어려움이 없습니다. 하지만 실제 데이터를 기반으로 한 복잡하고 여러 부분으로 구성된 시각화가 필요한 작업이 주어지면, 가장 뛰어난 모델들도 한계에 부딪힙니다. 이것이 여러 중국 대학 연구진이 발표한 새로운 벤치마크인 'RealChart2Code'의 핵심 결론입니다. 이 벤치마크는 실제 Kaggle 데이터셋을 기반으로 구축된 2,800개 이상의 테스트 케이스를 포함하고 있습니다.

기존의 Plot2Code나 ChartMimic 같은 벤치마크는 주로 합성 데이터와 단순한 단일 차트에 의존했습니다. 반면 RealChart2Code는 한 걸음 더 나아가 복잡한 복합 레이아웃, 50가지의 다양한 차트 유형, 그리고 대규모 원시 파일을 모델에 제공합니다. 연구진은 약 8억 6천만 행의 데이터를 포함하는 1,036개의 엄선된 데이터셋을 활용했습니다.

세 가지 과제, 세 가지 다른 역량 평가 RealChart2Code는 세 가지 과제를 통해 모델을 테스트합니다. '차트 복제(Chart Replication)'에서는 모델이 이미지만 보고 시각화 코드를 생성해야 합니다. '차트 재현(Chart Reproduction)'은 원시 데이터를 추가로 제공하여 모델이 실제 데이터 소스에서 올바른 코드를 생성할 수 있는지 확인합니다. 세 번째 과제인 '차트 정제(Chart Refinement)'는 실제 개발 워크플로우를 시뮬레이션합니다. 모델은 깨진 코드를 받아 사용자와의 대화를 오가며 이를 수정해야 합니다.

논문에 따르면, RealChart2Code는 대규모 원시 데이터셋으로부터의 코드 생성과 대화 형식의 반복적인 정제를 체계적으로 평가하는 최초의 벤치마크입니다.

상용 모델이 선두하지만 여전히 기대에는 못 미쳐 연구팀은 5개의 상용 모델과 9개의 오픈 웨이트(Open-weight) 모델을 포함해 총 14개의 모델을 테스트했습니다. 상용 모델 중에서는 Anthropic의 'Claude 4.5 Opus'가 8.2의 최고 평균 점수(8개의 시각적 정확도 기준 척도)를 기록했습니다. Google의 'Gemini 3 Pro Preview'는 8.1로 바로 뒤를 이었으며, 기본 차트 복제에서는 9.0점을 받아 1위를 차지했습니다. OpenAI의 'GPT-5.1'은 5.4점으로 상당히 뒤처졌습니다.

오픈 웨이트 모델의 성능는 훨씬 저조했습니다. 가장 뛰어난 성능을 보인 Qwen3-VL-235B와 Intern-VL-3.5-241B는 각각 3.6과 3.4의 점수를 받았으며, 이는 선두를 달리는 상용 모델의 절반에도 미치지 못하는 수치입니다. 테스트된 가장 작은 모델 중 하나인 DeepSeek-VL-7B는 차트 복제에서 9.7%의 통과율을 기록했는데, 이는 생성된 코드의 90% 이상이 실행조차 되지 않았음을 의미합니다.

논문의 핵심 발견은 연구진이 '복잡성 갭(Complexity gap)'이라고 부르는 현상입니다. 단순한 벤치마크에서 최고 점수를 받았던 모델들도 RealChart2Code에서는 성능이 급격히 무너집니다. 예를 들어, Gemini 3 Pro Preview는 ChartMimic에서 96% 이상의(정규화된) 점수를 받았지만, RealChart2Code에서는 약 50%로 떨어집니다. 오픈 웨이트 모델의 경우 이러한 폭락은 훨씬 더 심합니다. Qwen3-VL-235B는 ChartMimic에서 약 85%의 점수를 얻었지만, 새로운 벤치마크에서는 25% 미만으로 떨어집니다.

오픈 웨이트 모델은 라이브러리를 환각(Hallucination)하고, 상용 모델은 데이터를 혼동합니다. 오류 분석 결과 두 가지 매우 다른 실패 패턴이 나타났습니다. Qwen3-VL 및 InternVL과 같은 오픈 웨이트 모델은 종종 코드 실행 단계에서 문제를 일으킵니다. 이 모델들은 존재하지 않는 라이브러리를 만들어내거나 유효하지 않은 함수를 호출합니다. 예를 들어 Qwen3-VL-235B는 존재하지 않는 Matplotlib 스타일 매개변수와 같은 잘못된 API 호출을 약 20%의 케이스에서 출력합니다. 코드가 실행되더라도 서브플롯(Subplot)이 겹치거나 그리드(Grid) 구조가 깨지는 등 레이아웃 문제가 자주 발생합니다.

Claude 4.5 및 GPT-5.1 같은 상용 모델은 구문 오류를 거의 발생시키지 않습니다. 이들의 약점은 데이터 할당입니다. 즉, 시각적 구조는 올바르게 보이지만 개별 데이터 계열이 잘못된 축에 배치되거나 시각적 속성이 지정된 것과 일치하지 않는 경우가 많습니다.

반복적인 코드 수정(Iterative refinement)도 또 다른 걸림돌입니다. 연구진은 모델에게 한 가지 오류를 수정하라고 요청하면 발생하는 '퇴행적 편집(Regressive editing)'이라는 패턴을 설명합니다.

원문 보기
원문 보기 (영어)
Even the best AI models lose about half their performance when charts get complicated, new benchmark finds Jonathan Kemper View the LinkedIn Profile of Jonathan Kemper Apr 19, 2026 Nano Banana Pro prompted by THE DECODER The RealChart2Code benchmark puts 14 leading AI models to the test on complex visualizations built from real-world datasets. Even the top proprietary models lose nearly half their performance compared to simpler tests. AI models can recreate simple charts from images without much trouble. But when the task involves complex, multi-part visualizations based on real data, even the most capable models hit a wall. That's the takeaway from RealChart2Code, a new benchmark from a team of researchers at several Chinese universities. The benchmark includes more than 2,800 test cases built from real Kaggle datasets. Earlier benchmarks like Plot2Code and ChartMimic mostly leaned on synthetic data and simple single charts. RealChart2Code goes further, throwing complex composite layouts, 50 different chart types, and large raw files at the models. The researchers pulled from 1,036 curated datasets totaling roughly 860 million rows of data. Three tasks, three different skills RealChart2Code tests models on three tasks. In "Chart Replication," the model has to generate visualization code from an image alone. "Chart Reproduction" adds the raw data into the mix, checking whether the model can produce the right code from real data sources. The third task, "Chart Refinement," simulates an actual development workflow: the model gets broken code and has to fix it through a back-and-forth dialog with the user. According to the paper, RealChart2Code is the first benchmark to systematically evaluate code generation from large raw datasets and iterative refinement in a conversational format. Proprietary models lead, but still fall well short The team tested 14 models in all: five proprietary and nine open-weight. Among the proprietary group, Anthropic's Claude 4.5 Opus posted the top average score of 8.2 (on a scale covering eight visual accuracy criteria). Google's Gemini 3 Pro Preview came in right behind at 8.1 and took the top spot on basic chart replication with a score of 9.0. OpenAI's GPT-5.1 lagged well behind at 5.4. Open-weight models did much worse. The best performers, Qwen3-VL-235B and Intern-VL-3.5-241B, scored just 3.6 and 3.4, less than half of what the leading proprietary models put up. One of the smallest models tested, DeepSeek-VL-7B, hit a pass rate of just 9.7 percent on chart replication, meaning the generated code failed to even run in more than 90 percent of cases. The paper's central finding is what the researchers call the "complexity gap": models that ace simpler benchmarks fall apart on RealChart2Code. Gemini 3 Pro Preview, for example, scores over 96 percent (normalized) on ChartMimic but drops to around 50 percent on RealChart2Code. The collapse is even steeper for open-weight models. Qwen3-VL-235B pulls in about 85 percent on ChartMimic but under 25 percent on the new benchmark. Open-weight models hallucinate libraries, proprietary models mix up data The error analysis turns up two very different failure patterns. Open-weight models like Qwen3-VL and InternVL often break down at the code execution stage. They invent libraries that don't exist or call invalid functions. Qwen3-VL-235B, for instance, spits out invalid API calls, like a nonexistent Matplotlib style parameter, in roughly 20 percent of cases. When the code does run, layout problems often crop up, like overlapping subplots or broken grid structures. Proprietary models like Claude 4.5 and GPT-5.1 rarely produce syntax errors. Their weak spot is data assignment: the visual structure looks right, but individual data series end up on the wrong axes, or visual attributes don't match what was specified. Iterative refinement is another sticking point. The researchers describe a pattern they call "regressive editing": when models are asked to fix one error, they frequently break previously correct parts of the code in the process. Even the best models struggle to balance local edits against the overall consistency of the code, the paper notes. Automated evaluation lines up with human judgment For scoring, the team uses a multi-agent system that rates generated visualizations on a three-level scale across eight criteria, including chart type, spatial layout, text elements, axis configuration, and color scheme. The automated evaluations match human expert judgments with a Cohen's Kappa of 0.83, indicating strong correlation. Agreement among the agents themselves reached a Fleiss' Kappa of 0.82. The researchers acknowledge the benchmark is currently limited to Matplotlib as a visualization library, and automated scoring may miss subtle visual artifacts like minor element overlap or precise color nuances. The benchmark and its code are available on GitHub and Hugging Face . Google's PaperBanana research project showed earlier just how tough sophisticated visualizations are for AI image generators. Five specialized AI agents work together to generate scientific charts from text descriptions. Visualization fidelity lands at 45.8 percent, below the human reference, but human reviewers still preferred the results over plain image generation in nearly 73 percent of cases. For statistical plots, PaperBanana also falls back on Matplotlib code generation to boost numerical accuracy. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by humans. More than 16% discount. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->