차트 복잡해지면 최고 AI 모델도 성능 절반 하락
중국 연구진이 실제 데이터 기반의 복잡한 시각화를 테스트하는 새로운 벤치마크 'RealChart2Code'를 발표했습니다. 기존 단순한 차트에서 뛰어난 성능을 보이던 최고 수준의 상용 AI 모델들조차 복잡한 시각화 작업에서는 성능이 절반 가까이 급락하는 '복잡성 갭(Complexity gap)' 현상이 확인되었습니다. 이는 복잡한 실무 환경에서 현재 AI 모델의 시각적 데이터 처리 및 코드 생성 능력이 아직 큰 한계를 보이고 있음을 시사합니다.
새로운 벤치마크 테스트에 따르면, 차트가 복잡해지면 최고 수준의 AI 모델조차 성능의 절반 가까이 잃는 것으로 나타났습니다. Jonathan Kemper가 작성한 THE DECODER의 보고서입니다.
'RealChart2Code' 벤치마크는 실제 데이터셋을 기반으로 구축된 복잡한 시각화 과제를 통해 14개의 선도적인 AI 모델을 테스트합니다. 결과적으로 단순한 테스트와 비교했을 때 최고 수준의 상용 모델들조차 성능이 절반 가까이 떨어졌습니다.
AI 모델은 이미지에서 단순한 차트를 재현하는 데에는 큰 어려움이 없습니다. 하지만 실제 데이터를 기반으로 한 복잡하고 여러 부분으로 구성된 시각화가 필요한 작업이 주어지면, 가장 뛰어난 모델들도 한계에 부딪힙니다. 이것이 여러 중국 대학 연구진이 발표한 새로운 벤치마크인 'RealChart2Code'의 핵심 결론입니다. 이 벤치마크는 실제 Kaggle 데이터셋을 기반으로 구축된 2,800개 이상의 테스트 케이스를 포함하고 있습니다.
기존의 Plot2Code나 ChartMimic 같은 벤치마크는 주로 합성 데이터와 단순한 단일 차트에 의존했습니다. 반면 RealChart2Code는 한 걸음 더 나아가 복잡한 복합 레이아웃, 50가지의 다양한 차트 유형, 그리고 대규모 원시 파일을 모델에 제공합니다. 연구진은 약 8억 6천만 행의 데이터를 포함하는 1,036개의 엄선된 데이터셋을 활용했습니다.
세 가지 과제, 세 가지 다른 역량 평가 RealChart2Code는 세 가지 과제를 통해 모델을 테스트합니다. '차트 복제(Chart Replication)'에서는 모델이 이미지만 보고 시각화 코드를 생성해야 합니다. '차트 재현(Chart Reproduction)'은 원시 데이터를 추가로 제공하여 모델이 실제 데이터 소스에서 올바른 코드를 생성할 수 있는지 확인합니다. 세 번째 과제인 '차트 정제(Chart Refinement)'는 실제 개발 워크플로우를 시뮬레이션합니다. 모델은 깨진 코드를 받아 사용자와의 대화를 오가며 이를 수정해야 합니다.
논문에 따르면, RealChart2Code는 대규모 원시 데이터셋으로부터의 코드 생성과 대화 형식의 반복적인 정제를 체계적으로 평가하는 최초의 벤치마크입니다.
상용 모델이 선두하지만 여전히 기대에는 못 미쳐 연구팀은 5개의 상용 모델과 9개의 오픈 웨이트(Open-weight) 모델을 포함해 총 14개의 모델을 테스트했습니다. 상용 모델 중에서는 Anthropic의 'Claude 4.5 Opus'가 8.2의 최고 평균 점수(8개의 시각적 정확도 기준 척도)를 기록했습니다. Google의 'Gemini 3 Pro Preview'는 8.1로 바로 뒤를 이었으며, 기본 차트 복제에서는 9.0점을 받아 1위를 차지했습니다. OpenAI의 'GPT-5.1'은 5.4점으로 상당히 뒤처졌습니다.
오픈 웨이트 모델의 성능는 훨씬 저조했습니다. 가장 뛰어난 성능을 보인 Qwen3-VL-235B와 Intern-VL-3.5-241B는 각각 3.6과 3.4의 점수를 받았으며, 이는 선두를 달리는 상용 모델의 절반에도 미치지 못하는 수치입니다. 테스트된 가장 작은 모델 중 하나인 DeepSeek-VL-7B는 차트 복제에서 9.7%의 통과율을 기록했는데, 이는 생성된 코드의 90% 이상이 실행조차 되지 않았음을 의미합니다.
논문의 핵심 발견은 연구진이 '복잡성 갭(Complexity gap)'이라고 부르는 현상입니다. 단순한 벤치마크에서 최고 점수를 받았던 모델들도 RealChart2Code에서는 성능이 급격히 무너집니다. 예를 들어, Gemini 3 Pro Preview는 ChartMimic에서 96% 이상의(정규화된) 점수를 받았지만, RealChart2Code에서는 약 50%로 떨어집니다. 오픈 웨이트 모델의 경우 이러한 폭락은 훨씬 더 심합니다. Qwen3-VL-235B는 ChartMimic에서 약 85%의 점수를 얻었지만, 새로운 벤치마크에서는 25% 미만으로 떨어집니다.
오픈 웨이트 모델은 라이브러리를 환각(Hallucination)하고, 상용 모델은 데이터를 혼동합니다. 오류 분석 결과 두 가지 매우 다른 실패 패턴이 나타났습니다. Qwen3-VL 및 InternVL과 같은 오픈 웨이트 모델은 종종 코드 실행 단계에서 문제를 일으킵니다. 이 모델들은 존재하지 않는 라이브러리를 만들어내거나 유효하지 않은 함수를 호출합니다. 예를 들어 Qwen3-VL-235B는 존재하지 않는 Matplotlib 스타일 매개변수와 같은 잘못된 API 호출을 약 20%의 케이스에서 출력합니다. 코드가 실행되더라도 서브플롯(Subplot)이 겹치거나 그리드(Grid) 구조가 깨지는 등 레이아웃 문제가 자주 발생합니다.
Claude 4.5 및 GPT-5.1 같은 상용 모델은 구문 오류를 거의 발생시키지 않습니다. 이들의 약점은 데이터 할당입니다. 즉, 시각적 구조는 올바르게 보이지만 개별 데이터 계열이 잘못된 축에 배치되거나 시각적 속성이 지정된 것과 일치하지 않는 경우가 많습니다.
반복적인 코드 수정(Iterative refinement)도 또 다른 걸림돌입니다. 연구진은 모델에게 한 가지 오류를 수정하라고 요청하면 발생하는 '퇴행적 편집(Regressive editing)'이라는 패턴을 설명합니다.