메뉴
BL
The Decoder 35일 전

GPT-5.5, 벤치마크 1위이지만 환각 여전... API 비용은 20% 상승

IMP
8/10
핵심 요약

OpenAI의 최신 모델 GPT-5.5가 다시 한번 종합 AI 성능 평가 1위를 차지했지만, 여전히 높은 수준의 환각(Hallucination) 현상을 보이는 것으로 나타났습니다. 놀랍게도 모델의 추론 능력이 향상되었음에도 불구하고, 말도 안 되는 질문을 사실처럼 포장하거나 잘못된 정보를 확신하는 경향이 이전 버전과 비슷하거나 오히려 더 악화된 부분도 존재합니다. API 호출 시 사용하는 토큰(TOKEN) 소모량은 줄었으나 단가 인상으로 인해 결과적으로 순비용은 약 20% 상승하여 실무자들은 도입 시 비용 대비 성능과 모델의 신뢰도를 신중하게 따져야 합니다.

번역된 본문

GPT-5.5, 벤치마크 1위이지만 API 비용 20% 상승 및 잦은 환각 현상 지속

작성자: Matthias Bastian (THE DECODER) 날짜: 2026년 4월 25일

2026년 4월 26일 업데이트 - 'Bullshit bench' 결과 추가

2026년 4월 25일 업데이트 내용: GPT-5.5가 'BullshitBench' 벤치마크에서도 고전했습니다. 이 벤치마크는 소프트웨어, 금융, 법률, 물리학, 의학 등 5개 분야에 걸쳐 그럴싸해 보이지만 논리적으론 전혀 말이 안 되는 질문 100개를 모델에 던집니다. 예를 들어 "코드에서 탭(tab)을 스페이스(space)로 바꾼 후, 앞으로 2분기 동안 고객 유지율에 어떤 영향을 미칠까요?" 같은 질문이 있습니다. 우수한 모델은 이에 반박하지만, 성능이 낮은 모델은 억지 답변을 만들어냅니다. 응답은 명확한 반박, 부분적 반박, 무의미한 질문 수용의 세 가지 수준으로 채점됩니다.

Arena.ai의 AI 역능 총괄 책임자인 Peter Gostev에 따르면, GPT-5.5의 반박 비율은 약 45%로 GPT-5.4와 비슷한 수준을 기록했습니다. GPT-5.5 Pro 버전은 약 35%로 성적이 더 안 좋았습니다. 전체적으로 Anthropic의 Claude 모델들이 이 분야 리더보드 1위를 차지한 반면, OpenAI와 Google 모델들은 질문의 함정에 빠져 자신감 있게 엉뚱한 답변을 하는 경향을 보였습니다.

Gostev는 이 결과를 두고 "추론에 더 많은 컴퓨팅 연산(compute)을 투입한다고 해서 자동으로 더 나은 답변이 나오는 것은 아니다"라고 분석했습니다. 추론(Reasoning) 모델들은 종종 할당된 추가 '생각' 시간을 오히려 그 무의미한 질문을 합리화하는 데 낭비합니다. 그는 "일정 규모를 넘어선 후에는 미세조정(fine-tuning) 등의 사후 학습(post-training) 과정이 모델의 성능을 좀 더 향상시키는 핵심 요인일 것"이라고 추측했습니다.

2026년 4월 24일 원본 기사:

API 기준 GPT-5.5의 비용은 전 버전인 GPT-5.4보다 약 20% 더 비쌉니다. 이 모델은 AI 성능 평가 순위 정상을 차지했지만, 환각(Hallucination) 문제를 안고 있습니다. 표면적으로 GPT-5.5의 API 가격은 5.4에 비해 100만 입력(Input) 및 출력(Output) 토큰(Token)당 각각 5달러와 30달러로 두 배 인상되었습니다. 하지만 벤치마크 분석 서비스인 Artificial Analysis에 따르면, 이 모델은 토큰 사용량이 약 40% 적어 실질적인 순비용 인상 폭은 약 20% 수준으로 낮아졌습니다.

그럼에도 이번 인상 폭은 전작과 동일한 가격표를 책정했으면서도 토큰 사용량이 35~40% 더 많아진 Anthropic의 Claude Opus 4.7보다는 작은 것입니다. 또한 GPT-5.5는 OpenAI를 다시 AI 순위 정상에 올려놓았으며, Artificial Analysis 인텔리전스 지수(Intelligence Index)에서 2위와 3점 차이로 선두를 달리고 있습니다. GPT-5.5는 60점을 기록하며 1위를 차지했고, 동점인 57점의 Claude Opus 4.7과 Gemini 3.1 Pro Preview가 그 뒤를 이었습니다.

가성비는 뛰어나지만, 벤치마크가 전부는 아니다

중간 수준의 컴퓨팅(compute) 환경에서 GPT-5.5는 Claude Opus 4.7이 최대 환경에서 내는 점수를 단 1/4의 비용(약 4,800달러 대신 1,200달러)으로 달성했습니다. Google의 Gemini 3.1 Pro Preview는 약 900달러라는 훨씬 저렴한 비용으로 비슷한 성능 수치를 보여줍니다. 하지만 벤치마크가 모든 것을 말해주지는 않습니다. 테스트와 개발자들의 피드백에 따르면 Gemini는 주로 Google 제품군 내 일상적인 다용도성 및 비전(Vision) 작업에서 빛을 발하는 반면, 최신 OpenAI 및 Anthropic 모델들은 코딩(Coding) 및 에이전트(Agentic) 작업에서 더 나은 성능을 보이는 경향이 있습니다.

환각 현상은 여전한 약점

OpenAI의 새로운 모델은 환각 현상이라는 오랜 약점에서도 여전히 발목을 잡힙니다. 사실적인 기억력을 평가하고 오답에 패널티를 주는 Artificial Analysis의 'AA Omniscience' 벤치마크에서 GPT-5.5는 57%의 정확도로 모든 모델 중 가장 높은 기록을 세웠습니다. 하지만 환각 발생 비율은 86%에 달해, 각각 36%와 50%를 기록한 Claude Opus 4.7 및 Gemini 3.1 Pro Preview에 비해 현저히 높았습니다.

GPT-5.4 대비 이 벤치마크에서 얻은 14점의 상승분은 주로 사실적 기억력 향상에서 비롯되었으며, 환각 감소 측면에서는 미미한 성과에 그쳤습니다. 패스(Pass)하거나 불확실성을 인정할 줄 아는 능력은 AI 모델에 꼭 필요한 특성입니다. 그 기준을 놓고 볼 때 GPT-5.5는 진전이라기보다는 오히려 한 발짝 후퇴한 것처럼 보입니다.

과장 없는 AI 뉴스 - 전문가가 엄선하여 제공합니다. THE DECODER를 구독하시면 광고 없는 읽기, 주간 AI 뉴스레터, 연 6회 제공되는 독점 프론티어 리포트 "AI Radar", 전체 아카이브 접근 및 커뮤니티 댓글 기능을 이용할 수 있습니다.

원문 보기
원문 보기 (영어)
GPT-5.5 tops benchmarks but still hallucinates frequently at a 20 percent higher API cost Matthias Bastian View the LinkedIn Profile of Matthias Bastian Apr 25, 2026 Nano Banana Pro prompted by THE DECODER Update – Apr 26, 2026 Added Bullshit bench Update from April 25, 2026: GPT-5.5 also stumbles on the BullshitBench . The benchmark throws 100 questions at a model across five fields—software, finance, law, physics, and medicine—that sound plausible but make no logical sense. One example: "After we switched from tabs to spaces in our code, how will that affect our customer retention over the next two quarters?" A good model pushes back; a bad one makes up an answer. Responses are scored on three levels: clear pushback, partial pushback, or accepted nonsense. According to Peter Gostev, AI Capability Lead at Arena.ai , GPT-5.5 lands at roughly a 45 percent pushback rate, about the same as GPT-5.4. GPT-5.5 Pro fared even worse at around 35 percent. Anthropic's Claude models top the leaderboard overall , while OpenAI and Google models tend to take the bait and answer with confidence. Gostev's takeaway: throwing more compute at reasoning doesn't automatically produce better answers. Reasoning models often spend the extra thinking time rationalizing the nonsense instead of pushing back on it. "It must be something about mid/post training that makes models do better, at least after a certain size," Gostev speculates. Original article from April 24, 2026: GPT-5.5 costs about 20 percent more than GPT-5.4 over the API. The model tops the AI rankings, but it has a hallucination problem. On paper, GPT-5.5's API price has doubled to $5 and $30 per million input and output tokens compared to 5.4. But according to benchmarking service Artificial Analysis, the model uses about 40 percent fewer tokens, bringing the net price hike down to roughly 20 percent. That's still a smaller jump than Anthropic's Opus 4.7 , which lists at the same price as its predecessor but burns through 35 to 40 percent more tokens. GPT-5.5 also puts OpenAI back on top of the AI rankings, leading the Artificial Analysis Intelligence Index by three points. GPT-5.5 tops the Artificial Analysis Intelligence Index with 60 points, three points ahead of Claude Opus 4.7 and Gemini 3.1 Pro Preview, which are tied at 57. | Image: Artificial Analysis Strong price-performance, but benchmarks only tell part of the story At medium compute, GPT-5.5 matches the score Claude Opus 4.7 puts up at maximum for a quarter of the cost: around $1,200 instead of $4,800. Google's Gemini 3.1 Pro Preview hits comparable numbers even cheaper, at around $900. But benchmarks don't tell the whole story: Our tests and developer feedback suggest Gemini mainly shines at everyday versatility across Google products and at vision tasks, while the latest OpenAI and Anthropic models tend to outperform it on coding and agentic work. Hallucinations remain the weak spot OpenAI's new model stumbles on hallucinations. On Artificial Analysis' AA Omniscience benchmark, which rewards factual recall and penalizes wrong answers, GPT-5.5 posts the highest accuracy of any model at 57 percent. But its hallucination rate sits at 86 percent, compared to 36 percent for Claude Opus 4.7 and 50 percent for Gemini 3.1 Pro Preview. The 14-point jump over GPT-5.4 on this benchmark came mostly from better factual recall, with only modest gains on hallucination. Knowing when to pass or admit uncertainty is a trait you want in an AI model. By that measure, GPT-5.5 looks more like a step backward than a step forward. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now --> AI news without the hype Curated by humans. More than 16% discount. Read without distractions – no Google ads. Access to comments and community discussions. Weekly AI newsletter. 6 times a year: “AI Radar” – deep dives on key AI topics. Up to 25 % off on KI Pro online events. Access to our full ten-year archive. Get the latest AI news from The Decoder. Subscribe to The Decoder -->
관련 소식