메뉴
BL
The Decoder 25일 전

챗GPT, 환각 현형태 줄인 'GPT-5.5 인스턴트' 전면 적용

IMP
9/10
핵심 요약

OpenAI가 챗GPT의 기본 모델을 GPT-5.5 Instant로 교체했습니다. 이번 업데이트는 의료, 법률 등 고위험 주제에서 환각(Hallucination) 현상을 대폭 줄이고 수학 및 과학 추론 능력을 크게 향상시켰습니다. 또한 사용자에게 맞춤형 답변을 제공하기 위해 어떤 개인 데이터가 활용되었는지 보여주는 '메모리 소스(Memory Sources)' 기능을 새롭게 도입했습니다.

번역된 본문

OpenAI가 챗GPT의 기본 모델을 'GPT-5.5 Instant'로 교체했습니다. 이번 업데이트는 환각(Hallucination) 현상을 줄이고 답변을 더욱 간결하게 개선하였으며, '메모리 소스(Memory Sources)'라는 새로운 기능을 통해 사용자가 AI 답변에 어떤 저장된 맥락이 반영되었는지 확인할 수 있게 되었습니다.

GPT-5.5 Instant는 기존 GPT-5.3 Instant를 대체하며, API를 통해서도 'chat-latest'라는 이름으로 사용할 수 있습니다. OpenAI의 내부 테스트 결과, GPT-5.5 Instant는 의료, 법률, 금융과 같은 고위험 프롬프트에서 전작 대비 환각으로 인한 잘못된 주장을 52.5% 적게 생성했습니다. 또한 사용자가 사실적 오류로 지적했던 까다로운 대화에서 부정확한 주장이 37.3% 감소했다고 밝혔습니다.

OpenAI는 대수학 문제를 예시로 들었습니다. 사용자가 계산 실수가 포함된 필기 방정식 사진을 업로드했을 때, 기존 GPT-5.3 Instant는 처음에 사용자의 풀이에 동의한 뒤 오류를 발견했지만 최종적으로 잘못된 결론(실수 해가 없음)을 도출했습니다. 반면 GPT-5.5 Instant는 처음에는 사용자의 계산에 동의했지만, 곧바로 식을 변형하는 과정에서의 오류를 정확히 짚어내고 올바르게 수정된 이차방정식을 풀었습니다.

벤치마크 점수 역시 눈에 띄는 성능 향상을 보여줍니다. 경쟁적인 수학 시험인 AIME 2025에서 정확도가 65.4%에서 81.2%로 크게 뛰었습니다. 박사급 과학 추론을 테스트하는 GPQA에서는 78.5%에서 85.6%로 상승했으며, 과학 차트 해석 및 추론을 측정하는 CharXiv는 75.0%에서 81.6%로 올랐습니다.

텍스트와 이미지를 넘나들며 전문가 수준의 질문을 처리하는 능력을 평가하는 MMMU-Pro는 69.2%에서 76.0%로 증가했습니다. 또한 복잡한 문서에서 구조화된 데이터를 추출하는 능력을 테스트하는 OmniDocBench의 오류율은 14.6%에서 12.5%로 감소했습니다.

[벤치마크 비교표]

  • CharXiv-reasoning (과학 차트 추론 정확도): 75.0% → 81.6%
  • MMMU-Pro (전문가 멀티모달 추론 정확도): 69.2% → 76.0%
  • OmniDocBench (문서 파싱 평균 오류율, 낮을수록 우수): 14.6% → 12.5%
  • GPQA (박사급 과학 정확도): 78.5% → 85.6%
  • AIME 2025 (경시 대회 수학 정확도): 65.4% → 81.2%

OpenAI는 불필요한 내용을 줄이는 데에도 집중했습니다. 회사 측은 답변의 핵심 내용을 잃지 않으면서도 길이를 더 짧게 만들었으며, 불필요한 추가 질문을 줄이고, 과도한 이모티콘 사용을 자제하며, 복잡한 텍스트 포맷팅을 생략한다고 설명했습니다. OpenAI는 "이전 모델들과 동일한 정보를 전달하면서도 유용성을 높이고, 답변이 지나치게 길어지게 만드는 장황함과 과도한 서식을 줄였다"고 전했습니다.

또한 이 모델은 과거 대화 내역, 업로드된 파일, 연결된 Gmail 계정의 맥락을 활용하는 능력이 향상되었습니다. GPT-5.5 Instant는 추가적인 개인화가 답변에 실질적으로 도움이 될 때를 더 잘 판단하며, 이전 대화를 훨씬 더 빠르게 검색합니다.

OpenAI는 모든 챗GPT 모델에 걸쳐 '메모리 소스' 기능도 순차적으로 도입하고 있습니다. AI의 답변이 저장된 맥락에 기반을 둘 경우, 사용자는 이제 저장된 메모나 과거 대화와 같이 어떤 정보가 사용되었는지 확인할 수 있습니다. 해당 항목은 관련성 유무에 따라 표시하거나, 편집 및 삭제할 수 있습니다.

다만, OpenAI는 메모리 소스 기능이 AI 답변에 영향을 미친 모든 요인을 항상 보여주지는 않는다고 덧붙였습니다. 오직 일부 요소만 표시됩니다.

원문 보기
원문 보기 (영어)
ChatGPT update rolls out GPT-5.5 Instant with fewer hallucinations and more personalized answers Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 5, 2026 OpenAI Key Points OpenAI is replacing ChatGPT's default model with GPT-5.5 Instant, which shows 52.5% fewer hallucinations on high-risk topics like medicine, law, and finance, along with strong benchmark gains in math, science, and visual reasoning. A new "memory sources" feature now shows users which personal context—past chats, saved reminders, or uploaded files—informed a given response, with the ability to correct or remove individual entries. GPT-5.5 Instant is rolling out to all ChatGPT users right away, though advanced personalization via past chats, files, and Gmail is initially limited to Plus and Pro subscribers, with wider availability coming in the following weeks. Ask about this article… Search OpenAI is swapping out ChatGPT's default model for GPT-5.5 Instant. The update reduces hallucinations and tightens responses, while a new feature called "memory sources" shows users which stored context shaped a given reply. GPT-5.5 Instant replaces GPT-5.3 Instant and is also available through the API as "chat-latest." In OpenAI's internal testing, GPT-5.5 Instant produced 52.5 percent fewer hallucinated claims than its predecessor on high-risk prompts in medicine, law, and finance. On tough conversations users had previously flagged for factual errors, inaccurate claims dropped by 37.3 percent, OpenAI claims. OpenAI offers an algebra problem as an example. A user uploaded a photo of a handwritten equation with a calculation mistake. GPT-5.3 Instant initially agreed with the solution, then noticed that x=3 didn't work but wrongly concluded there was no real solution. GPT-5.5 Instant also agreed with the user's math at first, but then caught the error in how the user had rearranged the equation and solved the corrected quadratic. Ad Benchmark scores tell a similar story. On AIME 2025, a competitive math exam, accuracy jumped from 65.4 to 81.2 percent. GPQA, which tests PhD-level science reasoning, climbed from 78.5 to 85.6 percent. CharXiv, a benchmark for interpreting and reasoning about scientific charts, went from 75.0 to 81.6 percent. Ad DEC_D_Incontent-1 MMMU-Pro, which measures how well models handle expert-level questions across text and images, rose from 69.2 to 76.0 percent. The error rate on OmniDocBench, a test for extracting structured data from complex documents, dropped from 14.6 to 12.5 percent. Benchmark Benchmark Description Metric GPT-5.3 Instant GPT-5.5 Instant CharXiv-reasoning Scientific Chart Reasoning Accuracy 75,0 % 81,6 % MMMU-Pro Expert Multimodal Reasoning Accuracy 69,2 % 76,0 % OmniDocBench Document Parsing Average error rate (lower = better) 14,6 % 12,5 % GPQA PhD-Level Science Accuracy 78,5 % 85,6 % AIME 2025 Competition Math Accuracy 65,4 % 81,2 % Tighter answers and smarter personalization OpenAI also focused on cutting fluff. Answers are shorter without losing substance; the model asks fewer unnecessary follow-ups, drops superfluous emojis, and skips heavy formatting, the company says. "It can deliver the same information, often with more utility than previous models, while reducing the verbosity and overformatting that can make responses too long", OpenAI writes . Ad The model also makes better use of context from past chats, uploaded files, and connected Gmail accounts when those features are turned on. GPT-5.5 Instant is reportedly better at judging when extra personalization actually helps a response, and it searches previous conversations faster. OpenAI is also rolling out memory sources across all ChatGPT models. When a reply draws on stored context, users can now see which information was used, whether that's a saved note or a past chat. Entries can be flagged as relevant or irrelevant, edited, or deleted. Ad DEC_D_Incontent-2 But memory sources won't always show every factor behind a response, OpenAI says. Only some chats the model searches will appear as sources, for instance. The company plans to make the view more complete over time. Memory sources aren't passed along when a chat is shared, and temporary chats neither read from nor update memory. Ad Staggered rollout across plans OpenAI says GPT-5.5 Instant is rolling out to all ChatGPT users right away. Paying users can still access GPT-5.3 Instant through model settings for another three months before it's retired. Enhanced personalization based on past chats, files, and Gmail is launching first for Plus and Pro users on the web, with mobile coming soon. Free, Go, Business, and Enterprise plans are expected to get access over the coming weeks. Memory sources will roll out to all consumer plans on the web first, with mobile to follow. Some personalization features may not be available in every region. OpenAI recently introduced GPT-5.5 Thinking as the higher-tier model, while GPT-5.5 Instant serves as ChatGPT's everyday default. The Thinking version is still more powerful: on cybersecurity tasks it reportedly matches Claude Mythos , and it replaces the specialized Codex coding models . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: OpenAI
관련 소식