GPT-5.5 인스턴트(Instant) 공개
수억 명이 매일 사용하는 ChatGPT의 기본 모델이 GPT-5.5 인스턴트로 업데이트되었습니다. 이번 업데이트는 모든 주제에서 사실 관계 오류(환각 현상)를 대폭 줄이고 개인화된 맥락을 더 잘 이해하도록 개선된 것이 특징입니다. 또한 복잡한 수학 문제의 오류를 스스로 찾아내고 교정하는 논리적 추론 및 문제 해결 능력이 크게 향상되어 실무 및 학습에 더욱 유용해졌습니다.
수억 명이 매일 사용하는 ChatGPT의 기본 모델이 GPT-5.5 인스턴트로 업데이트되었습니다. 이번 업데이트는 모든 주제에서 사실 관계 오류(환각 현상)를 대폭 줄이고 개인화된 맥락을 더 잘 이해하도록 개선된 것이 특징입니다. 또한 복잡한 수학 문제의 오류를 스스로 찾아내고 교정하는 논리적 추론 및 문제 해결 능력이 크게 향상되어 실무 및 학습에 더욱 유용해졌습니다.
오픈AI가 챗GPT의 새로운 기본 모델인 'GPT-5.5 Instant'를 공개했습니다. 이 모델은 수학 및 멀티모달 추론 벤치마크에서 이전 모델을 크게 상회하는 성능을 보여주며, 법률 및 의료 등 민감한 분야의 환각(Hallucination) 현상을 줄이는 데 집중했습니다. 특히 과거 대화 및 파일 등을 참조하는 개인화된 컨텍스트 관리 기능과 모델의 기억 출처를 확인 및 수정할 수 있는 기능이 추가되어 사용자 경험이 크게 향상되었습니다.
사용자가 ChatGPT에 '수평 적분(horizontal integral)'을 시각화해달라고 요청했는데, 아무런 프롬프트 조작을 하지 않았음에도 불구하고 엉뚱하게도 강아지 이미지를 생성했습니다. 이는 현재 AI 모델이 특정 수학적·전문 용어를 제대로 이해하지 못하고 발생할 수 있는 기이한 환각(Hallucination) 현상을 단적으로 보여줍니다.
비정형 데이터를 정형화된 데이터(JSON)로 변환하는 LLM의 정확성을 평가하는 새로운 벤치마크인 SOB(Structured Output Benchmark)가 소개되었습니다. 기존 벤치마크들은 단순히 문법적 오류가 없는지(스키마 준수)만 확인하여 실제 업무 환경에서 발생할 수 있는 값의 환각이나 누락 문제를 잡아내지 못했습니다. 이를 해결하기 위해 SOB는 텍스트, 이미지, 오디오라는 3가지 입력 소스를 바탕으로 값의 정확도와 구조적 완성도 등 7가지 세부 지표를 사용해 실무에 적용 가능한 모델의 진짜 추출 능력을 평가합니다.
최근 공개된 연구 preprint에 따르면, 당뇨병 환자의 인슐린 투여에 직결되는 AI 기반 탄수화물 계산 기능이 매우 심각한 수준의 오차와 환각 현상을 보여줍니다. 최신 AI 모델들에 음식 사진을 500회 이상 반복 제출한 결과, 동일한 사진임에도 매번 상이한 탄수화물 수치를 반환하며 최대 429g의 편차를 보였습니다. 이는 잘못된 인슐린 투여로 생명을 위협할 수 있는 수치이므로, 의료 및 건강 분야의 AI 에이전트 도입 시 극도의 주의가 필요합니다.
OpenAI의 최신 모델 GPT-5.5가 Artificial Analysis 지능 지수 60점을 기록하며 클로드 오퍼스 4.7(Claude Opus 4.7)과 제미나이 3.1 프로 프리뷰(Gemini 3.1 Pro Preview)를 제치고 종합 1위를 탈환했습니다. 토큰(token) 소모량 감소에도 불구하고 API 가격이 실질적으로 약 20% 인상되었으며, 특히 정답률은 높음에도 불구하고 모르는 것을 인정하지 않고 답변을 지어내는 '환각(hallucination)' 비율이 86%에 달해 개선이 시급한 과제로 꼽힙니다.
레딧(Reddit) 커뮤니티에서는 예상보다 빠르게 출시될 것으로 보이는 GPT-6의 전망을 놓고 반응이 뜨겁습니다. 특히 유저들은 다음 버전이 출시되기까지 오랜 시간이 걸린 게임 GTA 6를 인용하여 유머러스한 비교를 하고 있습니다. 하지만 GPT-6가 등장하면 '비용 6배, 환각(Hallucination) 현상 6배'라며 성능 향상에 따른 부작용에 대한 우려의 목소리도 담고 있습니다.