오픈AI, 챗GPT 이미지 생성 모델 대폭 강화
오픈AI가 단일 프롬프트로 여러 장의 이미지를 생성하고 비영어권 언어의 텍스트 렌더링을 크게 개선한 'ChatGPT Images 2.0'을 전격 공개했습니다. 이번 모델은 챗GPT 특유의 '추론' 능력과 웹 검색 기능을 활용하여 최신 정보가 반영된 정확하고 복잡한 이미지를 생성할 수 있으며, 사용자가 원하는 다양한 비율(3:1~1:3) 조정 또한 지원합니다. 영어 텍스트 생성 능력은 눈에 띄게 향상되었으나, 중국어 등 타 언어에 대해서는 여전히 글자가 뒤섞이거나 의미 없는 문구가 생성되는 등 일관성 부족의 한계를 보여주어 다국어 지원의 추가적인 보완이 필요해 보입니다.
오픈AI는 화요일에 'ChatGPT Images 2.0'라는 이름의 새로운 이미지 생성 AI 모델을 출시했다. 이 모델은 하나의 프롬프트를 통해 학습 안내서와 같은 여러 장의 이미지를 한 번에 생성할 수 있으며, 중국어 및 힌디어 같은 비영어권 언어를 포함하여 이미지 내에 텍스트를 출력할 수 있다. 이번 업데이트는 전 세계의 챗GPT 및 Codex 사용자를 대상으로 제공되며, 유료 구독자에게는 더 강력한 버전이 제공된다.
주요 AI 기업이 새로운 이미지 모델을 출시할 때마다 사용자의 관심과 활용도가 크게 높아지곤 한다. 특히 소셜 미디어 사용자들이 밈 트렌드를 만들어 자신의 사진을 변환하기 시작하면 그 효과가 더욱 커진다. 작년에 구글이 'Gemini(Nano Banana)' 모델을 출시했을 때, 특히 사용자들이 자신의 모습을 닮은 초현실적인 피규어 이미지를 온라인에 올리면서 회사 입장에서는 중요한 전환점이 되었다. 그리고 올해 초에도 챗GPT 이미지가 사용자들 사이에서 AI가 생성한 캐리커처가 공유되면서 소셜 미디어에서 큰 화제를 모은 바 있다.
달라진 점은 무엇인가? 새로운 모델은 챗GPT의 '추론(Reasoning)' 기능을 활용할 수 있기 때문에, Images 2.0은 인터넷을 검색해 최신 정보를 파악하고 한 번에 두 장 이상의 이미지를 생성할 수 있다. 본질적으로, 이 챗봇은 단일 프롬프트에 대해 추가적인 단계를 거쳐 더 완성도 높고 구체적인 결과물을 도출해 낸다. 또한 Images 2.0은 2025년 12월이라는 더 최신의 지식 기준일(knowledge cutoff date)을 반영하고 있어, 결과물의 디테일이 훨씬 더 정교해졌다. 예를 들어, 내일의 샌프란시스코 날씨 예보와 추천 활동이 담긴 인포그래픽을 생성해 보았다. 챗GPT가 만들어낸 이미지는 비 오는 날의 정확한 날씨 정보는 물론, 페리 빌딩(Ferry Building), 카스트로 극장(Castro Theater), 페인티드 레이디스(Painted Ladies) 주택, 트랜스아메리카 피라미드(Transamerica Pyramid) 등을 정확하게 묘사한 삽화를 포함하고 있었다. 더불어, 원하는 특정 비율의 이미지를 생성하고자 하는 사용자를 위해 Images 2.0은 더 높은 자유도를 제공한다. 새 모델은 3:1의 와이드 형태부터 1:3의 세로 형태까지 다양한 크기의 이미지를 생성할 수 있으며, 사용자는 프롬프트를 통해 이미지의 크기를 직접 조절할 수 있다.
첫인상 새로운 모델로 몇 시간 동안 이미지를 생성해 본 후, 적어도 영어 텍스트 렌더링 기능에 대해서는 전반적으로 깊은 인상을 받았다. 불과 얼마 전까지만 해도 주요 모델들이 텍스트가 포함된 이미지를 출력할 때 글자가 심하게 뭉개지거나 불필요한 글자가 섞여 나오는 일이 다반사였다. 챗GPT 역시 2년 전에는 이미지 내 텍스트를 정확하게 표현하는 데 어려움을 겪었기 때문에, Images 2.0이 보여주는 깔끔하고 복잡한 결과물은 지속적인 발전을 보여주는 확실한 증거다. (구글 역시 최근 'Gemini' 모델의 반복적인 업데이트를 통해 텍스트가 포함된 이미지 출력을 개선하는 데 집중해 왔다.)
새 모델의 다국어 출력 능력을 테스트하기 위해, 티모시 샬라메(Timothée Chalamet)를 주제로 중국 팬덤이 만든 듯한 콜라주 포스터를 생성해 달라고 요청했다. 그 결과물에는 영화 배우의 사실적인 모습을 담은 다양한 사진이 등장했으며, 일부에서는 그가 전통 의상을 입거나 고양이 귀가 그려진 모습도 볼 수 있었다. 이 AI 콜라주는 만두, 버블티, 판다 이미지는 물론 20개 이상의 텍스트 조각이 포함된 등 디테일이 극도로 풍부했다. 중국어를 몰랐기에 "저 텍스트는 무슨 뜻이야?"라는 간단한 프롬프트로 챗봇에게 번역을 요청했다. 챗GPT의 답변은 자신의 결과물에 대해 스스로 비판적이었다. "대부분은 가짜이거나 중국어 밈 포스터 글처럼 보이게 꾸민 반쯤 알 수 없는 AI 텍스트라서 깔끔하게 번역되지 않습니다"라며 자신의 결과물을 평가했고, 무엇이 정확해 보이고 무엇이 어색한지 목록을 나열했다. "또한 체크리스트 카드나 오른쪽 장식선처럼 명백하게 형태가 잘못되었거나 일본어 문자가 섞인 부분도 몇 군데 있습니다. 이는 대부분 정확한 문장이라기보다는 동아시아 팬들의 에디트 텍스트를 닮은 허튼 소리에 불과합니다."
따라서 새로운 챗GPT 이미지 모델은 영어 텍스트를 생성할 때 초기 테스트에서 훌륭한 성능을 보여주었지만, 전 세계 사용자들이 각자의 언어로 이미지를 생성할 때도 이와 동일한 수준의 결과를 얻을 수 있을지는 아직 확신할 수 없다. 물론 오픈AI가 영어 출력을 개선하는 데 거둔 비약적인 발전을 고려할 때, 앞으로 다국어 지원 역시 빠르게 발전할 가능성이 높다.