인터페이즈: 대규모 정밀 작업 특화 신규 AI 모델
인터페이즈(Interfaze)는 트랜스포머 모델의 유연성과 DNN/CNN 모델의 높은 정확도를 결합하여 OCR, 비전, 음성 인식, 구조화된 출력 등의 작업에서 최적화된 성능을 제공하는 새로운 아키텍처입니다. 이 모델은 Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini 등과 비교하여 9개 벤치마크에서 대부분 우수한 성능을 보여주었으며, 특히 처리 비용과 응답 시간을 획기적으로 낮추면서도 높은 정확도를 유지하는 것이 특징입니다.
인터페이즈(Interfaze): 대규모 작업에서 높은 정확도를 위해 구축된 새로운 모델 아키텍처
tl;dr: 인터페이즈는 OCR, 비전, STT(음성 텍스트 변환), 구조화된 출력 분야의 9개 직접 비교 벤치마크에서 Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini, Grok-4.3 등의 모델을 능가하는 새로운 모델 아키텍처입니다.
인간은 컴퓨터 수준의 작업에 있어서는 비효율적입니다. 우리는 실수를 하지만, 의사결정과 미묘한 뉘앙스를 이해하는 데는 탁월합니다. 만약 사람에게 50페이지짜리 PDF를 읽고, 모든 단어를 다른 문서의 XY 좌표에 매핑한 뒤 전체를 중국어로 번역하라고 지시한다고 상상해 보세요. 엄청난 실수가 발생할 것이고, 그 사람의 급여를 지불하는 데 많은 비용이 들며, 결과를 얻기까지 오랜 시간을 기다려야 할 것입니다.
트랜스포머(Transformer) 모델도 이와 비슷합니다. 이들은 미묘한 뉘앙스와 인간 수준의 작업에서 놀라운 성능을 발휘하며, 인간처럼 실수도 하지만 그것이 오히려 창의성을 발휘하게 만듭니다. 하지만 우리는 지금까지 잘못된 작업에 잘못된 모델을 사용해 왔습니다.
CNN/DNN은 90년대 초반 LeNet-5부터 ResNet, 그리고 최근의 CRNN-CTC에 이르기까지 존재해 왔습니다. 이들은 OCR, 번역, GUI 감지와 같은 특정 작업에 특화된 심층 신경망(DNN) 아키텍처입니다. 이들이 데이터를 소비하고 바라보는 방식은 작업에 특화되도록 훈련되었기 때문에, 해당 특정 작업에서는 최대 100배 더 높은 정확도를 발휘합니다. 또한 바운딩 박스(Bounding Box)나 신뢰도 점수(Confidence Score)와 같은 유용한 메타데이터를 생성하여 개발자가 의존할 수 있는 예측 가능한 워크플로우를 구축할 수 있게 해줍니다.
그렇다면 왜 그토록 많은 사람들이 결정론적(Deterministic) 작업에 여전히 트랜스포머나 LLM을 선택하는 걸까요? DNN은 유연하지 않기 때문입니다. 이들은 훈련 데이터만큼만 좋은 성능을 내며, 인간 수준의 뉘앙스 처리에는 능하지 않습니다. 서빙 비용은 저렴할지 모르지만, 새로운 작업을 위해 유지보수하고 재훈련하는 데는 많은 비용이 듭니다. 여권을 예로 들면, CNN은 바운딩 박스와 신뢰도 점수를 통해 생년월일을 추출할 수 있지만, 그 사람의 나이를 계산할 수는 없습니다.
인터페이즈(Interfaze)를 소개합니다. DNN/CNN 모델의 전문성과 옴니-트랜스포머(Omni-transformer)를 결합하여 두 가지 장점을 모두 제공하는 새로운 모델 아키텍처입니다. 즉, 결정론적 작업에서 높은 정확도와 낮은 비용을 제공합니다:
- 비전 (이미지 및 문서, 객체 및 GUI 감지)
- 웹 추출 및 검색
- 오디오 (STT 및 화자 분리)
- 번역
- 비디오 (출시 예정)
모델 사양
- 컨텍스트 윈도우: 100만 토큰
- 최대 출력 토큰: 3만 2천 토큰
- 입력 모달리티: 텍스트, 이미지, 오디오, 파일
- 추론 기능: 지원됨 (기본값: 비활성화)
벤치마크 Claude Opus 4.7이나 GPT 5.5 같은 Pro 등급 모델은 현재 시장에서 코딩이나 복잡한 추론 작업에 있어 최고의 범용 모델이지만, 높은 비용과 느린 응답 시간 때문에 OCR이나 번역과 같은 대용량 작업에는 일반적으로 사용되지 않습니다. 인터페이즈는 가격 및 기능 세트가 유사한 모델들을 기준으로 벤치마크를 측정했으며, 이 모델들은 비용을 낮게 유지하면서도 가장 빠른 속도로 최고의 성능을 끌어내도록 최적화되었습니다.
오늘날 대부분의 사람들은 결정론적 개발자 작업을 위해 두 가지 모델 카테고리를 선택합니다:
- Gemini-3-Flash, GPT-5.4-Mini, Claude Sonnet 4.6과 같은 플래시/미니 모델. 대규모 작업에서 성능과 가격의 최적의 균형을 제공합니다.
- Reducto, Mistral OCR, Whisper와 같은 전문 제공업체.
세부 벤치마크 결과 (비교 모델: 인터페이즈, Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini, Grok-4.3)
- OCRBench V2: 70.7% / 55.8% / 54.7% / 52.7% / 54.7%
- olmOCR: 85.7% / 75.3% / 73.9% / 80.1% / 81.9%
- RefCOCO: 82.1% / 75.2% / 75.5% / 67.0% / 25.0%
- VoxPopuli (WER, 낮을수록 좋음): 2.4% / 4.0% / — / — / —
- Spider 2.0-Lite: 52.9% / 45.2% / 49.6% / 26.7% / 45.9%
- GPQA Diamond: 89.9% / 88.5% / 89.9% / 82.8% / 73.6%
- MMMLU: 90.9% / 88.7% / 84.9% / 75.3% / 89.7%
- MMMU-Pro: 71.1% / 67.6% / 46.3% / 40.4% / 68.7%
- SOB Value Acc: 79.5% / 77.3% / 77.9% / 75.1% / 78.4%
(참고: ↓ 표시는 낮을수록 좋은 지표(단어 오류율)입니다. — 표시는 점수가 없음(모델에 기본 오디오 입력 기능이 없음)을 나타냅니다. 다른 모든 항목은 높을수록 좋습니다. 각 모델은 OCRBench V2, olmOCR, RefCOCO, VoxPopuli-Cleaned-AA, SOB Value, Spider-2.0-Lite, GPQA Diamond, MMMLU, MMMU-Pro의 9개 벤치마크에서 직접 비교되었습니다.)
전체 리더보드 보기 → 인터페이즈는 거의 모든 벤치마크에서 선두를 차지합니다.