메뉴

#OCR

HN
Hacker News 19일 전
IMP 8

인터페이즈: 대규모 정밀 작업 특화 신규 AI 모델

인터페이즈(Interfaze)는 트랜스포머 모델의 유연성과 DNN/CNN 모델의 높은 정확도를 결합하여 OCR, 비전, 음성 인식, 구조화된 출력 등의 작업에서 최적화된 성능을 제공하는 새로운 아키텍처입니다. 이 모델은 Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini 등과 비교하여 9개 벤치마크에서 대부분 우수한 성능을 보여주었으며, 특히 처리 비용과 응답 시간을 획기적으로 낮추면서도 높은 정확도를 유지하는 것이 특징입니다.

새로운 아키텍처 OCR 비전 모델
LL
r/LocalLLaMA 38일 전
IMP 7

Rust 기반 로컬 만화 번역기, LLM 내장

오픈소스 로컬 만화 번역기 'Koharu'가 공개되었습니다. llama.cpp를 통합해 시각적 LLM OCR과 객체 탐지, 인페인팅을 결합한 고성능 파이프라인을 제공합니다. 번역 결과를 폰트와 색상 등 미세 조정할 수 있는 내장 에디터도 포함되어 있어 실무 번역 작업에 즉시 활용할 수 있다는 점이 중요합니다.

오픈소스 만화 번역 시각 LLM