메뉴
BL
MarkTechPost 3일 전

퍼플렉시티, 휴깅페이스 대비 5배 빠른 토크나이저 오픈소스화

IMP
7/10
핵심 요약

Perplexity AI가 Unigram 기반의 새로운 토크나이저를 오픈소스로 공개했습니다. 이 토크나이저는 널리 쓰이는 Hugging Face 토크나이저 대비 p50 지연 시간을 5배 낮춰 대규모 텍스트 처리 성능을 크게 향상시켰다는 점에서 실무적인 의의가 있습니다. 데이터 전처리 및 AI 서비스 추론 속도 개선에 핵심적인 역할을 할 것으로 기대됩니다.

번역된 본문

Perplexity AI가 Unigram 기반의 새로운 토크나이저를 오픈소스로 공개했습니다. 이 토크나이저는 널리 쓰이는 Hugging Face의 'tokenizers' 라이브러리 대비 p50 지연 시간을 5배나 낮췄습니다. 대규모 언어 모델(LLM)의 텍스트 전처리 과정에서 이러한 처리 속도 향상은 전체적인 모델 추론 및 서비스 응답 시간 단축에 매우 중요한 역할을 합니다. AI 실무자 및 개발자들은 이번에 공개된 새로운 Unigram 토크나이저를 통해 데이터 처리 파이프라인의 병목 현상을 크게 줄이고 효율성을 높일 수 있을 것으로 보입니다.

원문 보기
원문 보기 (영어)
@font-face { font-family: 'DM Sans'; font-style: normal; font-weight: 400; src: url(https://fonts.gstatic.com/s/dmsans/v17/rP2tp2ywxg089UriI5-g4vlH9VoD8CmcqZG40F9JadbnoEwAopxhTg.ttf) format('truetype'); } @font-face { font-family: 'DM Sans'; font-style: normal; font-weight: 500; src: url(https://fonts.gstatic.com/s/dmsans/v17/rP2tp2ywxg089UriI5-g4vlH9VoD8CmcqZG40F9JadbnoEwAkJxhTg.ttf) format('truetype'); } @font-face { font-family: 'DM Sans'; font-style: normal; font-weight: 600; src: url(https://fonts.gstatic.com/s/dmsans/v17/rP2tp2ywxg089UriI5-g4vlH9VoD8CmcqZG40F9JadbnoEwAfJthTg.ttf) format('truetype'); }