#언어모델

Pulpie: 웹 데이터 정화를 위한 효율적 오픈소스 AI 모델

Feyn Labs가 HTML 페이지에서 핵심 내용만 빠르고 저렴하게 추출하는 파레토 최적의 AI 모델군인 'Pulpie'를 오픈소스로 공개했습니다. 기존 최고 수준(SOTA) 모델인 Dripper와 비슷한 성능을 내면서도 크기는 1/3, 추론 비용은 1/20 수준으로, 10억 페이지 처리 비용을 약 2,890만 원에서 58억 원으로 대폭 절감할 수 있습니다. 깨끗한 데이터는 언어 모델의 사전 학습 및 추론 성능 향상에 핵심적인 역할을 하므로, 이 모델은 대규모 웹 데이터 처리에 있어 매우 중요한 돌파구가 될 것입니다.

데이터 정제 오픈소스 언어모델

MarkTechPost • 28일 전

IMP 7

엔비디아, 확산 기반 언어모델 '네모트론 투타워' 공개

엔비디아가 기존 자기회귀(AR) 모델의 텍스트 생성 속도 한계를 극복하기 위해 오픈 웨이트 기반의 확산 언어 모델(Diffusion Language Model) '네모트론 투타워(Nemotron-Labs-TwoTower)'를 공개했습니다. 이 모델은 사전 학습된 자기회귀 백본을 기반으로 하여 텍스트 생성 시 발생하는 처리량(Throughput) 병목 문제를 해결하는 것을 목표로 하며, NVIDIA Nemotron Open Model License를 따릅니다. AI 실무자들에게 텍스트 생성 효율을 획기적으로 높일 수 있는 중요한 대안을 제시한다는 점에서 의미가 있습니다.

엔비디아 언어모델 오픈소스

Hacker News • 35일 전

IMP 8

큐원 에이전트월드: 범용 에이전트를 위한 언어 세계 모델

알리바바 큐원(Qwen) 연구팀이 에이전트의 추론 및 계획 능력을 향상시키기 위해 7개 주요 도메인의 환경을 시뮬레이션할 수 있는 새로운 언어 기반 세계 모델인 '큐원 에이전트월드(Qwen-AgentWorld)'를 공개했습니다. 이 모델은 기존 최고 수준의 모델들을 능가하는 성능을 보여주며, 방대한 실제 상호작용 데이터와 강화학습(RL)을 통해 탄생했습니다. 이는 단순히 성능이 좋은 모델을 넘어, 가상 환경 시뮬레이터 및 사전 학습 도구로 활용되어 범용 인공지능 에이전트의 학습 효율과 성공률을 획기적으로 끌어올린다는 점에서 중요합니다.

언어모델 에이전트 강화학습

MarkTechPost • 39일 전

IMP 7

VibeThinker-3B 공개: 소형 모델로 대형 AI 성능 맞춤

단 30억(3B) 개의 매개변수를 가진 소형 추론 모델인 VibeThinker-3B가 공개되었습니다. 이 모델은 효율적인 포스트 트레이닝(Post-training) 파이프라인을 적용하여 DeepSeek V3.2 및 Kimi K2.5 같은 거대 AI 모델들과 필적하는 검증된 벤치마크 성능을 기록했습니다. 적은 컴퓨팅 자원으로도 뛰어난 성능을 낼 수 있음을 증명했다는 점에서 AI 실무자들에게 매우 중요한 의미를 갖습니다.

오픈소스 언어모델 AI추론

MarkTechPost • 70일 전

IMP 8

엔비디아, Qwen3-8B 대비 6배 빠른 트리모드 언어모델 공개

엔비디아가 기존 오픈소스 모델인 Qwen3-8B보다 한 번의 연산(Forward pass)당 6배 많은 토큰을 처리하는 새로운 트리모드 언어 모델 'Nemotron-Labs-Diffusion'을 발표했습니다. 이 모델은 텍스트, 코드, 이미지 생성 등 다양한 생성(AI) 작업을 단일 모델에서 처리할 수 있도록 설계되었습니다. 이는 AI 모델의 연산 효율성을 획기적으로 끌어올리며, 실시간 처리와 대규모 배포가 필요한 실무 환경에서 매우 중요한 기술적 진전으로 평가됩니다.

엔비디아 언어모델 오픈소스

r/LocalLLaMA • 81일 전

IMP 7

AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개

Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.

AI2 MoE 오픈소스

r/singularity • 90일 전

IMP 7

미스트랄 3.5 미디움: 안정성을 강조한 유럽 오픈소스 모델

유럽의 AI 기업 미스트랄(Mistral)이 높은 신뢰성과 안정성을 핵심 경쟁력으로 내세운 새로운 오픈소스 언어 모델 '미스트랄 3.5 미디움(Mistral Medium 3.5)'을 공개했습니다. 이 모델은 실무적인 엔터프라이즈 환경에서의 오류 감소 및 일관된 성능 확보에 초점을 맞추고 있어, 상업적 서비스를 운영하는 개발자들에게 중요한 대안으로 평가받고 있습니다.

미스트랄 오픈소스 언어모델

r/LocalLLaMA • 90일 전

IMP 7

IBM, 기업용 모델 '그라나이트 4.1' 3B/8B/30B 공개

IBM이 실제 기업 환경에 즉시 도입할 수 있는 '그라나이트 4.1(Granite 4.1)' 모델 컬렉션을 발표했습니다. 이번 릴리스는 30B 이하의 가벼운 크기임에도 불구하고 명령어 준수 및 도구 호출(Tool calling) 능력에서 기존 32B 모델을 뛰어넘는 비용 효율성을 제공하는 것이 가장 큰 특징입니다. 또한 512K 토큰의 긴 문맥 처리, 최고 수준의 음성 인식, 그리고 엄격한 유해 탐지 기능까지 지원하여 기업용 AI 워크플로우 최적화에 유리합니다.

오픈소스 IBM 언어모델

r/LocalLLaMA • 90일 전

IMP 7

허깅페이스에 미스트랄 3.5 공개

프랑스 AI 스타트업 미스트랄(Mistral AI)의 최신 대규모 언어 모델(LLM)인 '미스트랄 미디움 3.5(Mistral Medium 3.5)'의 시스템 프롬프트와 구동 방식이 허깅페이스(Hugging Face)를 통해 공개되었습니다. 이 모델은 자체적인 웹 검색 기능은 없지만 도구(Tools)를 활용한 실시간 정보 검색과 추론(Reasoning) 기능을 수행할 수 있도록 설계되었습니다. 특히 자체 챗봇 '르 챗(Le Chat)'의 기반 모델로 활용되며, 날짜 계산 및 멀티모달(이미지 읽기) 처리 능력을 갖춘 점이 주요 특징입니다.

미스트랄 언어모델 오픈소스

The Decoder • 94일 전

IMP 7

알리바바 Qwen3.6-27B, 더 큰 모델 능가하는 코딩 성능

알리바바가 270억 파라미터의 새로운 오픈소스 밀집(Dense) 언어 모델인 Qwen3.6-27B를 공개했습니다. 이 모델은 3,970억 파라미터의 거대한 이전 버전을 거의 모든 코딩 벤치마크에서 압도하며, 훨씬 가벼운 크기로도 뛰어난 성능을 발휘합니다. 개발자들은 복잡한 MoE 구조 없이도 강력한 코딩 및 멀티모달 추론 성능을 활용할 수 있게 되었습니다.

Qwen 오픈소스 코딩 벤치마크

Hacker News • 118일 전

IMP 7

25개 생물종 mRNA 언어모델, 단 165달러에 학습

단백질 구조 예측부터 서열 설계, 코돈 최적화(Codon optimization)까지 아우르는 엔드투엔드 AI 파이프라인이 구축되었습니다. 코돈 수준의 언어 모델링 비교 결과 'CodonRoBERTa-large-v2'가 4.10의 퍼플렉시티와 0.40의 스피어만 CAI 상관관계를 기록하며 기존 모델을 크게 상회하는 성능을 입증했습니다. 25개 생물종을 대상으로 단 55 GPU시간만에 4개의 실 서비스용 모델을 학습하여, 타 오픈소스에서 제공하지 않는 종 조건부(species-conditioned) 시스템을 완성했다는 점이 핵심입니다.

생물정보학 mRNA 언어모델