메뉴

#언어모델

MP
MarkTechPost 11일 전
IMP 8

엔비디아, Qwen3-8B 대비 6배 빠른 트리모드 언어모델 공개

엔비디아가 기존 오픈소스 모델인 Qwen3-8B보다 한 번의 연산(Forward pass)당 6배 많은 토큰을 처리하는 새로운 트리모드 언어 모델 'Nemotron-Labs-Diffusion'을 발표했습니다. 이 모델은 텍스트, 코드, 이미지 생성 등 다양한 생성(AI) 작업을 단일 모델에서 처리할 수 있도록 설계되었습니다. 이는 AI 모델의 연산 효율성을 획기적으로 끌어올리며, 실시간 처리와 대규모 배포가 필요한 실무 환경에서 매우 중요한 기술적 진전으로 평가됩니다.

엔비디아 언어모델 오픈소스
LL
r/LocalLLaMA 22일 전
IMP 7

AI2, 문서 수준 라우팅 기반 MoE 'EMO' 공개

Allen Institute for AI(AI2)가 1T 토큰으로 학습된 새로운 MoE(Mixture of Experts) 모델인 EMO(14B 전체 파라미터 중 1B 활성화)를 공개했습니다. 이 모델의 가장 큰 특징은 기존의 표면적 패턴이 아닌 건강, 뉴스 등 특정 도메인을 기준으로 문서 수준 라우팅(document-level routing)을 수행한다는 점입니다. 라우팅 방식의 이러한 혁신은 전문가 모델의 할당을 훨씬 더 정교하게 만들어 줍니다.

AI2 MoE 오픈소스
SG
r/singularity 31일 전
IMP 7

미스트랄 3.5 미디움: 안정성을 강조한 유럽 오픈소스 모델

유럽의 AI 기업 미스트랄(Mistral)이 높은 신뢰성과 안정성을 핵심 경쟁력으로 내세운 새로운 오픈소스 언어 모델 '미스트랄 3.5 미디움(Mistral Medium 3.5)'을 공개했습니다. 이 모델은 실무적인 엔터프라이즈 환경에서의 오류 감소 및 일관된 성능 확보에 초점을 맞추고 있어, 상업적 서비스를 운영하는 개발자들에게 중요한 대안으로 평가받고 있습니다.

미스트랄 오픈소스 언어모델
LL
r/LocalLLaMA 31일 전
IMP 7

IBM, 기업용 모델 '그라나이트 4.1' 3B/8B/30B 공개

IBM이 실제 기업 환경에 즉시 도입할 수 있는 '그라나이트 4.1(Granite 4.1)' 모델 컬렉션을 발표했습니다. 이번 릴리스는 30B 이하의 가벼운 크기임에도 불구하고 명령어 준수 및 도구 호출(Tool calling) 능력에서 기존 32B 모델을 뛰어넘는 비용 효율성을 제공하는 것이 가장 큰 특징입니다. 또한 512K 토큰의 긴 문맥 처리, 최고 수준의 음성 인식, 그리고 엄격한 유해 탐지 기능까지 지원하여 기업용 AI 워크플로우 최적화에 유리합니다.

오픈소스 IBM 언어모델
LL
r/LocalLLaMA 31일 전
IMP 7

허깅페이스에 미스트랄 3.5 공개

프랑스 AI 스타트업 미스트랄(Mistral AI)의 최신 대규모 언어 모델(LLM)인 '미스트랄 미디움 3.5(Mistral Medium 3.5)'의 시스템 프롬프트와 구동 방식이 허깅페이스(Hugging Face)를 통해 공개되었습니다. 이 모델은 자체적인 웹 검색 기능은 없지만 도구(Tools)를 활용한 실시간 정보 검색과 추론(Reasoning) 기능을 수행할 수 있도록 설계되었습니다. 특히 자체 챗봇 '르 챗(Le Chat)'의 기반 모델로 활용되며, 날짜 계산 및 멀티모달(이미지 읽기) 처리 능력을 갖춘 점이 주요 특징입니다.

미스트랄 언어모델 오픈소스
TD
The Decoder 35일 전
IMP 7

알리바바 Qwen3.6-27B, 더 큰 모델 능가하는 코딩 성능

알리바바가 270억 파라미터의 새로운 오픈소스 밀집(Dense) 언어 모델인 Qwen3.6-27B를 공개했습니다. 이 모델은 3,970억 파라미터의 거대한 이전 버전을 거의 모든 코딩 벤치마크에서 압도하며, 훨씬 가벼운 크기로도 뛰어난 성능을 발휘합니다. 개발자들은 복잡한 MoE 구조 없이도 강력한 코딩 및 멀티모달 추론 성능을 활용할 수 있게 되었습니다.

Qwen 오픈소스 코딩 벤치마크
HN
Hacker News 59일 전
IMP 7

25개 생물종 mRNA 언어모델, 단 165달러에 학습

단백질 구조 예측부터 서열 설계, 코돈 최적화(Codon optimization)까지 아우르는 엔드투엔드 AI 파이프라인이 구축되었습니다. 코돈 수준의 언어 모델링 비교 결과 'CodonRoBERTa-large-v2'가 4.10의 퍼플렉시티와 0.40의 스피어만 CAI 상관관계를 기록하며 기존 모델을 크게 상회하는 성능을 입증했습니다. 25개 생물종을 대상으로 단 55 GPU시간만에 4개의 실 서비스용 모델을 학습하여, 타 오픈소스에서 제공하지 않는 종 조건부(species-conditioned) 시스템을 완성했다는 점이 핵심입니다.

생물정보학 mRNA 언어모델