메뉴

#오픈소스 모델

HN
Hacker News 2일 전
IMP 6

정체불명 Hy3, LLM 랭킹 1위 점령한 이유

대중에게 생소한 중국 텐센트의 오픈소스 모델 'Hy3 preview'가 최근 OpenRouter 모델 사용량 랭킹에서 최고의 인기를 누리던 Claude와 DeepSeek를 큰 폭으로 제치며 부상했습니다. 성능 벤치마크나 사용자 평가는 상위 모델들에 미치지 못하는 수준이지만, 입력 토큰당 약 $0.066라는 극도로 저렴한 가격 책정 덕분에 비용에 민감한 유료 사용자들을 대량으로 끌어들이며 유기적인 사용량 1위를 기록하고 있습니다. 이 현상은 최근 AI 코딩 에이전트 등의 비용이 급증함에 따라, 최고 수준의 성능보다 '가성비'를 선택하는 시장의 실용적인 트렌드를 보여준다는 점에서 중요합니다.

오픈소스 모델 LLM 시장 트렌드 비용 최적화
MP
MarkTechPost 4일 전
IMP 7

고정밀 검색-재순위 파이프라인 구축하기

이 튜토리얼은 40억(4B) 파라미터 규모의 Qwen3 기반 크로스 인코더 재순위 모델(reranker)인 'zeroentropy/zerank-2-reranker'를 활용해 검색 품질을 극대화하는 방법을 다룹니다. 빠른 바이 인코더(bi-encoder)로 먼저 후보 문서를 검색하고, 제로랭크-2 모델이 이를 정밀하게 재정렬하는 2단계 검색 파이프라인을 구축하는 실무 과정을 설명합니다. 정보 검색 및 RAG(검색 증강 생성) 시스템의 정확도를 높이고자 하는 AI 실무자들에게 필수적인 최적화 가이드를 제공합니다.

재순위 모델 (Reranker) 검색 증강 생성 (RAG) 정보 검색 (IR)
HN
Hacker News 4일 전
IMP 8

외주 개발자와 로컬 AI가 프론티어 모델보다 저렴해지는 시점

최근 오픈AI, 구글, 앤스로픽 등 미국의 주요 AI 기업들이 폭발적인 토큰 소비 증가에 힘입어 API 가격을 대폭 인상하고 있습니다. 이에 따라 저비용 국가의 인간 엔지니어를 고용하고 DeepSeek과 같은 오픈소스 로컬 AI를 결합하는 방식이 프론티어 폐쇄형 모델을 사용하는 것보다 경제성이 높아질 것이라는 분석이 제기되었습니다. 이러한 구도는 결과적으로 최신 고성능 모델들의 가격 상한선을 설정하는 핵심적인 역할을 하게 될 것입니다.

가격 정책 오픈소스 모델 API 비용
LL
r/LocalLLaMA 5일 전
IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화
LL
r/LocalLLaMA 6일 전
IMP 6

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스
LL
r/LocalLLaMA 10일 전
IMP 3

커뮤니티가 Qwen 3.7 모델 발표를 학수고대하는 현실

오픈소스 AI 커뮤니티 사용자가 중국의 Qwen(치안)이 발표할 3.7 버전 모델을 기다리며 게시한 유머러스한 게시글입니다. 해당 유저는 27B(27B) 및 122B(122B) 파라미터 모델의 공개를 간절히 희망하고 있습니다. 이는 화제의 Qwen 새 모델에 대한 글로벌 개발자들의 높은 기대감과 관심을 잘 보여줍니다.

Qwen 오픈소스 모델 대규모 언어 모델(LLM)
LL
r/LocalLLaMA 10일 전
IMP 7

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

로컬 LLM 양자화(GGUF) 벤치마크
LL
r/LocalLLaMA 15일 전
IMP 6

네트워크 없이 구동되는 오프라인 로봇, 젯슨 오린과 젬마 3 탑재

Reddit 사용자가 Wi-Fi나 셀룰러 연결 없이 엔비디아 젯슨 오린 NX와 소형 언어 모델인 Gemma 3 4B만으로 완전한 오프라인 로봇을 제작했습니다. 프롬프트 구조 최적화를 통해 캐시 적용 시 첫 토큰 생성 시간(TTFT)을 약 200ms로 단축하고 30개 이상의 센서 데이터를 실시간으로 자연어로 처리하는 점이 기술적으로 주목받습니다.

오픈소스 모델 온디바이스 AI 로봇 공학
LL
r/LocalLLaMA 19일 전
IMP 5

DGX 수랭식 냉각 성공 사례 공유

엔비디아 고성능 서버인 DGX를 가동할 때 수도물을 이용한 수랭식 냉각 방식으로 고부하 상태의 발열 문제를 성공적으로 제어한 사례입니다. 대규모 언어 모델 구동 중 95%의 높은 GPU 사용률에도 온도를 68도 이하로 안정적으로 유지했습니다. 고성능 AI 하드웨어의 발열 관리에 직면한 실무자들에게 매우 유용하고 직관적인 해결책을 제공합니다.

하드웨어 GPU 냉각 DGX
HN
Hacker News 20일 전
IMP 7

M4(24GB)에서 구동되는 로컬 AI 모델 최적화기

이 글은 24GB 메모리를 탑재한 M4 맥북 프로에서 인터넷 없이 로컬 AI 모델을 구동하고 코딩 등의 작업에 활용하는 방법을 다루고 있습니다. 실험 끝에 Qwen 3.5-9B 모델을 발견했으며, SOTA(최고 수준) 모델에는 미치지 못하지만 기본적인 연구, 계획, 그리고 도구 활용이 가능해 유용합니다. 또한 Ollama, LM Studio 등의 환경 설정과 Pi, OpenCode 등 터미널 클라이언트의 구성 방법 및 추천 파라미터까지 상세히 공유하고 있습니다.

로컬 AI 오픈소스 모델 M4 맥북
HN
Hacker News 24일 전
IMP 8

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

오픈소스 모델 MoE 아키텍처 AMD 인프라
LL
r/LocalLLaMA 24일 전
IMP 9

ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델

Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.

오픈소스 모델 AMD 인프라 MoE 아키텍처
LL
r/LocalLLaMA 25일 전
IMP 6

밀집 모델 대결: 느린 게 더 빠르다?

이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.

오픈소스 모델 벤치마크 로컬 LLM
HN
Hacker News 27일 전
IMP 8

트랜스포머 AI와 대화하는 법

효과적인 프롬프트 엔지니어링을 위해 1) 도메인 특화 언어로 명확한 의도 전달, 2) 대화 방향 강력하게 유도, 3) 코드 번역기로서의 모델 활용, 4) 모델의 출력물 직접 읽고 검증 등 네 가지 핵심 원칙을 제시합니다. 특히 추론(Reasoning) 모델과 비추론(Non-reasoning) 모델의 작동 방식 차이를 이해하고, 최근 성능이 크게 향상된 오픈소스 소형 모델들을 적극 활용할 것을 강조하고 있습니다.

프롬프트 엔지니어링 오픈소스 모델 소형 언어 모델
TD
The Decoder 28일 전
IMP 8

샤오미 MiMo 모델, 4시간 만에 컴파일러 자동 코딩

샤오미가 1.02조 개 매개변수를 장착한 오픈웨이트 혼합 전문가(MoE) 언어모델 MiMo-V2.5-Pro를 공개했습니다. 이 모델은 최대 100만 토큰을 처리하며, 내부 테스트에서 불과 4.3시간 만에 완전한 컴파일러를 자율적으로 작성했습니다. 서구권 경쟁 모델들과 비교해 40~60% 적은 토큰으로 동등한 수준의 성능을 발휘하며 뛰어난 효율성을 입증했습니다.

샤오미 오픈소스 모델 자율 코딩
LL
r/LocalLLaMA 28일 전
IMP 7

Qwen3.6-27B vs Coder-Next 모델 비교 결과

RTX PRO 6000 GPU 2대로 약 20시간 동안 Qwen3.6-27B와 Coder-Next 모델을 심층 비교한 결과, 두 모델은 전반적인 벤치마크에서 통계적으로 비등한 성능을 보였습니다. 흥미롭게도 Qwen3.6-27B는 '사고(Thinking)' 기능을 비활성화했을 때 오히려 결과물의 일관성이 95.8%로 가장 높게 나타났으며, Coder-Next는 제한된 비즈니스 문서 작성 등 특정 작업에서 60~100배 낮은 비용으로 완벽한 성공률을 기록해 각기 다른 강점을 입증했습니다.

오픈소스 모델 벤치마크 Qwen
MP
MarkTechPost 28일 전
IMP 8

미스트랄, 코딩 에이전트 '바이브' 원격 기능 및 128B 신모델 공개

미스트랄 AI가 오픈소스 기반 코딩 에이전트 플랫폼인 '바이브(Vibe)'에서 장시간 작업이 가능한 '원격 에이전트' 기능을 출시했습니다. 이와 함께 SWE-Bench 검증 스코어 77.6%를 달성한 128B 파라미터의 멀티모달 밀집 모델인 '미스트랄 미디엄 3.5(Mistral Medium 3.5)'를 공개하여 기본 모델로 적용했습니다. 이번 업데이트로 개발자는 더 이상 로컬 환경에 얽매이지 않고 클라우드에서 안정적으로 코딩 에이전트를 구동하고 병렬 작업을 수행할 수 있게 되었습니다.

미스트랄 AI 코딩 에이전트 오픈소스 모델
LL
r/LocalLLaMA 30일 전
IMP 7

로컬 LLM 게임개발 대결: Gemma 4vs Qwen 3.6

MacBook Pro 환경에서 오픈소스 로컬 LLM인 Gemma 4 31B와 Qwen 3.6 27B를 대상으로 원샷 팩맨 게임 생성 능력을 비교한 결과, Gemma 4가 압도적인 차이로 승리했습니다. Qwen이 더 긴 코드를 생성하며 창의성을 보여줬으나, Gemma는 훨씬 짧은 시간 안에 논리적이고 버그 없는 완성도 높은 게임 로직을 구현해냈습니다. 이는 AI 코딩에서 단순 토큰 생성 속도나 길이보다 코드 품질과 논리적 완성도가 더 중요하다는 것을 시사합니다.

로컬 LLM 게임 개발 코드 생성
LL
r/LocalLLaMA 30일 전
IMP 6

2026년 4월, 로컬 LLM 최고의 시기?

2026년 4월은 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM) 역사상 가장 혁신적인 달 중 하나로 기록될 전망입니다. 이에 따라 커뮤니티에서는 주목받지 못했지만 저평가된 우수한 모델들을 공유하고 평가하는 분위기가 조성되고 있습니다. 사용자들은 라이선스 변경(예: MiniMax-M2.7의 비상업적 전환) 등 변화하는 모델 생태계를 지속적으로 모니터링해야 합니다.

로컬 LLM 오픈소스 모델 라이선스 변경
HN
Hacker News 31일 전
IMP 8

IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성

IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.

오픈소스 모델 IBM 데이터 품질
LL
r/LocalLLaMA 32일 전
IMP 7

Qwen 3.6 27B 양자화별 평가: BF16 vs Q4_K_M

오픈소스 모델인 Qwen 3.6 27B의 세 가지 포맷(BF16, Q4_K_M, Q8_0)에 대한 벤치마크 결과가 공유되었습니다. 로컬 환경에서는 BF16과 비교해 성능은 근소하게 저하되면서도 메모리와 용량을 절반 이상 아낄 수 있는 'Q4_K_M' 포맷이 가장 효율적인 선택지로 평가되었습니다. 최고의 성능을 원한다면 여전히 BF16이 최고이며, 코드 생성 작업이 많지 않은 일반적인 로컬 배포에는 Q4_K_M을 추천하고 있습니다.

오픈소스 모델 양자화(Quantization) 벤치마크
HN
Hacker News 33일 전
IMP 9

마이크로소프트, 오픈소스 최고 수준 음성 AI '바이브보이스' 공개

마이크로소프트가 장문 음성 처리 및 구조화된 전사에 특화된 음성 인식(ASR) 및 합성(TTS) 오픈소스 모델 패밀리인 '바이브보이스(VibeVoice)'를 공개했습니다. 이 모델은 최대 60분의 오디오를 한 번에 처리하고 발화자 구분, 타임스탬프, 내용을 구조화하여 출력하는 것이 가장 큰 특징입니다. 50개 이상의 언어를 지원하며, 최근에는 허깅페이스(Hugging Face) 트랜스포머 라이브러리와 vLLM 추론 통합을 통해 실무 적용이 매우 용이해졌습니다.

음성 인식 텍스트 음성 변환 마이크로소프트
LL
r/LocalLLaMA 35일 전
IMP 7

Qwen3.6 35B 'Heretic' 모델, 압도적 성능 화제

오픈소스 AI 커뮤니티(레딧)에서 'Qwen3.6 35B A3B Heretic'라는 이름의 비공식 파인튜닝(미세조정) 모델이 공개되어 화제입니다. 특히 데이터셋 유사도를 나타내는 지표인 KLD(쿨백-라이블러 발산) 값이 0.0015로 극도로 낮아 원본 모델의 성능을 매우 충실히 보존하면서도 특정 분야에서 강력한 성능을 발휘하는 것으로 평가받고 있습니다. 공유된 코드를 보면 이 모델은 복잡한 채팅 템플릿과 이미지·비디오 처리, 함수 호출(Function Calling) 기능을 완벽하게 지원하도록 고도화된 것으로 확인됩니다.

오픈소스 모델 Qwen 미세조정(Fine-tuning)
MP
MarkTechPost 38일 전
IMP 8

알리바바, 에이전트 코딩 397B급 뛰어넘는 27B 모델 공개

알리바바 큐웨인(Qwen) 팀이 27B(270억 파라미터) 크기의 오픈 웨이트 밀집(Dense) 언어 모델인 Qwen3.6-27B를 새롭게 발표했습니다. 이 모델은 에이전트 기반 코딩(Agentic Coding) 벤치마크에서 3970억 파라미터 규모의 초대형 MoE 모델을 능가하는 압도적인 성능을 보여줍니다. 특히 기존의 자기 주의 메커니즘(Self-attention)과 선형 주의(Linear attention)를 결합한 하이브리드 아키텍처를 채택해 실무 개발 효율성을 크게 높일 수 있어 주목받습니다.

알리바바 오픈소스 모델 코딩 에이전트
LL
r/LocalLLaMA 38일 전
IMP 8

플래그십급 코딩 성능, 큐웬3.6-27B 공개!

알리바바 클라우드가 최신 오픈소스 밀집 모델인 '큐원 3.6-27B'를 공개했습니다. 이 모델은 27B 파라미터라는 비교적 가벼운 크기에도 불구하고, 주요 코딩 벤치마크에서 기존 대형 모델(Qwen3.5-397B-A17B)을 뛰어넘는 뛰어난 에이전트 코딩 성능을 자랑합니다. 텍스트 및 멀티모달 추론 능력, 개발자 선택권을 높이는 생각/비생각 모드 지원, 그리고 상업적 이용이 자유로운 Apache 2.0 라이선스가 적용되어 실무 개발자 및 오픈소스 커뮤니티에 매우 중요한 의미를 갖습니다.

큐원 오픈소스 모델 코딩 에이전트
LL
r/LocalLLaMA 39일 전
IMP 7

IBM 그라나이트 4.1 8B 모델 Hugging Face 공개

IBM이 오픈소스 AI 생태계인 Hugging Face에 '그라나이트 4.1(Granite 4.1) 8B' 모델의 설정 정보를 공개했습니다. 공개된 데이터에는 외부 도구(Tools) 호출 및 문서(Document) 기반 검색(RAG)을 지원하는 정교한 시스템 프롬프트와 Jinja 템플릿이 포함되어 있습니다. 이는 오픈소스 모델이 단순 텍스트 생성을 넘어 기업의 실무 시스템과 안전하게 연동하는 에이전트(Agent) 역할을 수행할 수 있음을 보여주는 중요한 의미를 갖습니다.

IBM 오픈소스 모델 에이전트
LL
r/LocalLLaMA 40일 전
IMP 4

M3 울트라 512GB 램 맥 스튜디오 2대 테스트

25,000달러(약 3,300만 원)에 달하는 512GB RAM 탑재 M3 Ultra 맥 스튜디오 2대를 활용해 대규모 로컬 AI 모델 구동 및 테스트를 진행 중입니다. 작성자는 DeepSeek V3 및 GLM 5.1 모델을 Exo 백엔드 환경에서 실행하며, 앞으로 커뮤니티의 MLX 최적화가 이루어질 Kimi 모델도 대기하고 있습니다. 이는 애플 실리콘의 압도적인 메모리 용량을 활용해 거대 AI 모델을 로컬에서 구동하려는 실무자들의 최신 트렌드를 잘 보여줍니다.

맥 스튜디오 로컬 AI 오픈소스 모델
MP
MarkTechPost 42일 전
IMP 9

NVIDIA, 하이브리드 양자-클래식 시스템용 최초의 오픈소스 양자 AI 모델 'Ising' 공개

NVIDIA가 연구진과 기업이 실질적인 애플리케이션을 구동할 수 있는 양자 프로세서를 구축하도록 돕기 위해 세계 최초의 오픈소스 양자 AI 모델 패밀리인 'NVIDIA Ising'을 출시했습니다. 이 모델은 AI를 활용해 양자 컴퓨팅의 핵심 병목 현상인 하드웨어 교정과 실시간 오류 정정을 자동화하여, 기존 대비 처리 속도는 최대 2.5배, 정확도는 3배 향상시켰습니다. 이미 아이비리그, 국책 연구소, 연세대학교 등을 포함한 수많은 글로벌 기관이 이 기술을 실제 도입하며 양자 컴퓨팅의 실용화를 크게 앞당기고 있습니다.

양자 컴퓨팅 NVIDIA 오픈소스 모델
TD
The Decoder 43일 전
IMP 8

오픈소스 소형 모델이 깎아낸 앤스로픽 '클로드 미토스' 신화

앤스로픽의 최고 수준 사이버 보안 AI 모델인 '클로드 미토스(Claude Mythos)'가 독보적이라는 주장이 무너지고 있습니다. 두 곳의 독립적인 연구에 따르면, 상용화된 소규모 오픈 모델들도 미토스가 탐지해 낸 보안 취약점 대부분을 동일하게 발견하고 재현해냈습니다. 이는 보안 분야에서 특정 폐쇄형 대형 모델만이 가진 우위가 줄어들고 있으며, 작은 모델들도 충분히 경쟁력을 갖췄음을 시사합니다.

AI 보안 오픈소스 모델 앤스로픽
TD
The Decoder 43일 전
IMP 8

알리바바 Qwen3.6, 구글 Gemma 4 능가

알리바바가 350억 파라미터의 새로운 오픈소스 AI 모델 'Qwen3.6-35B-A3B'를 공개했습니다. 이 모델은 Mixture-of-Experts 기술을 적용해 연산 비용을 줄이면서도 코딩 및 추론 벤치마크에서 구글의 Gemma 4를 압도했으며, 클로드 소네 4.5와도 대등한 성능을 발휘합니다. 사용자는 Qwen Studio, API, 또는 허깅페이스를 통해 즉시 이 모델을 활용할 수 있습니다.

알리바바 Qwen3.6 오픈소스 모델