#오픈소스 모델

AI 에이전트가 해킹하고 AI로 막은 휴깅페이스 사태

글로벌 AI 플랫폼인 휴깅페이스(Hugging Face)의 인프라가 자율형 AI 에이전트 시스템에 의해 완전히 해킹당하는 사건이 발생했습니다. 이에 휴깅페이스는 자체 AI 분석 도구를 투입하여 수일이 걸릴 포렌식 조사를 단 몇 시간 만에 완료하며 피해를 최소화했습니다. 이 사건은 자율형 AI 공격이 실제로 발생했음을 보여주며, 방어자들도 공격자와 동등한 수준의 AI 도구를 확보해야 한다는 중요한 시사점을 던집니다.

허깅페이스 에이전트 해킹 AI 보안

The Decoder • 13일 전

전 오픈AI CTO 미라 무라티, 975B '잉클링' 모델 공개

전 오픈AI CTO 미라 무라티가 설립한 Thinking Machines Lab이 텍스트, 이미지, 오디오를 처리하는 975B 규모의 멀티모달 오픈 웨이트 모델 '잉클링(Inkling)'을 공개했습니다. 이 모델은 미국 내 오픈소스 모델 중 최고 성능을 자랑하지만, 63%에 달하는 높은 환각 현상과 비교적 높은 비용으로 인해 정확성이 필수적인 실무 적용에는 한계가 있습니다.

오픈소스 모델 멀티모달 미라 무라티

The Decoder • 26일 전

금융 AI 미세조정(Fine-tuning) 오픈소스 모델

정답이 공개되지 않아 GPT와 클로드가 브리지워터 금융 테스트에서 탈락하다

헤지펀드 브리지워터와 미라 무라티의 씽킹 머신스 랩은 자체 전문가 데이터로 오픈소스 모델(Qwen3-235B)을 미세조정(Fine-tuning)하여 일반 상용 AI 모델(GPT, 클로드 등)을 뛰어넘는 성능을 달성했습니다. 기업이 민감한 내부 데이터를 빅테크에 넘기지 않고도 자체적으로 비용 효율적이고 강력한 맞춤형 AI를 구축할 수 있음을 보여주는 중요한 사례입니다.

Hacker News • 27일 전

깃허브 코파일럿 Kimi K2.7 오픈소스 모델

깃허브 코파일럿, 오픈 가중치 모델 'Kimi K2.7' 도입

깃허브(GitHub)가 코파일럿(Copilot)에 오픈 가중치(open-weight) AI 모델인 'Kimi K2.7 Code'를 정식으로 추가했습니다. 코파일럿 모델 선택기에서 선택할 수 있는 첫 오픈 가중치 모델로, 저비용의 코딩 환경을 원하는 개발자들에게 훌륭한 대안이 될 것으로 보입니다. 현재 개인 요금제 사용자에게 순차적으로 적용되고 있으며, 향후 기업 요금제로도 확대될 예정입니다.

Google AI Blog • 27일 전

2026년 6월 구글 최신 AI 업데이트 총정리

2026년 6월, 구글은 로컬 환경에서 구동되는 오픈 모델 Gemma 4 12B와 새로운 안드로이드 17, 그리고 PC 및 모바일에서 작동하는 Gemini 3.5 Flash 등 다양한 AI 업데이트를 발표했습니다. 특히 개발자와 일반 사용자를 위한 멀티태스킹, 자동화, 그리고 향상된 보안 기능들이 대거 추가되었습니다. 이번 업데이트는 일상과 업무 환경 전반에 걸쳐 AI가 직관적인 파트너로 자연스럽게 통합되는 것을 목표로 합니다.

구글 AI 안드로이드 17 젬미니 3.5

Hacker News • 33일 전

현재 LLM 비용이 지속 불가능한 이유

기업들의 천문학적인 AI 비용 부담이 가중되고 있으나, 모델 성능의 한계 도달, 오픈소스 모델의 약진, 전용 칩셋 발전, 그리고 교체 비용 제로(0)라는 시장 특성으로 인해 AI 모델의 고비용 구조는 곧 붕괴할 수밖에 없습니다. 이는 실무자와 기업들이 비용 효율적인 대체 모델으로 빠르게 전환할 수 있는 근거가 되며, 향후 AI 인프라 도입 전략 수립에 매우 중요한 시사점을 던집니다.

LLM 비용 오픈소스 모델 AI 인프라

Hacker News • 36일 전

GLM-5.2, 오픈 에이전트의 혁신적 도약

Z.ai가 공개한 GLM-5.2 모델은 기존 폐쇄형 모델들이 독점하던 코딩 에이전트 성능을 넘어선 혁신적인 도약을 보여줍니다. 특히 OpenAI 및 Anthropic의 최신 모델들과 대등한 성능을 내면서도 오픈소스 가중치를 제공하여, AI 생태계 전반에 큰 반향을 일으키고 있습니다.

GLM-5.2 오픈소스 모델 코딩 에이전트

Hacker News • 46일 전

macOS에서 로컬 코딩 에이전트 구축하기

인터넷 연결 문제에 대비하고자 macOS 환경에서 완전히 로컬로 구동되는 코딩 에이전트 환경을 구축한 후기를 공유합니다. Apple Silicon(M1 Max) 환경에서 llama.cpp와 Gemma 4 모델, 그리고 다중 토큰 예측(MTP) 기술을 활용해 실사용 가능한 수준의 높은 추론 속도를 달성했습니다. 특히 Apple 전용 프레임워크인 MLX보다 llama.cpp와 MTP 조합이 더 빠른 속도를 보여준다는 흥미로운 벤치마크 결과를 포함하고 있습니다.

로컬 AI 코딩 에이전트 Gemma 4

MarkTechPost • 48일 전

코히어, 3B 파라미터 에이전트 코딩 모델 'North Mini Code' 공개

코히어(Cohere)가 개발자를 위한 첫 코딩 전용 모델인 'North Mini Code'를 공개했습니다. 이 모델은 300억(30B) 개의 매개변수를 가진 Mixture-of-Experts(MoE) 아키텍처 기반이며, 실제 추론 시에는 30억(3B) 개의 파라미터만 활성화되어 단일 엔비디아 H100 GPU에서도 매우 효율적으로 실행됩니다. 최대 25만 6천(256K) 토큰의 긴 컨텍스트를 지원하여 복잡한 에이전트 기반 코딩 작업에 적합하다는 점이 가장 큰 특징입니다.

코히어 오픈소스 모델 에이전트 코딩

The Decoder • 48일 전

구글 디퓨전제마, 단어별 생성 대신 노이즈 기반 텍스트 생성

구글이 기존의 단어 단연 순차 생성 방식이 아닌, 이미지 AI에서 쓰이는 디퓨전 방식을 적용해 한 번에 256개의 토큰 블록을 생성하는 실험적 언어 모델 '디퓨전제마(DiffusionGemma)'를 공개했습니다. 이 모델은 GPU의 연산 능력을 극대화하여 단일 사용자 환경에서 기존 모델 대비 최대 4배 빠른 처리 속도를 보여줍니다. 비록 텍스트 품질은 기존 모델에 미치지 못하지만, 기존 텍스트 중간 삽입이나 코드 빈칸 채우기 등 비선형 작업에 탁월한 성능을 발휘하며 새로운 활용 가능성을 제시합니다.

구글 디퓨전제마 오픈소스 모델

The Decoder • 51일 전

美 기업 저렴한 AI 찾으면서 딥시크, 램프 소프트웨어 1위

비용 절감을 추구하는 미국 기업들의 수요에 힘입어 중국의 AI 모델 '딥시크(Deepseek)'가 2026년 6월 기업용 소프트웨어 트렌드 1위로 올랐습니다. 최고의 성능을 자랑하는 서방권 모델들에는 미치지 못하지만 압도적인 가성비를 바탕으로 시장 점유율을 빠르게 넓히며 '토큰 경제(Token Economy)'의 본격적인 도래를 보여주고 있습니다.

딥시크 비용 효율성 AI 시장 점유율

The Decoder • 53일 전

0.4초마다 침묵과 발언을 결정하는 오픈소스 음성 AI

중국, 홍콩, 싱가포르 연구진이 대화, 번역, 전사, 일상 소리 인식을 하나로 통합한 새로운 오픈소스 음성 AI 모델을 발표했습니다. 이 모델은 오디오 스트림을 0.4초 단위로 나누어 실시간으로 청취와 발화를 병렬 처리하며, 반응 대기 시간을 최소화합니다. 결과적으로 최신 상용 모델들을 능가하는 주변 소리 탐지 및 처리 능력을 보여줍니다.

음성 AI 실시간 스트리밍 오픈소스 모델

Hacker News • 54일 전

노트북으로 즐기는 오픈소스 실시간 AI 음악 모델

구글의 Magenta 팀이 실시간으로 반응하는 오픈소스 AI 음악 모델인 Magenta RealTime 2(MRT2)를 공개했습니다. 이전 버전과 달리 고성능 TPU/GPU 없이도 Apple Silicon 기반 맥북에서 매우 낮은 지연 시간(200ms)으로 작동하며, MIDI, 텍스트, 오디오를 통한 정밀한 제어가 가능합니다. 또한 C++ 기반의 고속 추론 엔진과 Python 라이브러리를 함께 제공하여 누구나 자신만의 AI 악기를 구축하고 DAW에 통합할 수 있습니다.

AI 음악 생성 실시간 추론 오픈소스 모델

The Decoder • 55일 전

구글 제미나 4 12B, 16GB 램으로 노트북에서 구동

구글 딥마인드가 일반 노트북 환경에서도 원활하게 작동하는 멀티모달 오픈소스 AI 모델인 Gemma 4 12B를 공개했습니다. 이 모델은 텍스트, 이미지, 오디오를 별도의 인코더 없이 네이티브로 처리하며, 16GB RAM 환경에서도 26B(파라미터)급 모델과 맞먹는 성능을 발휘합니다. 음성 인식 및 코드 생성은 물론 수 분 길이의 비디오 분석까지 가능하여 로컬 환경에서의 AI 활용 가능성을 크게 확장했다는 점에서 실무자들에게 중요한 의미를 갖습니다.

구글 딥마인드 멀티모달 AI 오픈소스 모델

MarkTechPost • 55일 전

구글, 16GB 노트북 구동 가능한 오디오 내장형 멀티모달 모델 공개

구글 딥마인드가 인코더 없이도 기본 오디오(Audio) 처리가 가능한 새로운 멀티모달 AI 모델인 Gemma 4 12B를 공개했습니다. 이 모델은 16GB RAM을 탑재한 일반적인 노트북 환경에서도 원활하게 구동되는 가벼운 크기를 자랑합니다. 이는 개발자와 일반 사용자들이 로컬 환경에서 고성능 멀티모달 AI를 더욱 쉽게 활용할 수 있게 되었음을 의미합니다.

구글 딥마인드 Gemma 4 멀티모달 AI

Hacker News • 61일 전

오픈소스 모델 LLM 시장 트렌드 비용 최적화

정체불명 Hy3, LLM 랭킹 1위 점령한 이유

대중에게 생소한 중국 텐센트의 오픈소스 모델 'Hy3 preview'가 최근 OpenRouter 모델 사용량 랭킹에서 최고의 인기를 누리던 Claude와 DeepSeek를 큰 폭으로 제치며 부상했습니다. 성능 벤치마크나 사용자 평가는 상위 모델들에 미치지 못하는 수준이지만, 입력 토큰당 약 $0.066라는 극도로 저렴한 가격 책정 덕분에 비용에 민감한 유료 사용자들을 대량으로 끌어들이며 유기적인 사용량 1위를 기록하고 있습니다. 이 현상은 최근 AI 코딩 에이전트 등의 비용이 급증함에 따라, 최고 수준의 성능보다 '가성비'를 선택하는 시장의 실용적인 트렌드를 보여준다는 점에서 중요합니다.

MarkTechPost • 63일 전

재순위 모델 (Reranker) 검색 증강 생성 (RAG) 정보 검색 (IR)

고정밀 검색-재순위 파이프라인 구축하기

이 튜토리얼은 40억(4B) 파라미터 규모의 Qwen3 기반 크로스 인코더 재순위 모델(reranker)인 'zeroentropy/zerank-2-reranker'를 활용해 검색 품질을 극대화하는 방법을 다룹니다. 빠른 바이 인코더(bi-encoder)로 먼저 후보 문서를 검색하고, 제로랭크-2 모델이 이를 정밀하게 재정렬하는 2단계 검색 파이프라인을 구축하는 실무 과정을 설명합니다. 정보 검색 및 RAG(검색 증강 생성) 시스템의 정확도를 높이고자 하는 AI 실무자들에게 필수적인 최적화 가이드를 제공합니다.

Hacker News • 64일 전

외주 개발자와 로컬 AI가 프론티어 모델보다 저렴해지는 시점

최근 오픈AI, 구글, 앤스로픽 등 미국의 주요 AI 기업들이 폭발적인 토큰 소비 증가에 힘입어 API 가격을 대폭 인상하고 있습니다. 이에 따라 저비용 국가의 인간 엔지니어를 고용하고 DeepSeek과 같은 오픈소스 로컬 AI를 결합하는 방식이 프론티어 폐쇄형 모델을 사용하는 것보다 경제성이 높아질 것이라는 분석이 제기되었습니다. 이러한 구도는 결과적으로 최신 고성능 모델들의 가격 상한선을 설정하는 핵심적인 역할을 하게 될 것입니다.

가격 정책 오픈소스 모델 API 비용

r/LocalLLaMA • 64일 전

IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화

r/LocalLLaMA • 65일 전

Qwen 오픈소스 모델 대규모 언어 모델(LLM)

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스

r/LocalLLaMA • 69일 전

IMP 3

커뮤니티가 Qwen 3.7 모델 발표를 학수고대하는 현실

오픈소스 AI 커뮤니티 사용자가 중국의 Qwen(치안)이 발표할 3.7 버전 모델을 기다리며 게시한 유머러스한 게시글입니다. 해당 유저는 27B(27B) 및 122B(122B) 파라미터 모델의 공개를 간절히 희망하고 있습니다. 이는 화제의 Qwen 새 모델에 대한 글로벌 개발자들의 높은 기대감과 관심을 잘 보여줍니다.

r/LocalLLaMA • 69일 전

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

로컬 LLM 양자화(GGUF) 벤치마크

r/LocalLLaMA • 74일 전

네트워크 없이 구동되는 오프라인 로봇, 젯슨 오린과 젬마 3 탑재

Reddit 사용자가 Wi-Fi나 셀룰러 연결 없이 엔비디아 젯슨 오린 NX와 소형 언어 모델인 Gemma 3 4B만으로 완전한 오프라인 로봇을 제작했습니다. 프롬프트 구조 최적화를 통해 캐시 적용 시 첫 토큰 생성 시간(TTFT)을 약 200ms로 단축하고 30개 이상의 센서 데이터를 실시간으로 자연어로 처리하는 점이 기술적으로 주목받습니다.

오픈소스 모델 온디바이스 AI 로봇 공학

r/LocalLLaMA • 78일 전

IMP 5

DGX 수랭식 냉각 성공 사례 공유

엔비디아 고성능 서버인 DGX를 가동할 때 수도물을 이용한 수랭식 냉각 방식으로 고부하 상태의 발열 문제를 성공적으로 제어한 사례입니다. 대규모 언어 모델 구동 중 95%의 높은 GPU 사용률에도 온도를 68도 이하로 안정적으로 유지했습니다. 고성능 AI 하드웨어의 발열 관리에 직면한 실무자들에게 매우 유용하고 직관적인 해결책을 제공합니다.

하드웨어 GPU 냉각 DGX

Hacker News • 79일 전

M4(24GB)에서 구동되는 로컬 AI 모델 최적화기

이 글은 24GB 메모리를 탑재한 M4 맥북 프로에서 인터넷 없이 로컬 AI 모델을 구동하고 코딩 등의 작업에 활용하는 방법을 다루고 있습니다. 실험 끝에 Qwen 3.5-9B 모델을 발견했으며, SOTA(최고 수준) 모델에는 미치지 못하지만 기본적인 연구, 계획, 그리고 도구 활용이 가능해 유용합니다. 또한 Ollama, LM Studio 등의 환경 설정과 Pi, OpenCode 등 터미널 클라이언트의 구성 방법 및 추천 파라미터까지 상세히 공유하고 있습니다.

로컬 AI 오픈소스 모델 M4 맥북

Hacker News • 83일 전

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

오픈소스 모델 MoE 아키텍처 AMD 인프라

r/LocalLLaMA • 83일 전

ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델

Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.

오픈소스 모델 AMD 인프라 MoE 아키텍처

r/LocalLLaMA • 84일 전

밀집 모델 대결: 느린 게 더 빠르다?

이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.

오픈소스 모델 벤치마크 로컬 LLM

Hacker News • 86일 전