#로컬_AI

외주 개발자와 로컬 AI가 프론티어 모델보다 저렴해지는 시점

최근 오픈AI, 구글, 앤스로픽 등 미국의 주요 AI 기업들이 폭발적인 토큰 소비 증가에 힘입어 API 가격을 대폭 인상하고 있습니다. 이에 따라 저비용 국가의 인간 엔지니어를 고용하고 DeepSeek과 같은 오픈소스 로컬 AI를 결합하는 방식이 프론티어 폐쇄형 모델을 사용하는 것보다 경제성이 높아질 것이라는 분석이 제기되었습니다. 이러한 구도는 결과적으로 최신 고성능 모델들의 가격 상한선을 설정하는 핵심적인 역할을 하게 될 것입니다.

가격 정책 오픈소스 모델 API 비용

r/LocalLLaMA • 5일 전

IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화

r/LocalLLaMA • 5일 전

변호사의 로컬 AI 법률 문서 작성기: V100 클러스터 구축기

한 변호사가 V100 12개와 RTX 3090 등 총 16개의 GPU를 활용해 법률 문서 초안을 자동 작성하는 로컬 AI 시스템을 완성했습니다. 실험 결과 V100 환경에서는 일반적인 Dense 모델보다 MoE(Mixture of Experts) 모델이 압도적인 처리 속도를 보여주어 시스템 전체를 MoE 중심으로 재구성했습니다. 여러 로컬 모델이 각자의 역할을 나누어 수행하는 오케스트레이터 구조를 통해 고수준의 법률 문서를 빠르고 정확하게 생성해 내는 것이 이 프로젝트의 핵심입니다.

로컬 AI 법률 AI 자동화 오픈소스 LLM

r/LocalLLaMA • 6일 전

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스

r/LocalLLaMA • 8일 전

로컬-ai llama-cpp amd-radeon

민감: 듀얼 GPU로 48GB VRAM 확보 성공!

서로 다른 세대(RDNA4, RDNA3)의 AMD 그래픽 카드 두 장을 결합해 총 48GB VRAM 환경을 구축한 사례입니다. 호환성 문제로 인해 로존(ROCm) 대신 벌칸(Vulkan) 백엔드를 사용하여 성공적으로 llama-cpp 서버를 실행했습니다. 이는 추가 그래픽 카드와 파워서플라이 정도의 적은 비용으로 대규모 로컬 AI 모델 구동을 위한 막대한 VRAM을 확보할 수 있음을 보여줍니다.

r/LocalLLaMA • 13일 전

4B 소형 모델로 벤치마크 87% 달성한 코딩 에이전트 제작기

GPT나 Claude 같은 대형 모델이 아닌, 로컬에서 구동되는 4B(40억) 파라미터 소형 모델에 최적화된 새로운 코딩 에이전트 'SmallCode'가 등장했습니다. 반복적인 코드 개선 루프, 복합 도구(Compound tools) 사용, 토큰 예산 관리 등의 소프트웨어적 기법을 활용해 모델 크기의 한계를 극복하고 높은 작업 성공률을 달성한 것이 핵심입니다. 실무 개발자들은 오프라인 환경이나 보안이 중요한 환경에서 가벼운 오픈소스 도구를 통해 효율적으로 AI 코딩 보조를 받을 수 있다는 점에 주목할 만합니다.

로컬 AI 코딩 에이전트 오픈소스

r/LocalLLaMA • 13일 전

M5 vs DGX Spark vs 스트릭스 할로 vs RTX 6000 벤치마크

새로운 애플 M5 맥북 프로, 엔비디아 DGX Spark, AMD 스트릭스 할로(Strix Halo), RTX 6000 등 다양한 하드웨어를 대상으로 로컬 AI 성능 및 발열 비교 테스트 결과가 공유되었습니다. M5는 동급 대비 압도적인 메모리 대역폭을 바탕으로 DGX Spark를 가성비 측면에서 완전히 압도했으며, 맥북은 예상과 달리 장시간 고부하 테스트에서도 80도대의 준수한 발열을 유지했습니다. 단, AI 연산 시 팬 소음은 일반적인 게이밍 노트북처럼 커진다는 점과 각 하드웨어의 원시 성능 데이터가 공개되었다는 점이 실무자들에게 유용한 인사이트를 제공합니다.

하드웨어 벤치마크 애플 실리콘 로컬 AI

r/LocalLLaMA • 14일 전

코세어 AI 워크스테이션 300: 128GB 통합 메모리 탑재

코세어가 128GB 통합 메모리를 장착한 AI 전용 데스크톱 PC를 약 277만 원에 출시했습니다. 최상위 AMD 라이젠 AI MAX+ 395 칩셋을 탑재하여 대규모 언어 모델(LLM) 구동을 위한 96GB VRAM을 지원하며, 이는 로컬 AI 환경에서 메모리 병목 현상을 해결하는 중요한 옵션입니다.

코세어 AMD 라이젠 AI 워크스테이션

r/LocalLLaMA • 17일 전

Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상

LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.

로컬-AI LLaMA.cpp 양자화

r/LocalLLaMA • 18일 전

순정 게임보이 컬러에서 트랜스포머 AI 로컬 실행 성공

스마트폰, PC, Wi-Fi, 클라우드 연결 없이 순정 게임보이 컬러(GBC) 기기 내에서만 트랜스포머 언어 모델을 실행하는 데 성공한 프로젝트입니다. 부동소수점 연산 대신 고정소수점(INT8) 방식으로 변환된 가중치를 활용하며, KV 캐시는 카트리지 SRAM에 저장하여 작은 RAM 용량을 극복했습니다. 속도가 극도로 느리고 수학적 양자화로 인해 출력은 알아보기 힘들지만, 외부 서버 없이 엣지 디바이스에서 AI 모델을 순수 구동해냈다는 점에서 기술적 의의가 큽니다.

엣지 AI 게임보이 로컬 AI

Hacker News • 20일 전

M4(24GB)에서 구동되는 로컬 AI 모델 최적화기

이 글은 24GB 메모리를 탑재한 M4 맥북 프로에서 인터넷 없이 로컬 AI 모델을 구동하고 코딩 등의 작업에 활용하는 방법을 다루고 있습니다. 실험 끝에 Qwen 3.5-9B 모델을 발견했으며, SOTA(최고 수준) 모델에는 미치지 못하지만 기본적인 연구, 계획, 그리고 도구 활용이 가능해 유용합니다. 또한 Ollama, LM Studio 등의 환경 설정과 Pi, OpenCode 등 터미널 클라이언트의 구성 방법 및 추천 파라미터까지 상세히 공유하고 있습니다.

로컬 AI 오픈소스 모델 M4 맥북

Hacker News • 20일 전

온디바이스 로컬 AI가 표준이 되어야 하는 이유

최근 소프트웨어 개발에서 단순히 클라우드 기반 AI API를 호출하는 방식은 앱의 안정성을 떨어뜨리고 개인정보 침해 우려를 키웁니다. 이에 개발자는 성능이 충분한 로컬 기기의 내장 AI 모델을 활용해 온디바이스에서 직접 기능을 수행해야 한다고 강조합니다. Apple 생태계를 예시로 든 이 글은, 구현 가능한 경우 로컬 AI를 우선 채택하는 것이 개발자와 사용자 모두에게 현명한 접근임을 시사합니다.

온디바이스 AI 로컬 AI 개인정보 보호

r/LocalLLaMA • 23일 전

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

로컬 AI 추론 최적화 llama.cpp

TechCrunch AI • 23일 전

퍼플렉시티 '퍼스널 컴퓨터', 모든 맥 사용자에게 공개

퍼플렉시티(Perplexity)가 자사의 로컬 AI 에이전트 기능인 '퍼스널 컴퓨터(Personal Computer)'를 모든 Mac 사용자에게 정식 출시했습니다. 이 기능은 클라우드 환경을 넘어 사용자의 기기에 있는 파일과 앱, 웹에 직접 접근하여 복잡한 업무 워크플로우를 자율적으로 수행하는 것이 특징입니다. 기존 오픈클로우(OpenClaw) 등 타 에이전트의 보안 우려를 보완하여 더 안전한 개인 맞춤형 작업 환경을 제공하는 것이 핵심입니다.

AI 에이전트 퍼플렉시티 로컬 AI

Hacker News • 25일 전

크로스 플랫폼 임베디드 C 언어 AI 에이전트 라이브러리 Adam

해커뉴스에 'Adam'이라는 C 언어 기반의 임베디드 AI 에이전트 라이브러리가 소개되었습니다. 이 라이브러리는 하나의 헤더 파일 포함(#include)만으로 도구 호출, 메모리, 세션, 음성 처리 등 완전한 에이전트 루프를 제공하는 것이 특징입니다. 클라우드 API는 물론 로컬 모델까지 동일한 인터페이스로 지원하며, 모바일과 웹(WASM)을 포함한 다양한 운영체제에서 완벽하게 컴파일되어 활용도가 높습니다.

오픈소스 AI 에이전트 C언어

r/LocalLLaMA • 27일 전

AMD 차기 스트릭스 할로 리프레시, 192GB 탑재

AMD의 차기 APU로 예상되는 '고르곤 할로(Gorgon Halo) 495 Max'에 128GB를 뛰어넘는 최대 192GB의 메모리가 탑재될 것이라는 루머가 공유되었습니다. 이는 AI 실무자들에게 단일 장치에서 122B 파라미터 모델을 고정밀(q8)로 구동할 수 있게 해주며, 거대한 MoE(Mixture of Experts) 모델 실행 가능성을 열어준다는 점에서 매우 중요한 소식입니다.

하드웨어_가속기 AMD_APU 로컬_AI

r/LocalLLaMA • 28일 전

Qwen3.6-27B vs Coder-Next 모델 비교 결과

RTX PRO 6000 GPU 2대로 약 20시간 동안 Qwen3.6-27B와 Coder-Next 모델을 심층 비교한 결과, 두 모델은 전반적인 벤치마크에서 통계적으로 비등한 성능을 보였습니다. 흥미롭게도 Qwen3.6-27B는 '사고(Thinking)' 기능을 비활성화했을 때 오히려 결과물의 일관성이 95.8%로 가장 높게 나타났으며, Coder-Next는 제한된 비즈니스 문서 작성 등 특정 작업에서 60~100배 낮은 비용으로 완벽한 성공률을 기록해 각기 다른 강점을 입증했습니다.

오픈소스 모델 벤치마크 Qwen

Hacker News • 29일 전

로컬 100% 실행, 프라이버시 강화 AI 데이터 분석가 'MLJAR Studio'

클라우드 전송 없이 사용자의 PC 환경에서 완벽하게 구동되는 100% 로컬 기반의 AI 데이터 분석 및 머신러닝 도구입니다. 자연어로 데이터에 질문하면 AI가 파이썬 코드를 생성 및 실행하고, 자동으로 최적의 머신러닝 모델을 탐색하며 그 결과를 노트북으로 저장합니다. 민감한 데이터를 다루는 데이터 분석가와 연구자들이 데이터 유출 걱정 없이 안전하게 AI 기능을 활용할 수 있다는 점이 가장 큰 특징입니다.

데이터 분석 로컬 AI 머신러닝

r/LocalLLaMA • 33일 전

오픈소스 모델 양자화(Quantization) 벤치마크

Qwen 3.6 27B 양자화별 평가: BF16 vs Q4_K_M

오픈소스 모델인 Qwen 3.6 27B의 세 가지 포맷(BF16, Q4_K_M, Q8_0)에 대한 벤치마크 결과가 공유되었습니다. 로컬 환경에서는 BF16과 비교해 성능은 근소하게 저하되면서도 메모리와 용량을 절반 이상 아낄 수 있는 'Q4_K_M' 포맷이 가장 효율적인 선택지로 평가되었습니다. 최고의 성능을 원한다면 여전히 BF16이 최고이며, 코드 생성 작업이 많지 않은 일반적인 로컬 배포에는 Q4_K_M을 추천하고 있습니다.

r/LocalLLaMA • 33일 전

로컬 AI 오픈소스 LLM 엔비디아 Nemotron

2026년형 4B 파라미터 모델 벤치마크

한 Reddit 사용자가 최근 출시된 3~4B(십억 개 파라미터) 크기의 소형 오픈소스 AI 모델 5종을 대상으로 종합적인 능력을 테스트했습니다. 그 결과 엔비디아(NVIDIA)의 'Nemotron-3-Nano'가 막강한 추론 및 금융 계산 능력을 바탕으로 압도적인 1위를 차지했으며, 알리바바의 'Qwen 3.5'는 토큰 버짝 문제로 인해 최하위권을 기록했습니다. 이번 벤치마크는 각 개발사(IBM, MS, NVIDIA 등)의 모델들이 '범용'으로 마케팅되고 있음에도 불구하고, 실제로는 코딩이나 추론 등 특정 분야에 강하게 특화되어 있다는 사실을 보여줍니다.

r/LocalLLaMA • 37일 전

Gemma 4·Qwen 3.6 KV캐시 양자화 성능 비교

Gemma 4와 Qwen 3.6 모델의 메모리 절약 기법인 KV 캐시 양자화(q8_0, q4_0) 결과를 비교한 벤치마크입니다. Gemma 모델은 흔히 '무손실'로 알려진 q8_0 양자화에서도 품질 저하가 크게 발생하며, 특히 MoE 모델에서 민감도가 극심합니다. 반면 Qwen 모델은 q8_0은 물론 q4_0 수준에서도 뛰어난 안정성을 보여주어, 로컬 환경 등에서 메모리 최적화를 고려할 때 모델 선택의 중요한 기준이 됩니다.

로컬 AI 성능 벤치마크 양자화

r/LocalLLaMA • 40일 전

오픈 웹UI 데스크톱 버전 공개!

오픈 소스 AI 플랫폼인 Open WebUI가 복잡한 Docker나 터미널 설정 없이 클릭 한 번으로 설치 가능한 네이티브 데스크톱 앱을 출시했습니다. 사용자는 자신의 하드웨어에 AI 모델을 다운로드하여 오프라인으로 실행하거나 외부 서버에 연결할 수 있어 개인정보 보호와 접근성이 크게 향상되었습니다. 특히 어디서든 단축키로 실행할 수 있는 플로팅 채팅창과 시스템 전역 음성 입력 기능을 지원하여 일상적인 업무 흐름에 AI를 매우 유용하게 통합할 수 있습니다.

오픈소스 로컬 AI 데스크톱 앱

r/LocalLLaMA • 40일 전

IMP 4

M3 울트라 512GB 램 맥 스튜디오 2대 테스트

25,000달러(약 3,300만 원)에 달하는 512GB RAM 탑재 M3 Ultra 맥 스튜디오 2대를 활용해 대규모 로컬 AI 모델 구동 및 테스트를 진행 중입니다. 작성자는 DeepSeek V3 및 GLM 5.1 모델을 Exo 백엔드 환경에서 실행하며, 앞으로 커뮤니티의 MLX 최적화가 이루어질 Kimi 모델도 대기하고 있습니다. 이는 애플 실리콘의 압도적인 메모리 용량을 활용해 거대 AI 모델을 로컬에서 구동하려는 실무자들의 최신 트렌드를 잘 보여줍니다.

맥 스튜디오 로컬 AI 오픈소스 모델

r/LocalLLaMA • 45일 전

1비트 양자화 17억 파라미터 모델, 웹 브라우저에서 구동

290MB 크기의 초경량 1.7B(17억 파라미터) AI 모델이 WebGPU 기술을 통해 별도의 설치 없이 웹 브라우저 내에서 로컬로 실행됩니다. 사용자는 데모 링크를 통해 접속만으로도 개인 PC의 GPU 자원을 활용해 빠르게 AI를 체험할 수 있습니다. 이는 최신 웹 표준과 경량화 기술(1-bit 양자화)을 결합하여 클라이언트 사이드 AI의 접근성을 극대화했다는 점에서 의미가 있습니다.

WebGPU 로컬 AI 브라우저 AI

r/LocalLLaMA • 47일 전

샤오미 12 Pro를 24시간 AI 서버로 변신

샤오미 12 Pro 스마트폰을 안드로이드 UI를 제거한 헤드리스Headless 환경으로 세팅하여 24시간 구동되는 로컬 AI 서버로 개조한 사례입니다. 배터리 보호 및 발열 제어 자동화를 거친 후, Ollama를 통해 Gemma4 모델을 LAN 내에서 API 형태로 서빙하는 방식입니다. 이는 고성능 모바일 기기를 활용해 별도의 서버 장비 없이도 저전력 로컬 LLM 환경을 구축할 수 있다는 것을 보여줍니다.

로컬 AI 오픈소스 LLM 모바일 서버

Hacker News • 48일 전

Codex CLI에서 로컬 Gemma 4 모델 구동기

기존 클라우드 모델(GPT-5.4)을 대체할 수 있는 로컬 모델로서 Gemma 4의 실용성을 실험한 후기입니다. 비용, 프라이버시, API 의존도 문제를 해결하기 위해 26B MoE 및 31B Dense 모델을 각각 Mac과 GB10 워크스테이션에 세팅하여 테스트했습니다. 초기 환경 구축의 어려움(버그 및 호환성 문제)에도 불구하고, Gemma 4는 우수한 도구 호출(Tool calling) 성능을 입증하며 에이전트 기반 코딩 환경에서 로컬 모델의 가능성을 확인시켜 주었습니다.

오픈소스 모델 로컬 AI 코드 생성

r/ChatGPT • 51일 전

애플 클라우드 총괄 "오픈소스 모델이 전체 사용 사례의 90% 해결할 것"

애플의 클라우드 부문 총괄이 오픈소스 AI 모델이 대부분의 사용 사례를 충족할 것이라고 밝혔습니다. 이는 오픈소스 생태계의 성장과 함께 기업의 AI 도입 방식에 큰 전환점을 시사합니다. 누리꾼은 256GB RAM 환경의 Mac에서 오픈소스 모델을 구동하며 그 실용성을 체감하고 있다고 전했습니다.

애플 오픈소스 클라우드

Hacker News • 51일 전

오픈소스 로컬-ai javascript-sdk

로컬 AI 앱 개발용 오픈소스 JS SDK 공개

데스크톱과 모바일 환경을 모두 아우르는 범용 로컬 AI 애플리케이션 개발 키트인 'QVAC SDK'가 Apache 2.0 라이선스로 오픈소스 공개되었습니다. 이 SDK는 LLM, 비전, 음성 인식 등 다양한 모델을 지원하며, BitTorrent 방식의 P2P 모델 분배 기능을 제공하는 것이 특징입니다. 개발자가 복잡한 환경 설정 없이도 로컬 환경에서 강력한 AI 앱을 쉽게 구축할 수 있도록 돕는 것이 목표입니다.

r/singularity • 54일 전