메뉴

#온디바이스 AI

MP
MarkTechPost 2일 전
IMP 6

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI
TD
The Decoder 2일 전
IMP 7

구글, Gemma 3 온디바이스 구동 초소형 보드 공개

구글이 자체 NPU를 탑재해 AI 모델을 네트워크 없이 로컬에서 구동할 수 있는 초소형 싱글보드 컴퓨터 'Coral Board'를 공개했습니다. 이 보드는 이어폰, 스마트워치 등 초소형 기기에 적합하며 AI 가속기 파편화 문제를 해결하는 것을 목표로 합니다. 완전한 오프라인 환경에서 실시간 번역 등 다양한 엣지 AI 데모를 성공적으로 선보였다는 점에서 실무자들에게 큰 의미를 갖습니다.

온디바이스 AI 구글 코랄 Coral Board
TC
TechCrunch AI 10일 전
IMP 7

앤드루 응 투자, PC의 든든한 AI 업무 자동화 친구 '아이리스고'

전 애플 엔지니어가 창업한 AI 스타트업 아이리스고(IrisGo)는 사용자의 데스크톱 업무 흐름을 학습하여 반복 작업을 사전에 자동화해 주는 '자율형 AI 에이전트'를 개발했습니다. 최대 280만 달러(약 37억 원)의 시드 투자를 유치하며 엔비디아, 구글 등 빅테크의 지원을 받았고, 에이서(Acer)와 같은 PC 제조사들에 앱을 기본 탑재하는 등 본격적인 시장 공략에 나서고 있습니다.

AI 에이전트 업무 자동화 앤드루 응
TD
The Decoder 14일 전
IMP 8

오포, 스마트폰 센서 활용 안드로이드 AI 에이전트 오픈소스화

오포(Oppo)의 Multi-X 팀이 카메라, 화면, 음성 등 스마트폰의 모든 센서를 활용해 앱 간 작업을 수행하는 오픈소스 안드로이드 AI 에이전트 'X-OmniClaw'를 공개했습니다. 이 에이전트는 가상화된 클라우드 환경이 아닌 기기 자체에서 직접 구동되어 민감한 개인 정보를 보호하고, 사용자의 행동을 클론하여 자동화하는 것이 특징입니다. 이는 개인정보 보호를 강화한 온디바이스 기반 모바일 AI 에이전트의 발전 방향을 제시한다는 점에서 중요합니다.

안드로이드 온디바이스 AI AI 에이전트
LL
r/LocalLLaMA 15일 전
IMP 6

네트워크 없이 구동되는 오프라인 로봇, 젯슨 오린과 젬마 3 탑재

Reddit 사용자가 Wi-Fi나 셀룰러 연결 없이 엔비디아 젯슨 오린 NX와 소형 언어 모델인 Gemma 3 4B만으로 완전한 오프라인 로봇을 제작했습니다. 프롬프트 구조 최적화를 통해 캐시 적용 시 첫 토큰 생성 시간(TTFT)을 약 200ms로 단축하고 30개 이상의 센서 데이터를 실시간으로 자연어로 처리하는 점이 기술적으로 주목받습니다.

오픈소스 모델 온디바이스 AI 로봇 공학
HN
Hacker News 20일 전
IMP 7

M4(24GB)에서 구동되는 로컬 AI 모델 최적화기

이 글은 24GB 메모리를 탑재한 M4 맥북 프로에서 인터넷 없이 로컬 AI 모델을 구동하고 코딩 등의 작업에 활용하는 방법을 다루고 있습니다. 실험 끝에 Qwen 3.5-9B 모델을 발견했으며, SOTA(최고 수준) 모델에는 미치지 못하지만 기본적인 연구, 계획, 그리고 도구 활용이 가능해 유용합니다. 또한 Ollama, LM Studio 등의 환경 설정과 Pi, OpenCode 등 터미널 클라이언트의 구성 방법 및 추천 파라미터까지 상세히 공유하고 있습니다.

로컬 AI 오픈소스 모델 M4 맥북
HN
Hacker News 20일 전
IMP 8

온디바이스 로컬 AI가 표준이 되어야 하는 이유

최근 소프트웨어 개발에서 단순히 클라우드 기반 AI API를 호출하는 방식은 앱의 안정성을 떨어뜨리고 개인정보 침해 우려를 키웁니다. 이에 개발자는 성능이 충분한 로컬 기기의 내장 AI 모델을 활용해 온디바이스에서 직접 기능을 수행해야 한다고 강조합니다. Apple 생태계를 예시로 든 이 글은, 구현 가능한 경우 로컬 AI를 우선 채택하는 것이 개발자와 사용자 모두에게 현명한 접근임을 시사합니다.

온디바이스 AI 로컬 AI 개인정보 보호
HN
Hacker News 20일 전
IMP 6

크롬 AI 기능이 내 PC 저장공간 4GB 잡아먹는 이유

구글 크롬의 내장 AI 기능을 활성화하면 기기 내 로컬 환경에서 구동되는 '제미나이 나노(Gemini Nano)' 모델 파일(약 4GB)이 사용자 동의나 명확한 안내 없이 자동으로 다운로드됩니다. 저장 공간이 부족한 사용자는 크롬 설정에서 '기기 내 AI' 옵션을 꺼야만 해당 파일을 삭제하고 공간을 확보할 수 있습니다.

구글 크롬 제미나이 나노 저장 공간
WR
Wired AI 23일 전
IMP 6

크롬에 숨어있는 구글 제미나이 비활성화 방법

구글이 크롬 브라우저에 경량 AI 모델인 '제미나이 나노(Gemini Nano)'를 기본 탑재하면서, 사용자 동의 없이 약 4GB의 저장 공간이 자동 할당되어 프라이버시 논란이 일고 있습니다. 사용자는 크롬 설정의 '시스템' 메뉴에서 '기기 내 AI(On-device AI)'를 끄는 방식으로 해당 모델을 쉽게 삭제할 수 있습니다. 단, 모델을 비활성화하면 기기 내부에서 처리되는 AI 기반 피싱 및 사기 탐지 등의 보안 기능이 더 이상 작동하지 않는다는 점에 유의해야 합니다.

크롬 제미나이 나노 프라이버시
HN
Hacker News 23일 전
IMP 8

크롬, '기기 내 AI 데이터 구글 전송 안 함' 문구 삭제

구글 크롬의 최신 업데이트(v148)에서 기기 내 AI(On-device AI)가 사용자 데이터를 구글 서버로 전송하지 않는다는 명시적인 프라이버시 보장 문구가 삭제되었습니다. 이는 사용자의 기기를 활용해 AI를 구동하는 동시에 자원을 절약하고 데이터를 수집하려는 구글의 의도로 해석됩니다. 해당 사안을 계기로 많은 사용자들이 파이어폭스나 브레이브 등 대체 브라우저로 이동을 고려하는 등 개인정보 보호에 대한 우려가 커지고 있습니다.

크롬 온디바이스 AI 개인정보 보호
HN
Hacker News 26일 전
IMP 9

구글 크롬, 사용자 동의 없이 4GB AI 모델 설치

구글 크롬이 사용자의 동의나 명시적 알림 없이 최신 버전에서 기기 내 AI 기능을 위해 4GB 크기의 'Gemini Nano' 모델(weights.bin)을 자동으로 다운로드하고 설치하고 있습니다. 사용자가 이를 수동으로 삭제해도 브라우저 실행 시 자동으로 재다운로드되며, 이는 GDPR 및 ePrivacy 지침 위반과 전 지구적인 탄소 배출을 유발하는 심각한 환경적 문제를 야기할 수 있다는 전문가의 비판을 받고 있습니다.

구글 크롬 개인정보 보호 GDPR 위반
LL
r/LocalLLaMA 31일 전
IMP 7

Qwen, 고성능 선형 어텐션 커널 FlashQLA 공개

Qwen이 TileLang 기반의 고성능 선형 어텐션(Linear Attention) 커널인 FlashQLA를 공개했습니다. 순방향 연산 속도를 2~3배, 역방향 연산 속도를 2배 향상시켰으며, 특히 개인 기기에서 작동하는 에이전트 AI 및 긴 문맥(Long-context) 처리 환경에 최적화된 것이 특징입니다. 메모리 제약이 심한 에지 디바이스 환경에서 실질적인 성능 향상을 이끌어내는 실무적인 하드웨어 최적화 기법을 적용했습니다.

오픈소스 성능 최적화 에이지 AI
TC
TechCrunch AI 36일 전
IMP 7

AI 수요 폭발에 맥 미니 품귀, 중고 시장서 고가 거래

온디바이스 AI 모델 구동에 최적화된 애플의 M4 맥 미니 기본 모델이 전 세계적으로 품절되면서 이베이 등 중고 시장에서 웃돈이 붙어 거래되고 있습니다. 낮은 소음과 안정성, 뛰어난 전력 효율성 덕분에 AI 개발자들의 테스트용 기기로 각광받은 것이 주된 원인입니다. 수요가 Mac Studio로까지 번지며 공급망 전체에 악영향을 미치고 있어, 애플의 추가 공급이 이루어지기 전까지는 높은 가격이 유지될 전망입니다.

애플 온디바이스 AI 맥 미니
HN
Hacker News 38일 전
IMP 7

안커, 자체 AI 칩 개발…전 제품군 인공지능 탑재

안커(Anker)는 오디오 기기 및 소형 IoT 기기에 온디바이스 AI를 구현하기 위해 자체 신경망 칩인 'Thus(더스)'를 개발했습니다. 이 칩은 세계 최초로 메모리 내 연산(Compute-in-Memory) 기술을 적용한 AI 오디오 칩으로, 크기와 전력 소모를 획기적으로 줄이면서도 수백만 개의 파라미터를 처리할 수 있습니다. 해당 칩은 크기와 전력 제약이 가장 심한 이어버드(Soundcore Liberty 5 Pro Max 등)에 우선 탑재되어 압도적인 통화 노이즈 캔슬링 성능을 제공할 예정이며, 향후 안커의 다른 제품군으로 확대될 예정입니다.

안커 자체 AI 칩 이어버드
AI
r/artificial 39일 전
IMP 7

애플의 AI 전략: 소프트웨어가 아닌 하드웨어 승부

애플의 이사회가 하드웨어 분야에서 경력을 쌓은 인물을 선정한 것은 AI의 미래를 소프트웨어가 아닌 하드웨어에서 찾겠다는 의지로 풀이됩니다. 구글이나 OpenAI 등과 대형 언어 모델(LLM) 경쟁을 벌이는 대신, 아이폰과 고성능 프로세서를 활용해 클라우드가 아닌 기기 자체에서 AI 모델을 구동하겠다는 전략입니다.

애플 하드웨어 온디바이스 AI
LL
r/LocalLLaMA 42일 전
IMP 7

아이패드에서 로컬 구동되는 미니 월드 모델 게임 제작기

아이패드 환경에서 온프레미스로 구동되는 자체 월드 모델(World Model)을 훈련시켜 적용한 미니 드라이빙 게임 프로토타입이 공유되었습니다. 이 게임은 사용자가 제공하는 사진을 실시간으로 인터프리팅하여 조작 가능한 게임플레이 환경으로 변환하며, 화면에 직접 그림을 그려 모델이 이를 어떻게 해석하는지 확인하는 기능도 포함되어 있습니다. 엣지 디바이스에서 구동되는 생성형 AI의 실시간 인터랙션 가능성을 보여준다는 점에서 기술적 의의가 있습니다.

월드 모델 온디바이스 AI 생성형 게임
HN
Hacker News 43일 전
IMP 8

단 1.58비트로 최고 수준 지능 구현한 '테르나리 분산'

PrismML이 가중치를 단 3가지 값(-1, 0, +1)만 사용하는 1.58비트 언어 모델인 '테르나리 분산(Ternary Bonsai)'을 공개했습니다. 이 모델은 기존 16비트 모델 대비 약 9분의 1 수준의 작은 메모리 용량을 차지하면서도 동급 16비트 모델들을 능가하는 뛰어난 성능을 보여줍니다. 엣지 디바이스에서도 초고속 추론 속도와 높은 전력 효율을 발휘하여, 하드웨어 자원이 제한된 환경에서의 실용적인 AI 배포를 혁신할 것으로 평가받습니다.

경량화/양자화 온디바이스 AI 오픈소스 LLM
HN
Hacker News 46일 전
IMP 9

구글 제마 4, 아이폰에서 오프라인 완벽 구동

구글의 오픈소스 AI 모델인 'Gemma 4'가 아이폰 내 GPU를 활용해 네트워크 연결 없이도 완벽하게 오프라인 구동됩니다. 단순한 텍스트 처리를 넘어 이미지 인식, 음성 대화, 확장 가능한 스킬(Skills) 프레임워크를 지원하며, 특히 엔터프라이즈 환경에서 데이터 프라이버시가 필수적인 의료 및 산업 현장에 실질적인 솔루션을 제공한다는 점에서 매우 중요합니다.

온디바이스 AI 구글 제마 로컬 추론
HN
Hacker News 47일 전
IMP 8

AMD, 온디바이스 로컬 구동 AI 에이전트 프레임워크 공개

AMD가 자체 하드웨어(NPU, GPU)에 최적화된 오픈소스 AI 에이전트 프레임워크 'GAIA'를 공개했습니다. 이 프레임워크는 파이썬과 C++를 모두 지원하며, 클라우드나 외부 API 키 없이도 데이터를 기기 내에 머물게 하여 완벽한 프라이버시를 보장합니다. 개발자는 단 두 번의 명령어만으로 오프라인 문서 질의응답, 음성 인식 및 생성, 코드 작성, 사용자 에이전트 구축 등을 로컬 환경에서 구현할 수 있습니다.

온디바이스 AI AMD AI 에이전트
HN
Hacker News 48일 전
IMP 8

애플의 우연한 해자: AI 패배자가 최종 승자가 되는 법

AI 모델의 지능이 빠르게 평준화(일상화)되면서, 막대한 자본을 태우는 인프라 경쟁 대신 엄청난 현금을 보유한 채 기기를 통한 온디바이스 AI 통합에 집중해 온 애플이 유리한 고지를 점하게 되었습니다. 거대 AI 모델 구축에 천문학적 자금을 소모하고도 수익성을 입증하지 못해 위기에 처한 오픈AI 등의 사례와 대비되어, 향후 플랫폼 점유율과 실질적 사용자 경험을 중심으로 한 AI 산업의 패러다임 전환을 시사합니다.

애플 온디바이스 AI AI 상품화
HN
Hacker News 48일 전
IMP 5

AI 기반 X(트위터) 피드 필터링 확장 프로그램 'Bouncer'

원하지 않는 게시물을 자연어로 차단할 수 있는 브라우저 확장 프로그램 및 iOS 앱입니다. 사용자가 '암호화폐', '참여 유도성 글', '분노 정치' 등 필터 주제를 일상 언어로 입력하면 다양한 AI 모델이 게시물을 분류해 실시간으로 숨겨줍니다. 로컬 모델 실행부터 클라우드 API 연동까지 지원하며 이미지 기반 필터링과 차단 사유 투명성 제공이 특징입니다.

브라우저 확장 프로그램 소셜 미디어 필터링 온디바이스 AI
MP
MarkTechPost 49일 전
IMP 8

엣지 디바이스용 4천5백만 파라미터 비전-언어 모델

Liquid AI가 4천5백만(450M) 파라미터 크기의 초소형 비전-언어 모델(VLM)인 'LFM2.5-VL-450M'을 공개했습니다. 이 모델은 객체 위치를 특정하는 바운딩 박스(Bounding Box) 예측, 한국어 등 8개국어 지원, 강화된 명령어 준수 기능을 지원합니다. 클라우드 의존도를 낮춰 스마트폰이나 로봇 등 자원이 제한된 엣지 디바이스에서 250ms 미만의 저지연 추론이 가능하다는 점이 가장 큰 의의입니다.

비전-언어 모델 엣지 AI 온디바이스 AI
LL
r/LocalLLaMA 49일 전
IMP 8

애플 실리콘 DFlash 추론: 초당 85토큰, 최대 3.3배 속도 향상

애플 실리콘(M5 Max) 환경의 MLX 프레임워크에서 작동하는 DFlash 스페큘러 디코딩(Speculative Decoding)의 네이티브 구현체가 공개되었습니다. 작은 초안(Draft) 모델이 16개의 토큰을 병렬로 생성하고 타겟 모델이 이를 한 번의 순전파(Forward pass)로 검증하는 방식을 사용하여, 양자화되지 않은 9B 모델 기준 최대 3.3배, 양자화된 27B 모델 기준 최대 2.5배의 추론 속도 향상을 달성했습니다. 통합 메모리(Unified memory) 환경에서 커스텀 커널보다 기본 GEMM 연산이 더 효율적이며, 양자화된 모델에서는 오히려 bf16 초안 모델이 병목 현상을 일으키는 등 애플 실리콘 특유의 하드웨어 최적화 인사이트를 제공합니다.

온디바이스 AI 애플 실리콘 스페큘러 디코딩
TD
The Decoder 49일 전
IMP 9

구글 '제마 4' 출시, 데이터 유출 없는 온디바이스 AI

구글이 오픈소스 모델인 Gemma 4를 발표했습니다. 이 모델은 텍스트, 이미지, 오디오를 기기 내에서 완벽하게 처리하며, 위키피디아나 지도 같은 외부 도구를 클라우드 없이 자율적으로 사용하는 에이전트 기능을 갖추고 있습니다. 스마트폰용 경량 모델은 RAM 6GB 환경에서도 구동되어 기기 내 AI 활용의 새로운 기준을 제시합니다.

온디바이스 AI 구글 제마 4 에이전트 AI
TC
TechCrunch AI 53일 전
IMP 7

구글, 오프라인 작동하는 AI 받아쓰기 앱 조용히 출시

구글이 오프라인에서도 작동하는 무료 AI 받아쓰기 앱 'Google AI Edge Eloquent'를 iOS용으로 조용히 출시했습니다. 이 앱은 음성을 텍스트로 변환할 때 '음, 어' 같은 불필요한 양념 말을 자동으로 제거하고 문장을 매끄럽게 다듬어 주며, 클라우드 모드를 끄면 기기 내부의 온디바이스 AI 모델만으로도 작동합니다. 이번 실험적 앱 출시는 기존의 음성 인식 기술을 한 단계 뛰어넘어 사용자의 의도를 파악해 바로 사용할 수 있는 깔끔한 텍스트를 제공한다는 점에서 업계의 큰 주목을 받고 있습니다.

구글 음성 인식 온디바이스 AI
TC
TechCrunch AI 54일 전
IMP 7

구글, 오프라인 구동되는 AI 받아쓰기 앱 출시

구글이 Wispr Flow, SuperWhisper 등과 경쟁하기 위해 오프라인에서도 AI 받아쓰기가 가능한 'Google AI Edge Eloquent' 앱을 iOS용으로 조용히 출시했습니다. 이 앱은 온디바이스 기반의 Gemma 모델을 사용하여 음성을 텍스트로 변환하고, 불필요한 추임새를 자동으로 제거하여 깔끔한 문장으로 다듬어주는 것이 특징입니다. 현재는 iOS 버전만 제공되지만 향후 안드로이드 통합 기능도 지원될 예정이며, 이번 실험적 출시를 통해 구글의 본격적인 음성 AI 시장 진출을 확인할 수 있습니다.

음성 인식 (ASR) 온디바이스 AI 구글 (Google)
LL
r/LocalLLaMA 55일 전
IMP 7

Gemma 4 기반 안드로이드 자율 제어 앱 오픈소스 공개

구글의 소형 언어 모델인 Gemma 4를 탑재하여 안드로이드 스마트폰을 자율적으로 제어하는 오픈소스 앱 '포켓클로(PokeClaw)'가 공개되었습니다. 이 앱은 클라우드나 외부 API 없이 기기 내부에서 완벽하게 동작하는 온디바이스(On-device) 폐루프(Closed loop) 구조를 갖추고 있어 프라이버시와 실용성 면에서 주목받습니다. 개발자는 이틀 만에 프로톃입을 구축했으며, 채팅 문맥을 파악하고 자동 답장하는 기능 등이 포함된 최신 버전을 깃허브에 공개했습니다.

온디바이스 AI 안드로이드 자동화 Gemma 4
LL
r/LocalLLaMA 55일 전
IMP 2

32MB 램 1998년 아이맥에서 LLM 구동 성공

1998년에 출시된 32MB RAM의 오리지널 아이맥 G3에서 26만 개 파라미터(260K) 규모의 초소형 대규모 언어 모델(LLM)을 로컬로 구동하는 데 성공한 프로젝트가 공개되었습니다. 크로스 컴파일 및 빅엔디안 변환, 제한적인 메모리 할당을 우회하는 등 레트로 하드웨어의 극심한 제약을 극복한 것이 특징입니다. 실질적인 성능보다는 제한된 환경에서 AI 모델을 실행하는 기술적 난제를 해결한 흥미로운 실험으로 평가받습니다.

온디바이스 AI 레트로 컴퓨팅 LLM
HN
Hacker News 55일 전
IMP 8

브라우저 내장형 AI 'Gemma Gem' 오픈소스 공개

해커뉴스에 구글의 'Gemma 4' 모델을 브라우저 내에서 직접 구동하는 크롬 확장 프로그램 'Gemma Gem'이 공개되었습니다. WebGPU를 활용해 별도의 API 키나 클라우드 없이 기기 내에서 AI가 작동하며, 사용자의 데이터를 외부로 전송하지 않아 프라이버시가 강력하게 보호됩니다. 특히 웹페이지 내용 읽기, 버튼 클릭, 폼 작성, 자바스크립트 실행 등 브라우저 상에서의 에이전트(Agent) 작업 수행이 가능하다는 점이 가장 큰 특징입니다.

온디바이스 AI 웹 브라우저 크롬 확장프로그램