#컴퓨터 비전

구글 딥마인드, 비디오 생성 모델이 컴퓨터 비전의 '세계 모델'이 될 수 있다고 주장

구글 딥마인드는 비디오 생성 모델을 컴퓨터 비전의 핵심 과제를 수행하는 '세계 모델'로 재탄생시키는 GenCeption을 발표했습니다. 이 모델은 단일 아키텍처와 극소량의 합성 데이터만으로 깊이 추정 및 분할 등에서 기존 전문 모델들을 압도하는 성능을 보여주며, 비디오 생성 AI가 3D 공간과 물리적 법칙을 이미 깊이 이해하고 있음을 증명했습니다.

컴퓨터 비전 비디오 생성 모델 구글 딥마인드

The Decoder • 20일 전

IMP 7

미스트랄, 카메라 1대로 로봇 제어하는 '로보스트랄 내비게이트' 공개

유럽의 대표적인 AI 스타트업 미스트랄(Mistral)이 로봇 내비게이션을 위한 첫 80억 매개변수(8B) 모델인 '로보스트랄 내비게이트(Robostral Navigate)'를 공개했습니다. 이 모델은 단 하나의 일반 RGB 카메라만으로도 로봇을 복잡한 환경에서 정확하게 안내할 수 있어, 비용 효율적이고 범용성이 높은 로봇 시스템 구축에 중요한 진전으로 평가받습니다.

미스트랄 로봇 내비게이션 인공지능 모델

Hacker News • 23일 전

IMP 6

사용자를 쫓는 자율 비행 우산

유튜버 'I Build Stuff'가 비와 햇빛으로부터 사용자를 보호하기 위해 자동으로 사용자를 따라다니는 자율주행 비행 우산을 개발했습니다. 이 장치는 4개의 프로펠러와 접이식 프레임, 깊이 감지 카메라 및 라즈베리파이를 활용한 3D 위치 추적 기술을 통해 별도의 조작 없이도 사용자의 머리 위에 떠 있도록 설계되었습니다. 약 1년간의 시행착오를 거쳐 완성된 이 프로젝트는 드론 기술을 일상 용품에 자연스럽게 융합한 인상적인 엔지니어링 사례입니다.

드론 기술 자율주행 3D 프린팅

MIT Tech Review • 35일 전

IMP 8

세계를 바꾸는 스포츠 AI 기술: MIT 스포츠 연구소

2022년 카타르 월드컵에서 논란 없이 핵심 판정을 이끌어낸 반자동 오프사이드 기술(SAOT) 등 최첨단 스포츠 심판 기술의 배후에는 MIT 스포츠 연구소가 있습니다. 이 연구소는 데이터 과학과 공학을 활용해 FIFA, NBA, NFL 등 글로벌 스포츠 기관 및 기업들이 직면한 실질적인 문제를 해결하며 스포츠 산업의 혁신을 주도하고 있습니다.

스포츠 기술 컴퓨터 비전 데이터 과학

Hacker News • 36일 전

IMP 8

신경 입자 오토마타(NPA): 자가 조직화 입자 역학 학습

EPFL과 KAIST 연구진이 고정된 격자 환경에서 작동하던 기존 모델을 동적인 입자 시스템으로 일반화한 '신경 입자 오토마타(NPA)'를 발표했습니다. 이 모델은 메모리 효율적인 CUDA 커널과 미분 가능한 SPH(Smoothed Particle Hydrodynamics) 연산을 활용하여 수많은 입자 간의 복잡한 상호작용과 형태 발생, 재생 등의 자가 조직화(Self-organizing) 과정을 엔드투엔드로 학습합니다. 이는 물리 시뮬레이션 및 로보틱스 등 동적인 환경을 모델링하는 데 있어 중요한 연구 성과입니다.

신경망 컴퓨터 비전 입자 시뮬레이션

Hacker News • 42일 전

IMP 8

고해상도 신경 세포 자동화(NCA) 프로젝트 공개

해커뉴스(Hacker News)에 생물학적 원리에서 영감을 받은 '신경 세포 자동화(NCA)'를 활용해 저해상도의 한계를 극복하고 실시간으로 고해상도 결과물을 생성하는 연구가 공개되었습니다. 이 모델은 저해상도 격자에서 작동하는 NCA와 가벼운 암시적 디코더(LPPN)를 결합하여, 기존의 심각한 메모리 및 연산량 문제를 해결하면서도 자체 조직화 능력을 완벽하게 유지합니다. 이를 통해 2D/3D 그래픽 및 메시(Mesh) 환경에서 효율적이고 고품질의 텍스처 및 형태 생성이 가능해진 점이 핵심입니다.

컴퓨터 비전 그래픽스 신경망

Hacker News • 52일 전

IMP 8

학습 없이 1초 만에 고품질 이미지 생성하는 단일 이미지 디퓨전 모델

단 한 장의 이미지만으로 새로운 이미지를 생성하는 디퓨전 모델이 제안되었습니다. 기존 방식과 달리 신경망 학습 과정 없이, 이미지를 다양한 크기의 패치(Patch)로 분해하여 수학적으로 최적화된 노이즈 제거(Denoising) 기법을 적용했습니다. 이를 통해 기존 대비 최고 수준의 생성 품질을 달성함과 동시에, 1초 만에 메가픽셀 이미지 생성이 가능할 정도로 연산 속도를 혁신적으로 높였습니다.

디퓨전 모델 이미지 생성 비학습형 AI

The Decoder • 63일 전

IMP 8

中, 노후 CCTV망 AI 대규모 감시망으로 전환

중국이 수백만 대의 노후된 전국 CCTV 네트워크에 하이크비전과 화웨이의 AI 비전 및 언어 모델을 탑재하여 대규모 행동 분석 및 텍스트 기반 영상 검색이 가능한 자동화된 감시 시스템으로 전환하고 있습니다. 이는 기존의 반응적 개인 식별 수준을 넘어, 대규모 행동 예측과 선제적 통제가 가능한 차원이 다른 감시 체제로의 전환을 의미합니다. 인권 전문가들은 물론, 앤스로픽(Anthropic) 역시 2028년까지 중국의 AI 기반 감시 및 탄압이 기술적 한계를 극복하고 전례 없는 수준으로 확장될 것이라고 경고하고 있습니다.

AI 감시 중국 컴퓨터 비전

r/singularity • 65일 전

IMP 6

실제 영상의 다양한 시점 재구성 기술

평면 2D 이미지를 3D 공간 데이터로 변환하는 '4D 가우시안 스플래팅(4D Gaussian Splatting)' 기술이 업계의 화두입니다. 이 기술은 단일 또는 여러 장의 평면 영상을 분석해 시점이 자유로운 3D 입체 공간을 실시간으로 구현할 수 있게 해줍니다. 영상 제작, 가상 현실(VR), 자율주행 등 다양한 산업 분야에서 혁신적인 응용이 기대되는 요소입니다.

3d 생성 컴퓨터 비전 가우시안 스플래팅

Hacker News • 71일 전

IMP 7

이미지 복원을 위한 FFT와 트랜스포머의 융합 (2024)

ECCV 2024에 발표된 이 연구는 고속 푸리에 변환(FFT) 메커니즘을 트랜스포머 아키텍처에 결합한 'SFHformer'라는 효율적인 이미지 복원 프레임워크를 제안합니다. 이 모델은 주파수 및 공간 도메인을 동시에 활용하여 10가지 이미지 복원 태스크(비/안개 제거, 노이즈 제거, 초해상화 등)에서 기존 최고 수준(SOTA) 모델을 능가하는 성능을 보여주며, 성능과 연산량 및 파라미터 사이의 우수한 균형을 달성하는 것이 중요한 핵심입니다.

이미지 복원 비전 트랜스포머 푸리에 변환

Hacker News • 84일 전

IMP 7

GLM-5V-터보: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델

GLM-V 팀이 이미지, 비디오, GUI 등 다양한 형식을 인지하고 해석하며 행동할 수 있는 'GLM-5V-Turbo' 모델을 발표했습니다. 이 모델은 언어 모델의 보조 인터페이스가 아닌, 추론 및 실행의 핵심 구성 요소로 멀티모달 인식을 통합한 것이 특징입니다. 이를 통해 우수한 멀티모달 코딩 및 시각적 도구 활용 능력을 갖춘 에이전트 구축을 위한 실질적인 통찰력을 제공합니다.

멀티모달 파운데이션 모델 인공지능 에이전트

The Decoder • 97일 전

IMP 8

소니 AI, 스포츠 전문가 수준 최초 달성 로봇 공개

소니 AI가 개발한 탁구 로봇 '에이스(Ace)'가 공식 규칙 하에서 엘리트 및 프로 선수들을 상대로 승리하며 스포츠 분야 최초로 전문가 수준에 도달했습니다. 이 로봇은 9개의 카메라와 3개의 비전 시스템, 그리고 AI 제어 시스템을 활용하여 사람의 눈보다 빠르게 공과 스핀을 추적합니다. 이번 성과는 스포츠 로봇 공학의 한계를 넘어선 것으로, 향후 제조업 및 서비스 로봇 분야에도 핵심 기술이广泛应用될 수 있다는 점에서 중요합니다.

로봇 공학 소니 AI 탁구 로봇

MarkTechPost • 107일 전

IMP 6

공간 인식과 로봇 행동 예측을 위한 MolmoAct 구현 튜토리얼

본 튜토리얼은 시각적 관찰을 바탕으로 공간적인 추론과 로봇 제어가 가능한 액션-추론 모델인 MolmoAct의 실전 구현 방법을 다룹니다. 환경 설정부터 다중 뷰 이미지 입력, 자연어 명령을 통한 깊이 추론 및 시각적 궤적 시각화, 실행 가능한 로봇 출력 생성까지 전체 워크플로우를 단계별로 안내합니다.

컴퓨터 비전 로봇 공학 머신러닝 튜토리얼

MarkTechPost • 108일 전

IMP 8

엣지 디바이스용 4천5백만 파라미터 비전-언어 모델

Liquid AI가 4천5백만(450M) 파라미터 크기의 초소형 비전-언어 모델(VLM)인 'LFM2.5-VL-450M'을 공개했습니다. 이 모델은 객체 위치를 특정하는 바운딩 박스(Bounding Box) 예측, 한국어 등 8개국어 지원, 강화된 명령어 준수 기능을 지원합니다. 클라우드 의존도를 낮춰 스마트폰이나 로봇 등 자원이 제한된 엣지 디바이스에서 250ms 미만의 저지연 추론이 가능하다는 점이 가장 큰 의의입니다.

비전-언어 모델 엣지 AI 온디바이스 AI

MarkTechPost • 113일 전

IMP 8

메타 AI, 1억 파라미터 미만 범용 비전 인코더 EUPE 공개

메타 AI가 1억 개 미만의 파라미터를 가진 소형 비전 인코더 패밀리인 EUPE를 공개했습니다. 이 모델은 이미지 이해, 밀집 예측(Dense Prediction), 시각 언어 모델(VLM) 작업 등 다양한 특수 분야 모델들과 필적하는 성능을 발휘하는 것이 특징입니다. 모바일 기기와 같은 엣지(Edge) 환경에서도 강력한 성능을 유지하면서 가벼운 크기를 실현한 것이 가장 큰 의의로 평가됩니다.

컴퓨터 비전 경량화 모델 메타 AI