메뉴

#컴퓨터 비전

TD
The Decoder 4일 전
IMP 8

中, 노후 CCTV망 AI 대규모 감시망으로 전환

중국이 수백만 대의 노후된 전국 CCTV 네트워크에 하이크비전과 화웨이의 AI 비전 및 언어 모델을 탑재하여 대규모 행동 분석 및 텍스트 기반 영상 검색이 가능한 자동화된 감시 시스템으로 전환하고 있습니다. 이는 기존의 반응적 개인 식별 수준을 넘어, 대규모 행동 예측과 선제적 통제가 가능한 차원이 다른 감시 체제로의 전환을 의미합니다. 인권 전문가들은 물론, 앤스로픽(Anthropic) 역시 2028년까지 중국의 AI 기반 감시 및 탄압이 기술적 한계를 극복하고 전례 없는 수준으로 확장될 것이라고 경고하고 있습니다.

AI 감시 중국 컴퓨터 비전
SG
r/singularity 6일 전
IMP 6

실제 영상의 다양한 시점 재구성 기술

평면 2D 이미지를 3D 공간 데이터로 변환하는 '4D 가우시안 스플래팅(4D Gaussian Splatting)' 기술이 업계의 화두입니다. 이 기술은 단일 또는 여러 장의 평면 영상을 분석해 시점이 자유로운 3D 입체 공간을 실시간으로 구현할 수 있게 해줍니다. 영상 제작, 가상 현실(VR), 자율주행 등 다양한 산업 분야에서 혁신적인 응용이 기대되는 요소입니다.

3d 생성 컴퓨터 비전 가우시안 스플래팅
HN
Hacker News 12일 전
IMP 7

이미지 복원을 위한 FFT와 트랜스포머의 융합 (2024)

ECCV 2024에 발표된 이 연구는 고속 푸리에 변환(FFT) 메커니즘을 트랜스포머 아키텍처에 결합한 'SFHformer'라는 효율적인 이미지 복원 프레임워크를 제안합니다. 이 모델은 주파수 및 공간 도메인을 동시에 활용하여 10가지 이미지 복원 태스크(비/안개 제거, 노이즈 제거, 초해상화 등)에서 기존 최고 수준(SOTA) 모델을 능가하는 성능을 보여주며, 성능과 연산량 및 파라미터 사이의 우수한 균형을 달성하는 것이 중요한 핵심입니다.

이미지 복원 비전 트랜스포머 푸리에 변환
HN
Hacker News 25일 전
IMP 7

GLM-5V-터보: 멀티모달 에이전트를 위한 네이티브 파운데이션 모델

GLM-V 팀이 이미지, 비디오, GUI 등 다양한 형식을 인지하고 해석하며 행동할 수 있는 'GLM-5V-Turbo' 모델을 발표했습니다. 이 모델은 언어 모델의 보조 인터페이스가 아닌, 추론 및 실행의 핵심 구성 요소로 멀티모달 인식을 통합한 것이 특징입니다. 이를 통해 우수한 멀티모달 코딩 및 시각적 도구 활용 능력을 갖춘 에이전트 구축을 위한 실질적인 통찰력을 제공합니다.

멀티모달 파운데이션 모델 인공지능 에이전트
TD
The Decoder 38일 전
IMP 8

소니 AI, 스포츠 전문가 수준 최초 달성 로봇 공개

소니 AI가 개발한 탁구 로봇 '에이스(Ace)'가 공식 규칙 하에서 엘리트 및 프로 선수들을 상대로 승리하며 스포츠 분야 최초로 전문가 수준에 도달했습니다. 이 로봇은 9개의 카메라와 3개의 비전 시스템, 그리고 AI 제어 시스템을 활용하여 사람의 눈보다 빠르게 공과 스핀을 추적합니다. 이번 성과는 스포츠 로봇 공학의 한계를 넘어선 것으로, 향후 제조업 및 서비스 로봇 분야에도 핵심 기술이广泛应用될 수 있다는 점에서 중요합니다.

로봇 공학 소니 AI 탁구 로봇
MP
MarkTechPost 48일 전
IMP 6

공간 인식과 로봇 행동 예측을 위한 MolmoAct 구현 튜토리얼

본 튜토리얼은 시각적 관찰을 바탕으로 공간적인 추론과 로봇 제어가 가능한 액션-추론 모델인 MolmoAct의 실전 구현 방법을 다룹니다. 환경 설정부터 다중 뷰 이미지 입력, 자연어 명령을 통한 깊이 추론 및 시각적 궤적 시각화, 실행 가능한 로봇 출력 생성까지 전체 워크플로우를 단계별로 안내합니다.

컴퓨터 비전 로봇 공학 머신러닝 튜토리얼
MP
MarkTechPost 49일 전
IMP 8

엣지 디바이스용 4천5백만 파라미터 비전-언어 모델

Liquid AI가 4천5백만(450M) 파라미터 크기의 초소형 비전-언어 모델(VLM)인 'LFM2.5-VL-450M'을 공개했습니다. 이 모델은 객체 위치를 특정하는 바운딩 박스(Bounding Box) 예측, 한국어 등 8개국어 지원, 강화된 명령어 준수 기능을 지원합니다. 클라우드 의존도를 낮춰 스마트폰이나 로봇 등 자원이 제한된 엣지 디바이스에서 250ms 미만의 저지연 추론이 가능하다는 점이 가장 큰 의의입니다.

비전-언어 모델 엣지 AI 온디바이스 AI
MP
MarkTechPost 54일 전
IMP 8

메타 AI, 1억 파라미터 미만 범용 비전 인코더 EUPE 공개

메타 AI가 1억 개 미만의 파라미터를 가진 소형 비전 인코더 패밀리인 EUPE를 공개했습니다. 이 모델은 이미지 이해, 밀집 예측(Dense Prediction), 시각 언어 모델(VLM) 작업 등 다양한 특수 분야 모델들과 필적하는 성능을 발휘하는 것이 특징입니다. 모바일 기기와 같은 엣지(Edge) 환경에서도 강력한 성능을 유지하면서 가벼운 크기를 실현한 것이 가장 큰 의의로 평가됩니다.

컴퓨터 비전 경량화 모델 메타 AI