메뉴
BL
Wired AI 31일 전

미국 제재받은 센스타임, 속도 특화 이미지 AI 모델 공개

IMP
8/10
핵심 요약

중국 AI 기업 센스타임이 이미지를 텍스트로 변환하지 않고 직접 처리해 속도와 컴퓨팅 효율을 대폭 높인 오픈소스 모델 'SenseNova U1'을 공개했습니다. 이 모델은 미국의 반도체 수출 통제를 우회해 중국 국산 칩으로 구동 가능하다는 점에서 산업적 자립 의미가 큽니다. 센스타임은 이번 오픈소스 배포를 통해 딥시크 등 후발주자들에게 빼앗긴 기술 주도권을 회수하고 지정학적 제재를 넘어선 국제 협력을 도모할 계획입니다.

번역된 본문

미국의 제재를 받은 중국 AI 기업 센스타임(SenseTime)이 화요일에 새로운 오픈소스 모델을 공개했다. 이 회사는 이 모델이 미국 경쟁사들이 개발한 최고 수준의 모델들보다 이미지를 생성하고 해석하는 데 있어 훨씬 빠르다고 주장했다. 'SenseNova U1'은 센스타임이 치열한 중국 AI 개발 경쟁에서 최전선 자리를 내어준 후 잃어버린 입지를 되찾는 데 도움이 될 수 있다. 이 모델의 핵심 기술은 이미지를 먼저 텍스트로 변환하지 않고 직접 '읽어' 들이는 능력이다. 이를 통해 처리 속도를 높이고 필요한 컴퓨팅 파워의 양을 줄였다.

센스타임의 공동 창립자이자 최고 과학자인 린다화(Dahua Lin)는 WIRED와의 인터뷰에서 “모델의 전체적인 추론 과정이 더 이상 텍스트에 국한되지 않으며, 이미지로도 추론할 수 있다”고 밝혔다. 홍콩 중문대학교 정보공학과 교수이기도 한 린은 이미지를 직접 처리할 수 있는 모델이 미래에 로봇이 물리적 세계를 더 잘 이해할 수 있게 해줄 것이라고 말한다.

딥시크(DeepSeek)의 최신 플래그십 모델과 마찬가지로 센스타임은 U1이 중국산 칩으로 구동될 수 있다고 밝혔다. 린은 “여러 중국 국내 칩 제조사가 새 모델과의 호환성 최적화를 마쳤다”고 말한다. 출시일인 화요일, 캄브리콘(Cambricon)과 바이런 테크놀로지(Biren Technology)를 포함한 10개의 중국 칩 설계사들이 자사 하드웨어가 U1을 지원한다고 발표했다. 이러한 유연성은 매우 중요하다. 미국의 수출 통제로 인해 중국 기업들이 세계에서 가장 진보된 AI 칩, 특히 훈련에 사용되는 칩(현재 주로 엔비디아와 같은 서방 기업들이 개발)에 접근하는 것이 제한되고 있기 때문이다.

린은 “다양한 칩에서 훈련을 계속 진행하기 위해 노력할 것”이라고 말했다. 하지만 그는 센스타임이 “반복적인 개발 속도를 보장하기 위해 여전히 최고의 칩을 사용해야 할 수도 있다”고 인정했다.

센스타임은 Hugging Face와 GitHub에 U1을 무료로 공개했다. 이는 중국 기업들이 어떻게 오픈소스 AI 생태계에서 가장 활발한 기여자가 되어가고 있는지를 보여주는 또 다른 징후다. 2014년에 설립된 센스타임은 안면 인식 및 자율주행과 같은 응용 분야에 사용되는 컴퓨터 비전 분야의 세계적 선도 기업이 되었다. 하지만 ChatGPT와 같은 자연어 처리 기반의 AI 시스템이 기술 산업의 가장 뜨거운 화두로 떠오르면서 센스타임은 수익을 내는 데 어려움을 겪기 시작했고, 딥시크(DeepSeek)나 미니맥스(MiniMax)와 같은 신생 스타트업들에 뒤처지게 되었다.

센스타임은 누구나 사용할 수 있도록 SenseNova U1을 공개적으로 배포함으로써 국내외 서방 AI 기업들과의 격차를 따라잡을 수 있기를 희망한다. 린은 연구원들로부터 유용한 피드백을 받아 기업이 더 빠르게 제품을 개선(iterate)할 수 있기 때문에 작년에 오픈소스에 집중하기로 최종 결정했다고 밝혔다. 린은 “요즘 시대에는 오픈소스냐 클로즈드 소스냐가 승패를 결정하는 요인이 아니다; 핵심은 개선 속도(iteration)다”라고 설명한다. 오픈소스로 전환하는 것은 센스타임이 지정학적 간섭 없이 국제 연구자들과 계속 협력하는 데에도 도움이 된다.

이 회사는 최근 몇 년간 위구르족 등 중국 신장위구르 지역의 소수민족을 감시하고 억류하는 감시 시스템에 자사의 안면 인식 기술이 사용되었다는 혐의로 미국 정부의 제재를 여러 차례 받았다. 그 결과 미국 기업들은 허가 없이 센스타임에 투자하거나 특정 기술을 판매하는 것이 제한되어 있다. (센스타임은 이러한 혐의를 부인했다.)

명확한 성능 차원에서 동반 기술 보고서에서 센스타임은 SenseNova U1이 현재 시장에 나와 있는 다른 모든 오픈소스 모델보다 더 고품질의 이미지를 생성한다고 주장한다. 알리바바의 큐웬(Qwen)과 바이트댄스의 시드림(Seedream)과 같은 중국의 최고 수준 클로즈드 소스 모델들과 성능이 비슷하지만, 불과 일주일 전에 나온 GPT-Image-2.0 같은 업계 선두주자들에는 여전히 뒤처진다.

하지만 이 모델의 주요 판매 포인트는 앞서 언급한 모델들보다 이미지를 훨씬 빠르게 생성하는 능력이다. 이는 센스타임이 올해 초 예고했던 'NEO-Unify'라는 혁신적인 기술 구조에 의존한다. 이 모델은...

원문 보기
원문 보기 (영어)
Comment Loader Save Story Save this story Comment Loader Save Story Save this story SenseTime, a Chinese AI company best known for its facial recognition technology, released a new open source model on Tuesday that it claims can both generate and interpret images far faster than top models developed by US competitors. SenseNova U1 could help the company reclaim lost ground after it slipped from its place among the leading players in China’s AI development race. The model’s secret sauce is its ability to “read” images without translating them to text first, speeding up the process and reducing the amount of computing power required. “The model’s entire reasoning process is no longer limited to text. It can reason with images as well,” Dahua Lin, cofounder and chief scientist at SenseTime, said in an interview with WIRED. Lin, who is also a professor of information engineering at the Chinese University of Hong Kong, says that models capable of processing images directly will enable robots to better understand the physical world in the future. Like DeepSeek's latest flagship model, SenseTime says U1 can be powered by Chinese-made chips. “Several Chinese domestic chipmakers have finished optimizing compatibility with our new model,” Lin says. On release day, 10 Chinese chip designers, including Cambricon and Biren Technology, announced their hardware supports U1. That flexibility matters because US export controls restrict Chinese firms from accessing the world's most advanced AI chips, particularly those used for training, which at this point are primarily developed by Western companies like Nvidia. “We will continue to push for training on more different chips,” Lin says. But he also acknowledges that SenseTime “may still need to use the best chips to ensure the speed of our iteration.” SenseTime released U1 for free on Hugging Face and GitHub, another sign of how Chinese companies are becoming some of the most active contributors to open source AI. SenseTime was founded in 2014 and became a world leader in computer vision, which is used in applications like facial recognition and autonomous driving. But when ChatGPT and other AI systems powered by natural language processing became the hottest thing in the tech industry, SenseTime began struggling to turn a profit and fell behind newer Chinese startups like DeepSeek and MiniMax. SenseTime says it hopes that releasing SenseNova-U1 publicly for anyone to use will help it catch up with both domestic and Western AI players. Lin says the company finally made the decision last year to focus on open source because of the helpful feedback it gets from researchers, which enables the company to iterate faster. “In this day and age, being open source or closed source is not the winning factor; the speed of iteration is,” Lin explains. Going open source also helps SenseTime continue collaborating with international researchers without the interference of geopolitics. The company has been sanctioned repeatedly by the US government in recent years over allegations that its facial recognition technology helped power surveillance systems used to monitor and detain Uyghurs and other minority groups in China’s Xinjiang region. As a result, US firms are restricted from investing in SenseTime and selling certain technologies to it without a license. (SenseTime has denied the allegations.) Seeing Clearly In an accompanying technical report, SenseTime claims that SenseNova-U1 generates higher-quality images than all other open source models currently on the market. Its performance is comparable to leading Chinese closed source models like Alibaba’s Qwen and ByteDance’s Seedream, but it still lags behind industry leaders like GPT-Image-2.0, which came out just a week ago. But the model’s main selling point is its ability to generate images much faster than all of those models. It relies on an innovative technical structure called NEO-Unify that SenseTime previewed earlier this year. The model’s new architecture, which could improve efficiency and performance, is what sets U1 apart, says Adina Yakefu, an AI researcher at Hugging Face. “This is a more ambitious approach, as it still faces significant practical challenges,” she says. “It’s good that they decided to open source it, so the community can explore and test it more widely.” The model is also small enough to run on PCs and phones, making it potentially useful in many scenarios. Lin says the technique SenseTime developed will be especially useful in robotics. When a robot tries to process the visual world, it needs to sort through an enormous amount of information. “It has to think, ‘How should I deal with all the clutter in this room? If there is a complicated machine in front of me, which button should I press?’ All of these are forms of information, and they need to be integrated into the model’s internal judgment,” he says. Because it can understand images natively, Lin is hopeful that SenseTime’s technology will help robots act faster and make fewer mistakes in complex environments. China is in the midst of a humanoid robot boom . While SenseTime doesn’t currently develop its own robots, Lin says it is closely working with ACE Robotics, a startup led by another SenseTime cofounder. It's also developing models that specialize in geospatial understanding, or creating simulations of the real world.