앤스로픽, 엔비디아 GB200 활용해 Colossus2로 확장
Anthropic이 자체 슈퍼컴퓨터인 Colossus의 차세대 모델인 Colossus2로의 확장을 발표했습니다. 이번 확장의 핵심은 엔비디아의 차세대 최고성능 AI 칩인 'GB200'을 본격 도입한다는 점입니다. 이를 통해 AI 모델 학습 및 추론을 위한 막대한 컴퓨팅 파워를 확보하여 치열한 AI 경쟁에서 우위를 점하겠다는 전략입니다.
Anthropic이 자체 슈퍼컴퓨터인 Colossus의 차세대 모델인 Colossus2로의 확장을 발표했습니다. 이번 확장의 핵심은 엔비디아의 차세대 최고성능 AI 칩인 'GB200'을 본격 도입한다는 점입니다. 이를 통해 AI 모델 학습 및 추론을 위한 막대한 컴퓨팅 파워를 확보하여 치열한 AI 경쟁에서 우위를 점하겠다는 전략입니다.
AI 기업 Anthropic의 연간 매출이 90억 달러에서 300억 달러 이상으로 급증하며 80배 성장세를 보이자, 기존 인프라를 감당하지 못해 이용량 제한 및 서비스 장애가 발생했습니다. 이를 해결하기 위해 최대경쟁사인 머스크의 xAI와 합병된 SpaceXAI와 파트너십을 체결하여 약 22만 개의 엔비디아 GPU를 보유한 콜로서스 1 슈퍼컴퓨터를 전면 활용하게 되었습니다. 이번 계약은 Anthropic의 막대한 연산 수요를 해결하는 동시에, 상장을 앞둔 SpaceXAI에게는 안정적인 대형 고객을 확보하는 윈윈(Win-Win) 전략으로 평가됩니다.
오픈AI가 주요 기술 기업들과 협력하여 대규모 AI 슈퍼컴퓨터 훈련 클러스터의 네트워크 성능과 안정성을 혁신적으로 개선하는 개방형 네트워크 프로토콜인 MRC(Multipath Reliable Connection)를 발표했습니다. 이 프로토콜은 수백 개의 네트워크 경로로 패킷을 동시 분산 처리하고 마이크로초 단위의 장애 복구를 가능하게 하며, 단 2단계의 이더넷 스위치만으로도 10만 개 이상의 GPU를 연결하는 초대규모 클러스터 구축을 지원합니다.
오픈AI가 AMD, 브로드컴, 인텔, 마이크로소프트, 엔비디아와 협력하여 대규모 AI 슈퍼컴퓨터의 데이터 전송 병목 현상을 해결하기 위한 새로운 네트워크 프로토콜 'MRC(Multipath Reliable Connection)'를 개발했습니다. 이 프로토콜은 패킷을 수백 개의 경로로 동시에 분산시켜 전송 속도를 높이고 장애 발생 시 마이크로초 단위로 복구하여 모델 학습의 안정성을 극대화합니다. MRC는 이미 오픈AI의 최대 규모 슈퍼컴퓨터에 적용되어 실제 프론티어 모델 학습에 사용 중이며, 오픈 컴퓨트 프로젝트(OCP)를 통해 사양이 공개되었습니다.
스위스는 세계 최고 수준의 'Alps' AI 슈퍼컴퓨터를 활용하여 전 세계에서 가장 큰 규모의 오픈소스 AI 파운데이션 모델 연구를 진행하고 있습니다. 이 이니셔티트는 2026년까지 총 2천만 스위스 프랑의 자금과 막대한 컴퓨팅 자원을 지원하는 3차 프로젝트 공모를 진행하여 신뢰할 수 있는 AI 소프트웨어, 모델 및 데이터를 개발하는 데 목적이 있습니다. 이는 벤처기업과 중소기업 등 산업계가 투명한 AI 기술을 적극 활용할 수 있는 기반을 마련한다는 점에서 매우 중요합니다.
중국 톈진 국가슈퍼컴퓨팅센터(NSCC)가 해킹당해 10PB 이상의 극비 군사 및 과학 데이터가 유출된 대규모 사건이 발생했습니다. 해커는 항공우주, 미사일 설계도 등을 포함한 데이터를 암호화폐로 수십만 달러에 판매하려 하고 있으며, 다수의 사이버보안 전문가들이 해당 자료의 진위를 긍정적으로 평가했습니다.