TD
The Decoder • 24일 전
IMP 8
오픈AI, 빅테크와 'MRC' 개발로 슈퍼컴 병목 해결
오픈AI가 AMD, 브로드컴, 인텔, 마이크로소프트, 엔비디아와 협력하여 대규모 AI 슈퍼컴퓨터의 데이터 전송 병목 현상을 해결하기 위한 새로운 네트워크 프로토콜 'MRC(Multipath Reliable Connection)'를 개발했습니다. 이 프로토콜은 패킷을 수백 개의 경로로 동시에 분산시켜 전송 속도를 높이고 장애 발생 시 마이크로초 단위로 복구하여 모델 학습의 안정성을 극대화합니다. MRC는 이미 오픈AI의 최대 규모 슈퍼컴퓨터에 적용되어 실제 프론티어 모델 학습에 사용 중이며, 오픈 컴퓨트 프로젝트(OCP)를 통해 사양이 공개되었습니다.
오픈AI 네트워크 프로토콜 슈퍼컴퓨터