BL
MarkTechPost • 24일 전
오픈AI, 대규모 AI 클러스터 위한 새 네트워크 프로토콜 공개
IMP 8/10
핵심 요약
오픈AI가 주요 기술 기업들과 협력하여 대규모 AI 슈퍼컴퓨터 훈련 클러스터의 네트워크 성능과 안정성을 혁신적으로 개선하는 개방형 네트워크 프로토콜인 MRC(Multipath Reliable Connection)를 발표했습니다. 이 프로토콜은 수백 개의 네트워크 경로로 패킷을 동시 분산 처리하고 마이크로초 단위의 장애 복구를 가능하게 하며, 단 2단계의 이더넷 스위치만으로도 10만 개 이상의 GPU를 연결하는 초대규모 클러스터 구축을 지원합니다.
번역된 본문
MRC(Multipath Reliable Connection, 다중 경로 안정적 연결)는 OpenAI가 AMD, Broadcom, Intel, Microsoft, NVIDIA와의 파트너십을 통해 개발한 새로운 개방형 네트워크 프로토콜입니다. 이 프로토콜은 수백 개의 경로에 동시에 패킷을 분산시키고, 마이크로초(수백만 분의 1초) 단위로 네트워크 장애를 복구하며, 오직 2단계(Two-tier)의 이더넷 스위치만 사용하여 10만 개 이상의 GPU를 갖춘 슈퍼컴퓨터를 구축할 수 있게 해줌으로써 대규모 AI 훈련 클러스터 내에서의 GPU 네트워킹 성능과 복원력을 향상시킵니다.
"OpenAI, 대규모 AI 슈퍼컴퓨터 훈련 클러스터를 위한 새로운 개방형 네트워크 프로토콜인 MRC(Multipath Reliable Connection) 도입"이라는 제목의 이 게시물은 MarkTechPost에 의해 가장 먼저 게재되었습니다.
원문 보기 (영어)
MRC (Multipath Reliable Connection) is a new open networking protocol developed by OpenAI in partnership with AMD, Broadcom, Intel, Microsoft, and NVIDIA that improves GPU networking performance and resilience in large-scale AI training clusters by spreading packets across hundreds of paths simultaneously, recovering from network failures in microseconds, and enabling supercomputers with over 100,000 GPUs to be built using only two tiers of Ethernet switches.
The post OpenAI Introduces MRC (Multipath Reliable Connection): A New Open Networking Protocol for Large-Scale AI Supercomputer Training Clusters appeared first on MarkTechPost.