다중 GPU/노드 통신 융합 커널 라이브러리 mKernel 공개
UC Berkeley의 UCCL 연구팀이 다중 GPU 및 다중 노드 환경의 통신과 연산을 하나의 지속형 CUDA 커널로 통합한 'mKernel' 라이브러리를 공개했습니다. 이 라이브러리는 노드 내 NVLink, 노드 간 RDMA 통신 및 고밀도 연산을 하나로 융합하여 시스템 오버헤드를 최소화하고 대규모 AI 모델 학습 및 분산 컴퓨팅의 효율성을 극대화하는 데 기여할 수 있습니다.
UC Berkeley의 UCCL 연구팀이 다중 GPU 및 다중 노드 환경의 통신과 연산을 하나의 지속형 CUDA 커널로 통합한 'mKernel' 라이브러리를 공개했습니다. 이 라이브러리는 노드 내 NVLink, 노드 간 RDMA 통신 및 고밀도 연산을 하나로 융합하여 시스템 오버헤드를 최소화하고 대규모 AI 모델 학습 및 분산 컴퓨팅의 효율성을 극대화하는 데 기여할 수 있습니다.
AI 코딩 에이전트가 분산 및 상태 유지 시스템을 테스트하기 위한 계획을 수립하고, 실행하여 구조화된 결과 보고서를 생성하는 두 가지 테스트 스킬(Skill)을 소개합니다. 이 방법론은 단순한 통합 테스트가 놓치기 쉬운 네트워크 분할, 동시성, 장애 복구 등 복잡한 버그를 철저히 검증하며, 최종 산출물만으로 리뷰어가 배포 여부를 결정할 수 있게 돕습니다. 클라우드 환경이나 대규모 시스템 안정성을 다루는 엔지니어에게 매우 유용한 접근법입니다.
개발자가 다양한 AI 코딩 에이전트를 활용하여 구식화된 Azure의 분산 합의 엔진을 최신 하드웨어에 맞게 러스트(Rust)로 처음부터 다시 구현하며 극강의 생산성을 입증한 후기입니다. 10만 줄 이상의 코드가 약 한 달 만에 작성되었으며, 코드 계약(Code contracts)과 명세 기반 개발을 통해 복잡한 시스템의 정확성과 성능을 크게 향상시킨 구체적인 작업 방식을 공유합니다.
최신 LLM들이 동시성 및 분산 시스템 명세 언어인 TLA+를 사용해 시스템을 모델링하는 역량을 평가한 연구 결과입니다. 연구진이 개발한 자동화 벤치마크 'SysMoBench'에 따르면, 최신 LLM들은 문법이나 기본 실행 단계에서는 거의 완벽한 점수를 기록했지만, 실제 코드와 모델이 일치하는지 검증하는 단계(46%)와 핵심 속성을 만족하는지 확인하는 단계(41%)에서는 대폭 실패했습니다. 이는 현재 AI가 시스템 코드의 실제 구조를 추상화해 정확한 형식 모델을 작성하기보다는, 학습 데이터에 존재하는 교과서적인 예제를 단순히 암기하여 재생산하는 한계를 명확히 보여줍니다.
최근 여러 AI 에이전트가 협력하여 소프트웨어를 개발하는 멀티 에이전트 시스템이 주목받고 있지만, 이는 본질적으로 '분산 시스템의 합의 문제'라고 해당 글은 지적합니다. 일각에서는 다음 세대 LLM이 나오면 협력 문제가 자연스럽게 해결될 것이라며 방관하는 태도를 보이지만, 지능이 아무리 뛰어나도 분산 시스템의 근본적인 한계를 피할 수는 없습니다. 따라서 새로운 프로그래밍 언어와 형식적 모델링을 통해 에이전트 간의 상호작용을 체계적으로 관리하려는 노력이 매우 중요합니다.
이 글은 분산 시스템에서 데이터를 안전하게 복제하고 일관성을 유지하는 'Raft 합의 알고리즘'을 영화 'Mean Girls'의 학교 내 파벌에 빗대어 쉽게 설명합니다. 리더 선출과 데이터 복제의 중요성을 주인공 레지나와 '플라스틱스' 그룹의 관계로, 그리고 과반수 투표(Quorum)의 필수성을 다른 소수 파벌과의 비교를 통해 직관적으로 보여줍니다.