노르웨이 국립도서관, 화웨이 2PB 플래시 스토리지로 자국어 LLM 구축
노르웨이 국립도서관이 영어 중심의 상용 LLM을 대체하기 위해 자국의 역사와 문화가 반영된 주권 AI(주권 LLM)를 개발하고 있습니다. 이를 위해 20PB 규모의 자체 디지털 데이터를 정제하는 파이프라인에 2PB의 화웨이 오션스토어(OceanStor Dorado) 플래시 스토리지를 도입해 데이터 병목 현상을 해소하고 있습니다. 이 과정은 대규모 아카이브를 AI 학습 파이프라인으로 효율적으로 전송하는 기술적 과제와 자국어 평가 및 거버넌스 확립의 중요성을 보여줍니다.
노르웨이의 2페타바이트(PB) 화웨이 플래시 스토리지와 LLM 학습
크리스 멜러(Chris Mellor), Blocks & Files 에디터 2026년 5월 22일 게재
노르웨이 국립도서관은 노르웨이어를 이해하는 대형 언어 모델(LLM)을 개발 중이며, AI 학습 데이터 파이프라인에 2PB 규모의 화웨이 오션스토어 도라도(OceanStor Dorado) 플래시 스토리지를 활용하고 있습니다.
국립도서관의 IT 플랫폼 총괄 책임자인 마리우스 후스네스(Marius Husnes)는 파리에서 열린 '화웨이 ID 포럼 2026'에서 이 프로젝트에 대해 발표하며, 어떤 상용 LLM 제공업체도 노르웨이어 전용 LLM을 개발하지 않고 있다고 밝혔습니다. 그는 자국 언어로 학습된 주권 LLM을 보유하지 않은 국가는 불리한 위치에 놓이게 된다고 역설했습니다. 전 세계 데이터로 학습된 영어 기반 LLM은 현지 언어로 서술된 해당 국가의 역사, 뉴스, 문화에 대해 제대로 알지 못하기 때문입니다.
노르웨이 문화부는 국립도서관에 주권 AI(LLM) 구축을 위임했습니다. 국립도서관이 국내에서 가장 방대한 노르웨이어 서적, 신문, 웹 페이지 등의 디지털 컬렉션을 보유하고 있기 때문입니다. 많은 국가의 국립도서관과 마찬가지로, 이곳은 출판된 모든 도서와 방송 콘텐츠의 사본을 받을 권리가 있습니다. 이 법정 납본 의무는 도서를 넘어 노르웨이의 모든 문화유산을 수집하고 보존해야 하는 의무로 확장되었습니다.
노르웨이 언론사들과 체결한 협약을 통해 저작권이 있는 콘텐츠에 대한 LLM 학습이 허용되었으며, 후스네스는 "이러한 권한을 가진 민간 기업은 없다"고 말했습니다. 또한 국립도서관은 2005년부터 컬렉션을 디지털화해 왔으며, 현재 3-2-1 방식(사본 3개, 미디어 유형 2개, 오프사이트 1개)으로 저장된 20PB의 고유 데이터를 축적하여 전체적으로 약 60PB의 데이터를 보유하고 있어 이 작업에 최적화되어 있습니다.
원본 텍스트, 소리, 동영상, 정지 영상 및 웹 콘텐츠의 디지털화 과정에는 대량의 OCR 스캐닝이 포함되었으며, 수많은 메타데이터와 온라인 접근을 위한 API가 생성되었습니다. 대부분의 데이터는 디지털 디스크와 테이프 아카이브인 보존 시스템에 저장됩니다. 후스네스의 임무는 이 데이터를 LLM 학습 시스템으로 전달하는 것이었습니다.
그는 병목 현상이 컴퓨팅 성능이 아니라 데이터 품질, 정제 및 파이프라인 처리량에 있다고 강조했습니다. 시스템은 크게 두 가지 주요 처리 단계로 구성됩니다. 첫 번째는 사내(in-house) 컴퓨팅 단계로, 엔비디아 DGX H200 시스템, 384코어 CPU 클러스터, 그리고 총 2PB 용량의 다수의 화웨이 오션스토어 도라도 올플래시 어레이를 사용합니다. 이는 데이터 파이프라인과 학습 준비를 위한 초저지연 스토리지 역할을 합니다.
이 파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 표준화, 검증 및 준비 단계를 거칩니다. 파이프라인을 통과한 데이터는 실제 학습을 위해 노르웨이 국가 슈퍼컴퓨터인 '시그마2 올리비아(Sigma2 Olivia)' 시스템으로 전송됩니다. 올리비아 시스템은 448개의 GPU와 64,512개의 CPU 코어를 갖춘 HPE 크레이 슈퍼컴퓨팅 EX 시스템입니다. 이 시스템은 5.3PB 규모의 크레이 클러스터스토어(ClusterStor) E1000 스토리지 시스템을 사용합니다.
가장 큰 문제 중 하나는 서로 다른 두 가지 스토리지 요구 사항을 극복하는 것이었습니다. 60PB 규모의 보존 시스템은 빠른 입출력(IO)이 아닌 내구성과 비용에 최적화되어 있으며, 드문 접근을 위해 설계되어 읽기 지연 시간이 깁니다. 반면 AI 파이프라인 스토리지는 높은 처리량, 낮은 지연 시간, 병렬 데이터 IO를 위해 설계되었습니다.
후스네스는 PB 규모의 데이터셋을 아카이브에서 AI 데이터 파이프라인 시스템으로 이동하는 데 따른 문제에 대해 논의하는 사람이 아무도 없었다고 말했습니다. 그의 팀은 이를 수행하는 방법을 스스로 알아내야만 했습니다.
LLM 학습은 현재 진행 중이며, 그는 자신의 팀이 계속해서 배우고 있는 내용을 다음과 같이 요약하며 발표를 마무리했습니다.
- 평가(Evaluation): 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없습니다. 노르웨이어는 두 가지 서면 형태, 다수의 방언 및 역사적 변화를 가진 언어입니다. 팀은 상황에 맞춰 자체 평가 도구를 구축하고 있습니다.
- 거버넌스(Governance): 주권 LLM에 대한 접근 권한은 누가 통제합니까? 무엇을 위해 사용할 수 있는지 누가 결정합니까? 이는 쉬운 답이 없는 제도적, 정치적 질문입니다.
- 오케스트레이션(Orchestration): 보존 아카이브, 온프레미스 AI 환경, 국가 시그마2 슈퍼컴퓨터라는 세 가지 이기종 시스템이 원활하게 연동되도록 만드는 작업입니다.