메뉴
HN
Hacker News 5일 전

노르웨이 국립도서관, 화웨이 2PB 플래시 스토리지로 자국어 LLM 구축

IMP
6/10
핵심 요약

노르웨이 국립도서관이 영어 중심의 상용 LLM을 대체하기 위해 자국의 역사와 문화가 반영된 주권 AI(주권 LLM)를 개발하고 있습니다. 이를 위해 20PB 규모의 자체 디지털 데이터를 정제하는 파이프라인에 2PB의 화웨이 오션스토어(OceanStor Dorado) 플래시 스토리지를 도입해 데이터 병목 현상을 해소하고 있습니다. 이 과정은 대규모 아카이브를 AI 학습 파이프라인으로 효율적으로 전송하는 기술적 과제와 자국어 평가 및 거버넌스 확립의 중요성을 보여줍니다.

번역된 본문

노르웨이의 2페타바이트(PB) 화웨이 플래시 스토리지와 LLM 학습

크리스 멜러(Chris Mellor), Blocks & Files 에디터 2026년 5월 22일 게재

노르웨이 국립도서관은 노르웨이어를 이해하는 대형 언어 모델(LLM)을 개발 중이며, AI 학습 데이터 파이프라인에 2PB 규모의 화웨이 오션스토어 도라도(OceanStor Dorado) 플래시 스토리지를 활용하고 있습니다.

국립도서관의 IT 플랫폼 총괄 책임자인 마리우스 후스네스(Marius Husnes)는 파리에서 열린 '화웨이 ID 포럼 2026'에서 이 프로젝트에 대해 발표하며, 어떤 상용 LLM 제공업체도 노르웨이어 전용 LLM을 개발하지 않고 있다고 밝혔습니다. 그는 자국 언어로 학습된 주권 LLM을 보유하지 않은 국가는 불리한 위치에 놓이게 된다고 역설했습니다. 전 세계 데이터로 학습된 영어 기반 LLM은 현지 언어로 서술된 해당 국가의 역사, 뉴스, 문화에 대해 제대로 알지 못하기 때문입니다.

노르웨이 문화부는 국립도서관에 주권 AI(LLM) 구축을 위임했습니다. 국립도서관이 국내에서 가장 방대한 노르웨이어 서적, 신문, 웹 페이지 등의 디지털 컬렉션을 보유하고 있기 때문입니다. 많은 국가의 국립도서관과 마찬가지로, 이곳은 출판된 모든 도서와 방송 콘텐츠의 사본을 받을 권리가 있습니다. 이 법정 납본 의무는 도서를 넘어 노르웨이의 모든 문화유산을 수집하고 보존해야 하는 의무로 확장되었습니다.

노르웨이 언론사들과 체결한 협약을 통해 저작권이 있는 콘텐츠에 대한 LLM 학습이 허용되었으며, 후스네스는 "이러한 권한을 가진 민간 기업은 없다"고 말했습니다. 또한 국립도서관은 2005년부터 컬렉션을 디지털화해 왔으며, 현재 3-2-1 방식(사본 3개, 미디어 유형 2개, 오프사이트 1개)으로 저장된 20PB의 고유 데이터를 축적하여 전체적으로 약 60PB의 데이터를 보유하고 있어 이 작업에 최적화되어 있습니다.

원본 텍스트, 소리, 동영상, 정지 영상 및 웹 콘텐츠의 디지털화 과정에는 대량의 OCR 스캐닝이 포함되었으며, 수많은 메타데이터와 온라인 접근을 위한 API가 생성되었습니다. 대부분의 데이터는 디지털 디스크와 테이프 아카이브인 보존 시스템에 저장됩니다. 후스네스의 임무는 이 데이터를 LLM 학습 시스템으로 전달하는 것이었습니다.

그는 병목 현상이 컴퓨팅 성능이 아니라 데이터 품질, 정제 및 파이프라인 처리량에 있다고 강조했습니다. 시스템은 크게 두 가지 주요 처리 단계로 구성됩니다. 첫 번째는 사내(in-house) 컴퓨팅 단계로, 엔비디아 DGX H200 시스템, 384코어 CPU 클러스터, 그리고 총 2PB 용량의 다수의 화웨이 오션스토어 도라도 올플래시 어레이를 사용합니다. 이는 데이터 파이프라인과 학습 준비를 위한 초저지연 스토리지 역할을 합니다.

이 파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 표준화, 검증 및 준비 단계를 거칩니다. 파이프라인을 통과한 데이터는 실제 학습을 위해 노르웨이 국가 슈퍼컴퓨터인 '시그마2 올리비아(Sigma2 Olivia)' 시스템으로 전송됩니다. 올리비아 시스템은 448개의 GPU와 64,512개의 CPU 코어를 갖춘 HPE 크레이 슈퍼컴퓨팅 EX 시스템입니다. 이 시스템은 5.3PB 규모의 크레이 클러스터스토어(ClusterStor) E1000 스토리지 시스템을 사용합니다.

가장 큰 문제 중 하나는 서로 다른 두 가지 스토리지 요구 사항을 극복하는 것이었습니다. 60PB 규모의 보존 시스템은 빠른 입출력(IO)이 아닌 내구성과 비용에 최적화되어 있으며, 드문 접근을 위해 설계되어 읽기 지연 시간이 깁니다. 반면 AI 파이프라인 스토리지는 높은 처리량, 낮은 지연 시간, 병렬 데이터 IO를 위해 설계되었습니다.

후스네스는 PB 규모의 데이터셋을 아카이브에서 AI 데이터 파이프라인 시스템으로 이동하는 데 따른 문제에 대해 논의하는 사람이 아무도 없었다고 말했습니다. 그의 팀은 이를 수행하는 방법을 스스로 알아내야만 했습니다.

LLM 학습은 현재 진행 중이며, 그는 자신의 팀이 계속해서 배우고 있는 내용을 다음과 같이 요약하며 발표를 마무리했습니다.

  • 평가(Evaluation): 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없습니다. 노르웨이어는 두 가지 서면 형태, 다수의 방언 및 역사적 변화를 가진 언어입니다. 팀은 상황에 맞춰 자체 평가 도구를 구축하고 있습니다.
  • 거버넌스(Governance): 주권 LLM에 대한 접근 권한은 누가 통제합니까? 무엇을 위해 사용할 수 있는지 누가 결정합니까? 이는 쉬운 답이 없는 제도적, 정치적 질문입니다.
  • 오케스트레이션(Orchestration): 보존 아카이브, 온프레미스 AI 환경, 국가 시그마2 슈퍼컴퓨터라는 세 가지 이기종 시스템이 원활하게 연동되도록 만드는 작업입니다.
원문 보기
원문 보기 (영어)
FLASH Norway’s 2 petabytes of Huawei flash storage and LLM training Chris Mellor Chris Mellor Blocks & Files editor Published fri 22 May 2026 // 17:22 UTC Norway’s National Library is developing a large language model (LLM) that understands the Norwegian language and is using 2 PB of Huawei OceanStor Dorado flash storage in its AI training data pipeline. Marius Husnes, the Head of IT Platform at the library ( Nasjonlbiblioteket ) discussed the project at Huawei’s ID Forum 2026 in Paris, saying that no commercial LLM provider was developing a local (Norwegian) language LLM. He asserted that any country with its own language that did not have a sovereign LLM trained in that language was at a disadvantage as a globally trained, English-speaking LLM would not know about that country’s history, news and culture that was described in the local language. Norway’s Ministry of Culture tasked the National Library with building a sovereign AI (LLM) as the library has the single largest digital collection of Norwegian books, newspapers, web pages and so forth in the country. Like many state libraries it is entitled to receive copies of every published book and broadcasted content. Its legal deposit mandate in this area extended beyond books, as it was duty-bound to collect and preserve all of Norway’s cultural heritage. BANDF AD An agreement with Norwegian newspapers permitted LLM training on copyrighted content and, Husnes said: ”No private company has this.” The library was also well-placed to do this as it had been digitizing its collection since 2005 and had amassed 20 PB of unique data stored in 3-2-1 form (3 copies, 2 media types, 1 off-site), meaning some 60 PB overall. The digitization process for the raw text, sound, moving pictures, still images and web content involved much OCR scanning, and generated a lot of metadata, and also APIs for online access. The bulk of the data was deposited in a digital disk plus tape archive, a preservation system. Husnes’ task was to get this data to the LLM training system. He said the bottlemeck was not compute; it was data quality, cleaning and pipeline throughput. There were two main processing stages. First there was in-house computation, using an Nvidia DGX H200 system, a 384 core CPU cluster and multiple Huawei OceanStor Dorado all-flash arrays, totalling 2 PB of flash capacity. This is low-latency storage for the data pipelines and training preparation. BANDF AD The pipeline has data ingestion, cleaning, deduplication, format normalization, validation and preparation steps.Once the data has passed through the pipeline it’s sent to Norway’s national supercomputer, the Sigma2 Olivia system, for the actual training runs. The Olivia system is an HPE Cray Supercomputing EX system, with 448 GPUs and 64,512 CPU cores. It uses a 5.3 PB Cray ClusterStor E1000 storage system. One large problem area has been over-coming two different storage system needs. The 60 PB preservation system is optimized for durability and cost, not fast IO, and has a high read latency, being designed for infrequent access. The AI Pipeline storage is designed for high-throughput, low-latency, parallel data IO. Husnes said he learnt that nobody was talking about the problems involved in moving PB-scale datasets from an archive to, and through, an AI data pipeline system. His team had to find out how to do it themselves. The LLM training is ongoing and he finished his talk with a summary of what his team is stll learning about: Evaluation - there are no standard evaluation tools to assess a sovereign Norwegian LLM.The language has two written forms, multiple dialects and historical changes. They are building their own evaluation tool on the fly. Governance - who controls access to a sovereign LLM? Who decides what it can be used for? These are institutional and political questions with no easy answers. Orchestration - making three systems; preservation archive + on-prem AI environment + national Sigma2 supercomputer, work smoothly together is an ongoing project. BANDF AD Our takeaways here are, one, that Huawei storage is playing a serious and significant role in the European market, and two, that any country developing a sovereign, local language LLM would do well to consult with Husnes and get acquainted with what’s involved. As Husnes put it; Norway is a small country solving a problem every non-English-speaking nation will face: how do you build AI that reflects your language, your culture and your history? AI needs custodians, not just builders. huawei norway llm flash