GPT-2에서 클로드 미토스까지: '출시엔 위험'했던 AI의 귀환
과거 OpenAI가 GPT-2의 전면 공개를 미뤘던 논쟁이 Anthropic의 신규 모델 'Claude Mythos'를 통해 다시금 주목받고 있습니다. 이번에는 가드레일과 안전성 평가를 거친 후 공개하는 업계의 기존 방식을 넘어, 보안 취약점 발견에 특화된 모델을 통제된 환경에서만 방어적 목적으로 배포하는 'Project Glasswing'이 소개되었습니다. 글로벌 테크 기업들이 연합에 참여하며, 단순히 모델을 보류하는 것이 아닌 철저히 통제하며 활용하는 새로운 안전 기준을 제시하고 있습니다.
7년 전, OpenAI는 자사의 언어모델 GPT-2를 '공개하기엔 너무 위험하다'고 선언했습니다. 당시 업계는 이를 콧웃음 쳤습니다. 이제 Anthropic이 'Claude Mythos Preview(클로드 미토스 프리뷰)'를 통해 같은 행보를 반복하고 있지만, 이번에는 확실한 증거가 존재합니다. 바로 인간이 검토하기조차 벅찬 수천 개의 운영체제 및 브라우저 취약점을 AI가 발견해냈다는 것입니다.
2019년 2월, OpenAI는 너무나도 정교하게 가짜 뉴스를 생성할 수 있는 언어모델을 공개하지 않기로 결정하면서 대중의 이목을 끌었습니다. AI 연구 커뮤니티의 일부는 이를 현명한 예방 조치로 평가했지만, 다른 일부는 단순한 홍보(PR) 수단으로 일축했습니다. OpenAI는 놀라운 텍스트 생성 능력과 악용에 대한 우려를 이유로 15억 파라미터 규모의 전체 모델 공개를 보류했습니다.
최초 발표 6개월 후, OpenAI의 정책팀은 이 결정의 영향에 대한 보고서를 발표했습니다. 당시 5월, OpenAI는 입장을 수정해 점진적으로 모델의 크기를 키워 공개하는 '단계적 출시(Staged Release)'를 시작했습니다. 우려했던 부작용이 실제로 발생하지 않았고, 무엇보다 대체 모델들이 이미 시장에 나와 있었던 탓에 전체 버전의 GPT-2는 2019년 11월 최종 공개되었습니다.
당시 OpenAI에서 커뮤니케이션과 정책의 균형을 맞췄던 인물은 정책 책임자였던 잭 클락(Jack Clark)이었습니다. 2019년 6월, 클락은 미국 의회 증인으로 나서 텍스트 출력을 제어하는 기술은 아직 제한적이지만 과학계의 광범위한 연구를 통해 개선될 것이라고 설명했습니다. 그는 단계적 출시가 책임 있는 규범을 위한 새로운 프로토타입이라고 주장했습니다.
업계는 보류 대신 가드레일을 선택했습니다. 모델을 점진적으로 공개한다는 아이디어는 널리 퍼지지 않았습니다. 대신, 업계는 안전 문제에 대한 다른 해답을 선택했습니다. 바로 출시를 보류하는 것이 아니라, 안전하게 보호한 뒤 공개하는 방식이었습니다. 출시 전 레드팀(Red Teaming), 안전성 평가, 시스템 카드(System Card), 책임 있는 확장 정책, 버그 바운티 프로그램, 그리고 RLHF(인간 피드백 기반 강화학습) 기반의 안전 레이어가 업계의 표준 관행이 되었습니다.
GPT-3는 API를 통해 접근 가능해졌고, ChatGPT는 공개 제품으로 출시되었으며, Meta는 LLaMA 모델을 오픈소스로 공개했습니다. 그 논리는 이것이었습니다. 모델을 철저히 테스트하고 안전장치를 장착한다면, 책임감 있게 출시할 수 있다는 것입니다. 당시 엔비디아(Nvidia) 소속 딥러닝 엔지니어였던 칩 후옌(Chip Huyen)은 2019년에 이 상황을 정확히 꿰뚫어 보았습니다. "관련 기술은 매우 쉽게 복제될 수 있기 때문에 단계적 출시가 특별히 유용하다고 생각하지 않습니다. 하지만 향후 프로젝트를 위한 선례를 만든다는 점에서는 유용할 수 있습니다."
그리고 그 선례가 찾아왔습니다. 단, 누구도 예상치 못한 방식이었습니다. 모델 공개를 단순히 보류하는 것이 아니라, 출시 전 철저히 보안을 강화하는 형태로 말입니다.
잭 클락 본인도 2020년 12월 OpenAI를 떠났습니다. 몇 달 뒤, 그는 다니엘라 아모데이 및 다리오 아모데이 남매를 포함한 전직 OpenAI 직원들이 설립한 Anthropic의 공동 창립자로 다시 모습을 드러냈습니다. Anthropic은 업계의 안전성 관행을 이끄는 주요 주자가 되었습니다. 'Constitutional AI(헌법적 AI)', '책임 있는 확장 정책(Responsible Scaling Policy)', 그리고 출시 때마다 발표하는 방대한 시스템 카드는 회사의 상징이 되었습니다. 이는 주로 샘 알트만(Sam Altman) CEO의 직관과 기존 안전 접근 방식을 경시하는 태도에 동의하지 않았던 전직 OpenAI 직원들이 주도한 결과였습니다.
7년의 세월과 수많은 모델 세대가 흐른 후, Anthropic은 이제 업계가 한 번도 본 적 없는 한 걸음 더 나아간 조치를 취하고 있습니다.
Anthropic이 클로드 미토스를 비공개로 유지하며 연합체를 구성하다
구체적으로, Anthropic은 'Project Glasswing(프로젝트 글래스윙)'을 발표했습니다. 이 이니셔티브는 'Claude Mythos Preview'라는 최신 프론티어 모델을 현재로서는 방어적 사이버 보안 목적으로만 독점 배포하는 프로젝트입니다. 파트너 목록에는 테크 거인, 주요 은행, 그리고 오픈소스 재단을 아우르는 11개 기관이 포함되어 있습니다: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Micro...