검증 논란: Anthropic 신뢰에 금이 가다
해커뉴스에 올라온 이 글은 Anthropic의 보안 위협 주장이 사실상 과장된 마케팅에 불과하다고 비판합니다. 244쪽짜리 시스템 카드 문서에서 실제 보안 관련 내용은 단 7쪽에 불과했고, 구체적인 취약점 수치나 독립적인 검증 결과가 전혀 없다는 것입니다. 결론적으로 이번 발표는 실질적인 보안 성과라기보다는 규제를 장악하기 위한 얄팍한 포장에 가깝다고 지적합니다.
최근 Anthropic의 Claude Mythos Preview(클로드 미토스 프리뷰)가 가져올 위험성에 대해 점점 더 궁금해졌습니다. 그래서 시스템 카드(System Card)를 살펴봤는데, 모델이 너무 위험해서 공개할 수 없다는 주장을 담은 데에는 단 7페이지만 할애된, 효율성이 끔찍하게 낮은 244쪽짜리 문서더군요. 다운로드해야 했던 23MB짜리 PDF는 20MB의 시간과 공간 낭비나 다름없었습니다. PDF를 3MB로 압축해도 손실되는 정보는 단 하나도 없었습니다. 아마 무언가를 암시하는 것이겠죠. 스포일러를 알려드리자면, 244쪽 중 핵심이라는 7쪽 안에는 '퍼저(fuzzer)'라는 단어가 단 한 번도 등장하지 않습니다. 그건 마치 하와이 여행 브로셔 7쪽에 '해변'이라는 단어가 빠져 있는 것과 같습니다. 또한 그 7쪽에는 우리가 예상하는 약자인 CVSS, CWE, CVE가 전혀 없고, 비교를 위한 베이스라인(baseline)이나 독립적인 재현(reproduction) 결과, 혹은 '수천(thousands)'이라는 단어도 없습니다. 이 문제는 잠시 후 다시 언급하겠습니다.
이들의 대표적인 시연 문서는 '오즈의 마법사'의 결말과 같았습니다. 즉, 엄청난 실망감이었죠. 브라우저 샌드박스와 심층 방어 완화 조치가 모두 제거된 테스트 환경에서, 이미 벤더가 패치한 소프트웨어의 버그 2개를 다른 모델이 찾아낸 것을 해당 모델이 무기화했다는 내용이었습니다. Anthropic은 (엄밀히 말해) 실패했는데, 어떻게든 그 이야기가 '성공에 대한 경고'로 둔갑해 버렸습니다. 너무 어이가 없네요. Glasswing(글래스윙) 파트너 중 그 누구도 단 하나의 구체적인 취약점 발견을 확인해 주지 않았습니다. '1억 달러 규모의 방어 이니셔티브'는 실제 현금 400만 달러와 평가 대상 제품을 사용할 수 있는 1억 달러짜리 크레딧으로 이루어져 있었습니다. 90일 만에 발표될 공개 보고서는 아직 존재하지 않기 때문에 제가 너무 앞서가는 것일 수도 있습니다만, 지금까지의 모든 상황은 영화 '씨 비스트(The Sea Beast)'에서 외눈박이 늙은 선장 크로우가 해군의 화려한 신형 전함 '임페라토르'를 보고 그 본질을 꿰뚫어 보며 '임무 수행에 부적합하다'고 일갈하는 장면을 떠오르게 합니다.
소위 Anthropic의 '혁신적 도약(step change)'이라는 것은 어림셈 오차에 불과해 보입니다. 지금까지의 위협 서사는 철저히 마케팅일 뿐, 실질적인 결과물은 전혀 없어 보입니다. 글래스윙 컨소시엄은 규제 장악(regulatory capture)이 억제라는 옷을 대충 걸친 형태입니다. Anthropic에 대한 신뢰가 크게 추락한 12가지 영역을 하나씩 짚어보겠으니 안전벨트를 매주시기 바랍니다.
- 주장 vs 실제 문서 언론은 마치 우리가 놀라워해야 할 것처럼 이렇게 보도하고 있습니다. "모든 주요 운영 체제와 모든 주요 웹 브라우저에 있는 수천 개의 제로데이(Zero-day) 취약점." 아, 그건 그냥 흔한 화요일 같군요(역주: 일상적인 일이라는 뜻). 하지만 진지하게 받아들여 봅시다. 244쪽짜리 시스템 카드에서 우리가 얻은 것은 무엇일까요? '수천'이라는 단어는 정렬 평가 중 검토한 기록을 언급하며 단 한 번 사용되었습니다. 244쪽 중 단 한 번입니다. 곱씹어 보십시오. 이 단어는 취약점을 설명하는 데 결코 사용되지 않았습니다. 사이버 보안 섹션(섹션 3, 47~53쪽)에는 제로데이 개수에 대한 내용이 전혀 없습니다. CVE 목록도, CVSS 분포도, 심각도 구분도, 공개 타임라인도, 벤더가 확인한 새로운 취약점 테이블도, 오탐지율도 없는데, 왜 취약점에 대해 이런 주장으로 우리를 속이는 것입니까? '수천'이라는 숫자는 red.anthropic.com의 런칭 블로그 게시물과 Project Glasswing 발표에만 존재합니다. 동료 평가를 거쳐야 하는 244쪽짜리 실제 기술 문서는 이를 구체화하기를 거부하고 있습니다. 엄청난 양의 취약점을 주장하면서도 이를 정량화하지 않는다면, 그것은 신뢰에 있어 절대 안 될 일입니다.
연구 조직은 커뮤니케이션 조직이 헤드라인에 높인 숫자에 서명하지 않았습니다. 이건 정말 큰 문제입니다. 그 비율(역주: 부풀려진 헤드라인과 실제 내용의 비율)만으로도 커피를 키보드에 다 쏟아붓고 싶군요. 공개적인 서사 전부가 보안 역량인 모델 릴리스를 위해, 무려 250쪽 가까운 문서에서 단 7쪽의 보안 내용을 찾아내게 만드는 사람이 누구입니까? 아직도 부활절인가요? 토끼가 숨겨놓은 달걀을 찾아다니라고 우리가 사냥을 해야 합니까? 저는 부활절이 싫습니다. 왜 거짓말로 점철된 휴일이 있어야 합니까? 이것이 정말로 인터넷이 탄생한 이후 가장 중대한 사이버 보안의 발전이었다면 그 비율은 반대여야 했을 것이고, 저는 어느 방향으로 가든 달걀을 밟고 다녀야 했을 겁니다. 대신 실제 문서는 너무 공허해서, 읽을 만한 가치가 있는 것을 찾으려 애쓰는 제 알레르기를 유발합니다: 정렬, 모델 복지, 채팅 인터페이스 인상, 그리고 벤치마크 표들뿐이죠. 보안에 관한 이야기는 전혀...