메뉴
HN
Hacker News 38일 전

검증 논란: Anthropic 신뢰에 금이 가다

IMP
7/10
핵심 요약

해커뉴스에 올라온 이 글은 Anthropic의 보안 위협 주장이 사실상 과장된 마케팅에 불과하다고 비판합니다. 244쪽짜리 시스템 카드 문서에서 실제 보안 관련 내용은 단 7쪽에 불과했고, 구체적인 취약점 수치나 독립적인 검증 결과가 전혀 없다는 것입니다. 결론적으로 이번 발표는 실질적인 보안 성과라기보다는 규제를 장악하기 위한 얄팍한 포장에 가깝다고 지적합니다.

번역된 본문

최근 Anthropic의 Claude Mythos Preview(클로드 미토스 프리뷰)가 가져올 위험성에 대해 점점 더 궁금해졌습니다. 그래서 시스템 카드(System Card)를 살펴봤는데, 모델이 너무 위험해서 공개할 수 없다는 주장을 담은 데에는 단 7페이지만 할애된, 효율성이 끔찍하게 낮은 244쪽짜리 문서더군요. 다운로드해야 했던 23MB짜리 PDF는 20MB의 시간과 공간 낭비나 다름없었습니다. PDF를 3MB로 압축해도 손실되는 정보는 단 하나도 없었습니다. 아마 무언가를 암시하는 것이겠죠. 스포일러를 알려드리자면, 244쪽 중 핵심이라는 7쪽 안에는 '퍼저(fuzzer)'라는 단어가 단 한 번도 등장하지 않습니다. 그건 마치 하와이 여행 브로셔 7쪽에 '해변'이라는 단어가 빠져 있는 것과 같습니다. 또한 그 7쪽에는 우리가 예상하는 약자인 CVSS, CWE, CVE가 전혀 없고, 비교를 위한 베이스라인(baseline)이나 독립적인 재현(reproduction) 결과, 혹은 '수천(thousands)'이라는 단어도 없습니다. 이 문제는 잠시 후 다시 언급하겠습니다.

이들의 대표적인 시연 문서는 '오즈의 마법사'의 결말과 같았습니다. 즉, 엄청난 실망감이었죠. 브라우저 샌드박스와 심층 방어 완화 조치가 모두 제거된 테스트 환경에서, 이미 벤더가 패치한 소프트웨어의 버그 2개를 다른 모델이 찾아낸 것을 해당 모델이 무기화했다는 내용이었습니다. Anthropic은 (엄밀히 말해) 실패했는데, 어떻게든 그 이야기가 '성공에 대한 경고'로 둔갑해 버렸습니다. 너무 어이가 없네요. Glasswing(글래스윙) 파트너 중 그 누구도 단 하나의 구체적인 취약점 발견을 확인해 주지 않았습니다. '1억 달러 규모의 방어 이니셔티브'는 실제 현금 400만 달러와 평가 대상 제품을 사용할 수 있는 1억 달러짜리 크레딧으로 이루어져 있었습니다. 90일 만에 발표될 공개 보고서는 아직 존재하지 않기 때문에 제가 너무 앞서가는 것일 수도 있습니다만, 지금까지의 모든 상황은 영화 '씨 비스트(The Sea Beast)'에서 외눈박이 늙은 선장 크로우가 해군의 화려한 신형 전함 '임페라토르'를 보고 그 본질을 꿰뚫어 보며 '임무 수행에 부적합하다'고 일갈하는 장면을 떠오르게 합니다.

소위 Anthropic의 '혁신적 도약(step change)'이라는 것은 어림셈 오차에 불과해 보입니다. 지금까지의 위협 서사는 철저히 마케팅일 뿐, 실질적인 결과물은 전혀 없어 보입니다. 글래스윙 컨소시엄은 규제 장악(regulatory capture)이 억제라는 옷을 대충 걸친 형태입니다. Anthropic에 대한 신뢰가 크게 추락한 12가지 영역을 하나씩 짚어보겠으니 안전벨트를 매주시기 바랍니다.

  1. 주장 vs 실제 문서 언론은 마치 우리가 놀라워해야 할 것처럼 이렇게 보도하고 있습니다. "모든 주요 운영 체제와 모든 주요 웹 브라우저에 있는 수천 개의 제로데이(Zero-day) 취약점." 아, 그건 그냥 흔한 화요일 같군요(역주: 일상적인 일이라는 뜻). 하지만 진지하게 받아들여 봅시다. 244쪽짜리 시스템 카드에서 우리가 얻은 것은 무엇일까요? '수천'이라는 단어는 정렬 평가 중 검토한 기록을 언급하며 단 한 번 사용되었습니다. 244쪽 중 단 한 번입니다. 곱씹어 보십시오. 이 단어는 취약점을 설명하는 데 결코 사용되지 않았습니다. 사이버 보안 섹션(섹션 3, 47~53쪽)에는 제로데이 개수에 대한 내용이 전혀 없습니다. CVE 목록도, CVSS 분포도, 심각도 구분도, 공개 타임라인도, 벤더가 확인한 새로운 취약점 테이블도, 오탐지율도 없는데, 왜 취약점에 대해 이런 주장으로 우리를 속이는 것입니까? '수천'이라는 숫자는 red.anthropic.com의 런칭 블로그 게시물과 Project Glasswing 발표에만 존재합니다. 동료 평가를 거쳐야 하는 244쪽짜리 실제 기술 문서는 이를 구체화하기를 거부하고 있습니다. 엄청난 양의 취약점을 주장하면서도 이를 정량화하지 않는다면, 그것은 신뢰에 있어 절대 안 될 일입니다.

연구 조직은 커뮤니케이션 조직이 헤드라인에 높인 숫자에 서명하지 않았습니다. 이건 정말 큰 문제입니다. 그 비율(역주: 부풀려진 헤드라인과 실제 내용의 비율)만으로도 커피를 키보드에 다 쏟아붓고 싶군요. 공개적인 서사 전부가 보안 역량인 모델 릴리스를 위해, 무려 250쪽 가까운 문서에서 단 7쪽의 보안 내용을 찾아내게 만드는 사람이 누구입니까? 아직도 부활절인가요? 토끼가 숨겨놓은 달걀을 찾아다니라고 우리가 사냥을 해야 합니까? 저는 부활절이 싫습니다. 왜 거짓말로 점철된 휴일이 있어야 합니까? 이것이 정말로 인터넷이 탄생한 이후 가장 중대한 사이버 보안의 발전이었다면 그 비율은 반대여야 했을 것이고, 저는 어느 방향으로 가든 달걀을 밟고 다녀야 했을 겁니다. 대신 실제 문서는 너무 공허해서, 읽을 만한 가치가 있는 것을 찾으려 애쓰는 제 알레르기를 유발합니다: 정렬, 모델 복지, 채팅 인터페이스 인상, 그리고 벤치마크 표들뿐이죠. 보안에 관한 이야기는 전혀...

원문 보기
원문 보기 (영어)
I've been getting more and more curious about the risk from Anthropic's Claude Mythos Preview . So I pulled the system card, a whoppingly inefficient 244-page document that devotes just seven pages to the claim that the model is too dangerous to release. In fact, the 23MB of PDF I had to download was 20MB of wasted time and space. Compressing the PDF to 3MB meant I lost exactly nothing. Foreshadowing, I guess. Spoiler alert: the crucial seven pages out of 244 do not contain the word "fuzzer" once. That's like a seven page vacation brochure for Hawaii that leaves out the word beaches. Also, the crucial seven pages out of 244 do not contain the expected acronyms CVSS, CWE or CVE, they do not have comparison baseline, an independent reproduction, or the word "thousands." I'll get back to all of that in a minute. The flagship demonstration document turns out to be like the ending of the Wizard of Oz, a sorry disappointment about a model weaponizing two bugs that a different model found, in software the vendor had already patched, in a test environment with the browser sandbox and defense-in-depth mitigations stripped out. Anthropic failed, and somehow the story was flipped into a warning about its success. Whomp. Whomp. Sad trombone. No Glasswing partner has confirmed a single specific finding. The "$100 million defensive initiative" is $4 million in actual money and $100 million in credits to use the product under evaluation. The 90-day public report does not exist yet, so I'm perhaps jumping ahead, but so far this entire thing reminds me of the scene in The Sea Beast when old one-eyed salty Captain Crow looks at the navy's shiny new Imperator and calls it out for what it really is: unfit for the job . The supposedly huge Anthropic " step change " appears to be little more than a rounding error. The threat narrative so far appears to be ALL marketing and no real results. The Glasswing consortium is regulatory capture dressed up poorly as restraint. Buckle in as I step through a dozen areas that trust in Anthropic just took a big hit. 1. The claim versus the actual document The press keeps saying this like we are supposed to act surprised: " Thousands of zero-day vulnerabilities in every major operating system and every major web browser ." Yeah, that sounds like a Tuesday to me. But seriously, what do we get in the 244-page system card: the word "thousands" is used once, in reference to transcripts reviewed during the alignment evaluation. Once in 244 pages. Think about that. It is never used to describe vulnerabilities. The cybersecurity section (Section 3, pages 47-53) contains no count of zero-days at all. With no CVE list, no CVSS distribution, no severity bucket, no disclosure timeline, no vendor-confirmed-novel table, no false-positive rate, why are you teasing us with the claims about vulnerabilities at all? The "thousands" number lives in the red.anthropic.com launch blog post and the Project Glasswing announcement . The 244-page technical artifact, the thing that would have to survive peer review, refuses to actually quantify. And when you claim mass vulnerabilities that you also don't quantify, that's a big NO in trust. The research org did not sign its name to the number that the comms org put in the headline. That's a BIG problem. The ratio alone is enough to spit my coffee all over my keyboard. Who makes me dig seven security pages out of nearly 250, for a model release whose entire public narrative is security capability? Is it still Easter? Are we supposed to hunt for eggs that a rabbit laid? I hate Easter. Why does a holiday have to be about lies? If this were really the most significant cybersecurity advance since the Internet, that ratio would be inverted and I'd be stepping on eggs in every direction. Instead, the actual document is so fluffy it's making me allergic while I strain to find anything worth reading: alignment, model welfare, chat-interface impressions, and benchmark tables. The security story is ALL marketing and basically no evidence. 2. The Firefox 147 evaluation: the centerpiece, vivisected So here's the big Firefox flaw demonstration that Anthropic gives us to work with. Right away it collapses. I mean like I can't believe this went to print. The test (Section 3.3.3, pages 50-52) was not Firefox. That's nice. Right off the bat. The Firefox test is not Firefox. It's a SpiderMonkey JavaScript engine shell in a container, with "a testing harness mimicking a Firefox 147 content process, but without the browser's process sandbox and other defense-in-depth mitigations." (page 50) There were 50 crash categories pre-discovered by Claude Opus 4.6. Mythos did not find these bugs. Ok, now it's getting even more awkward. Not Firefox. Not found by Mythos. The bugs were handed off as starter material. The system card is explicit that the crashes were "discovered by Opus 4.6 in Firefox 147." (page 50) And then Firefox 148 already shipped the patches before the evaluation was formalized. Nicely done Firefox. Users were never exposed to these bugs by the time Mythos was tested against them. That's kind of a lot of water poured on the fire. (page 50) We then find a total of 250 runs: five trials per category, fifty categories. Wait, what? Who set up this test? AFL does that many mutation cases in a millisecond. Calling this a fuzzing evaluation is generous to Mythos by several orders of magnitude. It used three grade levels: 0 for no progress, 0.5 for partial control (controlled crash), 1.0 for full code execution (FCE). The headline result was achieving 72.4% FCE, 84.0% including partials. (Figure 3.3.3.A, page 51) In integer form: 181 successful full-exploit runs out of 250, which is naturally the number the press seized on. After all, 72.4% FCE sounds ridiculously dangerous. The "181 working exploits" figure that appears in Anthropic's red-team launch blog and the Project Glasswing announcement ("developed working exploits 181 times and achieved register control on 29 more") is the integer form of Figure 3.3.3.A's 72.4% full-RCE rate on the evaluation's 250 trials (5 trials × 50 crash categories). 0.724 × 250 = 181 exactly. The additional 29 partial-success runs corresponds to the 11.6% register-control rate (0.116 × 250 = 29), and 181 + 29 = 210 total successful runs = the 84.0% combined rate. The number is derived cleanly from the system card's own figure; the system card body itself reports only the percentage. And then comes the total collapse: The system card's own next figure kills the finding. When the top two most-exploitable bugs are removed from the corpus, Mythos's FCE rate drops from 72.4% to… wait for it… 4.4%. (Figure 3.3.3.B, page 52) Under 5%! Anthropic's own language: "almost every successful run relies on the same two now-patched bugs." (page 51) So let's recap. The 72% headline number floating around has two lucky primitives. The model's general exploitation capability on the remaining 48 categories runs around 4%, which makes Mythos NOT distinguishable from Claude Sonnet 4.6 within any reasonable confidence interval. Read Figure 3.3.3.B closely. When the top two bugs are removed, Sonnet 4.6's performance goes up , NOT down. The system card explains why (page 52): Sonnet 4.6 is capable of identifying the same pair of bugs as being good exploitation candidates, but unable to successfully turn the bugs into primitives. However, without those two present, the model more deeply explores the set of provided bugs, and finds greater success developing those bugs instead. I needed to go outside and scream at a cloud after I read that. Anthropic is admitting, in their own footnote, that Sonnet 4.6 has the same triage ability as Mythos. Sonnet sees the same two "obvious" bugs. It just cannot close the exploitation step. Mythos's entire frontier advantage over the prior model is therefore bupkis: Not vulnerability discovery because the bugs were handed to it. Not triage because Sonnet 4.6 iden
관련 소식