모질라, AI 에이전트로 파이어폭스 미확인 취약점 271개 발견
모질라는 앤스로픽의 클로드(Claude) 모델을 활용한 자율형 AI(agentic AI) 파이프라인을 구축해 파이어폭스 150에서 271개의 미확인 보안 취약점을 찾아내고 수정했습니다. 기존 AI 모델들이 가짜 버그를 양산하는 문제를 해결하기 위해, 이번 시스템은 AI가 직접 테스트 케이스를 작성하고 실행하여 버그의 실제 존재 여부를 검증하는 방식을 도입했습니다. 이를 통해 최대 20년 된 고질적 취약점까지 발견되었으며, 모질라는 향후 모든 신규 코드에 이 파이프라인을 자동 적용할 계획입니다.
앤스로픽의 클로드 마이토스 프리뷰(Claude Mythos Preview)가 파이어폭스 150에서 271개의 미확인된 취약점을 찾아냈으며, 일부는 20년이나 된 것으로 확인되었습니다. 모질라의 자율형 파이프라인은 AI가 직접 테스트 케이스를 작성하고 실행하여 결과를 검증할 수 있게 하며, 향후 모든 새로운 코드 커밋을 자동으로 검사할 예정입니다.
모질라 핵크(Mozilla Hacks) 블로그의 상세한 게시물에서 세 명의 파이어폭스 개발자는 자신의 팀이 클로드 마이토스 프리뷰를 사용하여 파이어폭스 150에서 이전에 알려지지 않은 271개의 보안 취약점을 찾고 수정한 방법을 설명했습니다. 모질라는 4월에 총 423개의 보안 문제를 해결했으며, 이는 3월의 이전 기록인 단 76개와 비교하면 엄청난 증가입니다.
이러한 노력에 마이토스 프리뷰가 얼마나 중심적인 역할을 했는지 내역을 보면 명확합니다. 파이어폭스 150에서 발견된 271개의 버그 외에도, 나머지 내부 발견된 111개의 버그 중 약 1/3 역시 마이토스 실행에서 나왔습니다. 나머지 2/3는 동일한 파이프라인에 다른 모델들을 돌린 것과 퍼징(Fuzzing)과 같은 전통적인 테스트 방법 사이에서 나뉘었습니다. 외부 보고에서 나온 취약점은 총 423개 중 단 41개에 불과했습니다.
불과 몇 달 전만 해도 AI가 생성한 버그 보고서는 말은 그럴싸해 보이지만 결국 틀려서 개발자의 검증 시간만 낭비하는 쓸모없는 'AI 쓰레기(AI slop)'로 널리 무시되었습니다. 저자들에 따르면 두 가지가 이를 바꿨습니다. 더 유능해진 모델과 노이즈에서 실제 발견 사항을 걸러내는 더 나은 인프라입니다.
자율형 파이프라인과 클로드 마이토스 초기에 GPT-4와 클로드 소네 3.5(Claude Sonnet 3.5)를 사용해 읽기 전용 방식으로 코드를 분석하려던 시도는 너무 많은 오탐지(False Positives) 때문에 실패했습니다. 모질라에 따르면 돌파구는 자율형 시스템(Agentic Systems)에서 나왔습니다. 즉, AI가 직접 테스트 케이스를 작성하고 실행하여 의심되는 버그가 실제로 존재하는지 검증할 수 있게 된 것입니다. 이 자가 검증 단계를 통해 추측성 결과가 걸러집니다.
모질라는 클로드 오퍼스 4.6(Claude Opus 4.6)으로 수동 감독이 포함된 소규모 실행을 시작했으며, 이후 각 파일을 병렬로 확인하는 여러 가상 머신으로 프로세스를 확장했습니다. 팀은 이를 중심으로 보고서의 중복을 제거하고, 발견 사항의 우선순위를 지정하며, 릴리스에 이르기까지 수정 사항을 추적하는 파이프라인을 구축했습니다.
앤스로픽의 프론티어 레드팀(Frontier Red Team)은 2월에 모질라에게 초기 취약점 배치를 보고했습니다. 이 협력은 모질라가 현재 선보이고 있는 파이프라인으로 직접 이어졌습니다. 발견 사항의 신뢰성을 뒷받침하기 위해 모질라는 평소보다 일찍 일부 버그 보고서를 공개했습니다. 그중에는 양식 설명에 사용되는 HTML 레이블 요소의 15년 된 버그, XML 도구인 XSLT의 20년 된 버그, 그리고 웹사이트를 시스템의 나머지 부분과 격리하는 보안 메커니즘인 샌드박스를 탈출하는 여러 가지 방법이 포함되었습니다.
한 가지 예로, 65,535개 이상의 행이 있는 HTML 테이블은 내부 카운터의 오버플로우를 유발했습니다. 심지어 서드파티 라이브러리를 위한 모질라의 추가 샌드박스인 RLBox도 우회되었습니다.
기존 방어막이 그 가치를 증명하다 모델이 하지 못한 일도 마찬가지로 유익한 것으로 판명되었습니다. 여러 공격 시도는 공격자가 이전에 샌드박스를 탈출하는 데 사용했던 프로토타입 오염(Prototype Pollution)이라는 기술을 표적으로 삼았습니다. 이러한 시도들은 모질라가 수년 전에 내렸던 아키텍처 결정으로 인해 실패했습니다. 개발자들에게 기존 방어막이 여전히 유효하다는 직접적인 증거를 갖는 것은 새로운 취약점을 찾는 것만큼이나 가치 있었습니다.