AI 코딩 에이전트 웹 문서 읽기 벤치마크
Claude Code, Cursor, GitHub Copilot 등 AI 코딩 에이전트가 웹 콘텐츠를 얼마나 정확하게 읽고 이해하는지 평가하는 새로운 벤치마크입니다. 텍스트 잘림, CSS 노이즈, 렌더링 오류 등 에이전트들이 직면하는 10가지 주요 실패 모드를 캐나리 토큰(Canary token) 방식을 통해 체계적으로 진단합니다. 이 테스트는 개발자들이 자신이 사용하는 AI 도구의 한계를 파악하고, 향후 문서 최적화 방향을 결정하는 데 핵심적인 지표를 제공합니다.
에이전트 리딩 테스트 (Agent Reading Test) 에이전트 리딩 테스트는 AI 코딩 에이전트가 웹 콘텐츠를 얼마나 잘 읽어내는지 테스트하는 벤치마크입니다. 에이전트를 이 테스트로 향하게 하여 점수를 얻고, 플랫폼 간의 성능을 비교해 보세요.
무엇을 테스트하나요? AI 코딩 에이전트(Claude Code, Cursor, GitHub Copilot 등)는 작업 프로세스의 일환으로 기술 문서 웹사이트를 읽습니다. 하지만 대부분의 에이전트는 조용한 실패(Silent failure) 모드에 직면합니다. 콘텐츠가 잘리거나, CSS가 실제 텍스트를 묻어버리거나, 클라이언트 사이드 렌더링이 빈 껍데기만 전달하거나, 탭 콘텐츠가 직렬화되어 벽처럼 긴 텍스트가 되어 첫 번째 항목만 보이는 식입니다. 이 벤치마크는 바로 이러한 실패 모드를 표면화합니다.
각 테스트 페이지는 '에이전트 친화적 문서 사양(Agent-Friendly Documentation Spec)'에 문서화된 특정 문제를 중심으로 설계되었습니다. 페이지 내 전략적 위치에는 캐나리 토큰(Canary tokens)이 포함되어 있습니다. 하지만 에이전트에게 토큰을 직접 찾게 하여(이는 관련성 필터를 속이는 결과를 낳습니다) 의도를 왜곡하는 대신, 테스트는 에이전트에게 현실적인 문서 작업을 부여합니다. 에이전트가 모든 작업을 완료한 후에야 캐나리 토큰의 존재를 알게 되며, 자신이 마주쳤던 토큰들을 보고하게 됩니다. 최종적으로 결과를 채점 양식에 붙여넣기만 하면 됩니다.
작동 방식
- 에이전트를 시작 페이지로 향하게 하세요. 에이전트에 URL(agentreadingtest.com/start/)을 제공하고 지시를 따르라고 명령합니다. 직접 https://agentreadingtest.com/start/ 에 접속해 지시를 따를 수도 있습니다.
- 에이전트가 10개의 문서 작업을 완료합니다. 각 작업은 특정 실패 모드를 겨냥한 페이지를 읽어야 합니다. 이 단계에서 에이전트는 캐나리 토큰의 존재를 모릅니다.
- 에이전트가 결과 페이지를 방문합니다. 모든 작업을 완료한 후에야 에이전트는 캐나리 토큰에 대해 알게 되며, 자신이 본 토큰들을 보고합니다.
- 결과를 채점 양식에 붙여넣습니다. 에이전트가 쉼표로 구분된 캐나리 토큰 목록을 제공하면, 이를 채점 양식에 붙여넣어 에이전트의 파이프라인이 어디에서 콘텐츠를 제대로 전달했고 어디에서 누락했는지에 대한 상세한 분석 결과를 얻습니다.
테스트 구성
- 텍스트 잘림 (Truncation): 캐나리 토큰이 1만, 4만, 7.5만, 10만, 13만 자 위치에 있는 15만 자 길이의 페이지입니다. 에이전트의 텍스트 잘림 한계가 정확히 어디서 시작되는지 매핑합니다.
- 노이즈 매장 (Boilerplate Burial): 실제 콘텐츠 앞에 8만 자의 인라인 CSS가 있는 테스트입니다. 에이전트가 CSS 노이즈를 실제 문서와 분리해 내는지 평가합니다.
- SPA 쉘 (SPA Shell): 클라이언트 사이드 렌더링 페이지입니다. 콘텐츠는 JavaScript가 실행된 후에만 나타납니다. 대부분의 에이전트는 빈 껍데기만 보게 됩니다.
- 탭 콘텐츠 (Tabbed Content): 탭 형태로 8개의 언어 변형이 있습니다. 1, 4, 8번 탭에 캐나리 토큰이 있습니다. 에이전트가 직렬화된 탭 콘텐츠를 어디까지 읽어내는지 테스트합니다.
- 소프트 404 (Soft 404): HTTP 200 상태 코드와 함께 '페이지를 찾을 수 없음' 메시지를 반환합니다. 에이전트가 이를 오류 페이지로 인식하는지 테스트합니다.
- 깨진 코드 펜스 (Broken Code Fence): 닫히지 않은 마크다운 코드 펜스가 있는 테스트입니다. 이후의 모든 내용이 '코드'로 처리됩니다. 에이전트의 마크다운 파싱 인식 능력을 평가합니다.
- 콘텐츠 협상 (Content Negotiation): HTML 버전과 마크다운 버전에 각각 다른 캐나리 토큰이 있습니다. 에이전트가 더 나은 포맷을 요청하는지 평가합니다.
- 크로스 호스트 리다이렉트 (Cross-Host Redirect): 다른 호스트 이름으로의 301 리다이렉트입니다. 대부분의 에이전트는 보안 조치로 인해 이를 따르지 않습니다. 캐나리 토큰은 리다이렉트 대상에 있습니다.
- 헤더 품질 (Header Quality): 세 개의 클라우드 플랫폼에 대해 'Step 1/2/3' 헤더가 동일하게 제공됩니다. 에이전트가 각 섹션을 정확히 구분할 수 있는지 평가합니다.
- 콘텐츠 시작점 (Content Start): 실제 콘텐츠가 50%의 탐색 UI 요소 뒤에 묻혀 있습니다. 에이전트가 사이드바 직렬화 부분을 넘어 본문을 읽어내는지 테스트합니다.
채점 기준 이 테스트의 만점은 20점입니다. 발견된 각 캐나리 토큰당 1점을 얻으며, 정성적 질문에 대한 정답에도 각각 1점을 얻습니다. 정답표(Answer key)에 전체 세부 내용이 있습니다. 현재 어떤 에이전트라도 완벽한 점수를 받기는 불가능에 가깝습니다. 테스트는 각 실패 모드가 현실적으로 최소한 일부 에이전트에게 영향을 미치도록 보정되었습니다. 현재 에이전트들의 일반적인 점수 범위는 플랫폼의 웹 페치 파이프라인에 따라 20점 만점 중 대략 14~18점입니다.
소개 에이전트 리딩 테스트는 '에이전트 친화적 문서 사양(Agent-Friendly Documentation Spec)'의 동반 프로젝트로, 이 사양은 문서 사이트가 AI 에이전트 소비자에게 얼마나 잘 서비스를 제공하는지 평가하는 8개 카테고리에 걸친 22개의 검증 항목을 정의하고 있습니다.