메뉴
HN
Hacker News 54일 전

AI 코딩 에이전트 웹 문서 읽기 벤치마크

IMP
8/10
핵심 요약

Claude Code, Cursor, GitHub Copilot 등 AI 코딩 에이전트가 웹 콘텐츠를 얼마나 정확하게 읽고 이해하는지 평가하는 새로운 벤치마크입니다. 텍스트 잘림, CSS 노이즈, 렌더링 오류 등 에이전트들이 직면하는 10가지 주요 실패 모드를 캐나리 토큰(Canary token) 방식을 통해 체계적으로 진단합니다. 이 테스트는 개발자들이 자신이 사용하는 AI 도구의 한계를 파악하고, 향후 문서 최적화 방향을 결정하는 데 핵심적인 지표를 제공합니다.

번역된 본문

에이전트 리딩 테스트 (Agent Reading Test) 에이전트 리딩 테스트는 AI 코딩 에이전트가 웹 콘텐츠를 얼마나 잘 읽어내는지 테스트하는 벤치마크입니다. 에이전트를 이 테스트로 향하게 하여 점수를 얻고, 플랫폼 간의 성능을 비교해 보세요.

무엇을 테스트하나요? AI 코딩 에이전트(Claude Code, Cursor, GitHub Copilot 등)는 작업 프로세스의 일환으로 기술 문서 웹사이트를 읽습니다. 하지만 대부분의 에이전트는 조용한 실패(Silent failure) 모드에 직면합니다. 콘텐츠가 잘리거나, CSS가 실제 텍스트를 묻어버리거나, 클라이언트 사이드 렌더링이 빈 껍데기만 전달하거나, 탭 콘텐츠가 직렬화되어 벽처럼 긴 텍스트가 되어 첫 번째 항목만 보이는 식입니다. 이 벤치마크는 바로 이러한 실패 모드를 표면화합니다.

각 테스트 페이지는 '에이전트 친화적 문서 사양(Agent-Friendly Documentation Spec)'에 문서화된 특정 문제를 중심으로 설계되었습니다. 페이지 내 전략적 위치에는 캐나리 토큰(Canary tokens)이 포함되어 있습니다. 하지만 에이전트에게 토큰을 직접 찾게 하여(이는 관련성 필터를 속이는 결과를 낳습니다) 의도를 왜곡하는 대신, 테스트는 에이전트에게 현실적인 문서 작업을 부여합니다. 에이전트가 모든 작업을 완료한 후에야 캐나리 토큰의 존재를 알게 되며, 자신이 마주쳤던 토큰들을 보고하게 됩니다. 최종적으로 결과를 채점 양식에 붙여넣기만 하면 됩니다.

작동 방식

  • 에이전트를 시작 페이지로 향하게 하세요. 에이전트에 URL(agentreadingtest.com/start/)을 제공하고 지시를 따르라고 명령합니다. 직접 https://agentreadingtest.com/start/ 에 접속해 지시를 따를 수도 있습니다.
  • 에이전트가 10개의 문서 작업을 완료합니다. 각 작업은 특정 실패 모드를 겨냥한 페이지를 읽어야 합니다. 이 단계에서 에이전트는 캐나리 토큰의 존재를 모릅니다.
  • 에이전트가 결과 페이지를 방문합니다. 모든 작업을 완료한 후에야 에이전트는 캐나리 토큰에 대해 알게 되며, 자신이 본 토큰들을 보고합니다.
  • 결과를 채점 양식에 붙여넣습니다. 에이전트가 쉼표로 구분된 캐나리 토큰 목록을 제공하면, 이를 채점 양식에 붙여넣어 에이전트의 파이프라인이 어디에서 콘텐츠를 제대로 전달했고 어디에서 누락했는지에 대한 상세한 분석 결과를 얻습니다.

테스트 구성

  1. 텍스트 잘림 (Truncation): 캐나리 토큰이 1만, 4만, 7.5만, 10만, 13만 자 위치에 있는 15만 자 길이의 페이지입니다. 에이전트의 텍스트 잘림 한계가 정확히 어디서 시작되는지 매핑합니다.
  2. 노이즈 매장 (Boilerplate Burial): 실제 콘텐츠 앞에 8만 자의 인라인 CSS가 있는 테스트입니다. 에이전트가 CSS 노이즈를 실제 문서와 분리해 내는지 평가합니다.
  3. SPA 쉘 (SPA Shell): 클라이언트 사이드 렌더링 페이지입니다. 콘텐츠는 JavaScript가 실행된 후에만 나타납니다. 대부분의 에이전트는 빈 껍데기만 보게 됩니다.
  4. 탭 콘텐츠 (Tabbed Content): 탭 형태로 8개의 언어 변형이 있습니다. 1, 4, 8번 탭에 캐나리 토큰이 있습니다. 에이전트가 직렬화된 탭 콘텐츠를 어디까지 읽어내는지 테스트합니다.
  5. 소프트 404 (Soft 404): HTTP 200 상태 코드와 함께 '페이지를 찾을 수 없음' 메시지를 반환합니다. 에이전트가 이를 오류 페이지로 인식하는지 테스트합니다.
  6. 깨진 코드 펜스 (Broken Code Fence): 닫히지 않은 마크다운 코드 펜스가 있는 테스트입니다. 이후의 모든 내용이 '코드'로 처리됩니다. 에이전트의 마크다운 파싱 인식 능력을 평가합니다.
  7. 콘텐츠 협상 (Content Negotiation): HTML 버전과 마크다운 버전에 각각 다른 캐나리 토큰이 있습니다. 에이전트가 더 나은 포맷을 요청하는지 평가합니다.
  8. 크로스 호스트 리다이렉트 (Cross-Host Redirect): 다른 호스트 이름으로의 301 리다이렉트입니다. 대부분의 에이전트는 보안 조치로 인해 이를 따르지 않습니다. 캐나리 토큰은 리다이렉트 대상에 있습니다.
  9. 헤더 품질 (Header Quality): 세 개의 클라우드 플랫폼에 대해 'Step 1/2/3' 헤더가 동일하게 제공됩니다. 에이전트가 각 섹션을 정확히 구분할 수 있는지 평가합니다.
  10. 콘텐츠 시작점 (Content Start): 실제 콘텐츠가 50%의 탐색 UI 요소 뒤에 묻혀 있습니다. 에이전트가 사이드바 직렬화 부분을 넘어 본문을 읽어내는지 테스트합니다.

채점 기준 이 테스트의 만점은 20점입니다. 발견된 각 캐나리 토큰당 1점을 얻으며, 정성적 질문에 대한 정답에도 각각 1점을 얻습니다. 정답표(Answer key)에 전체 세부 내용이 있습니다. 현재 어떤 에이전트라도 완벽한 점수를 받기는 불가능에 가깝습니다. 테스트는 각 실패 모드가 현실적으로 최소한 일부 에이전트에게 영향을 미치도록 보정되었습니다. 현재 에이전트들의 일반적인 점수 범위는 플랫폼의 웹 페치 파이프라인에 따라 20점 만점 중 대략 14~18점입니다.

소개 에이전트 리딩 테스트는 '에이전트 친화적 문서 사양(Agent-Friendly Documentation Spec)'의 동반 프로젝트로, 이 사양은 문서 사이트가 AI 에이전트 소비자에게 얼마나 잘 서비스를 제공하는지 평가하는 8개 카테고리에 걸친 22개의 검증 항목을 정의하고 있습니다.

원문 보기
원문 보기 (영어)
Agent Reading Test A benchmark that tests how well AI coding agents can read web content. Point your agent at the test, get a score, compare across platforms. What This Tests AI coding agents (Claude Code, Cursor, GitHub Copilot, and others) read documentation websites as part of their workflows. But most agents hit silent failure modes: content gets truncated, CSS buries the real text, client-side rendering delivers empty shells, and tabbed content serializes into walls of text where only the first variant is visible. This benchmark surfaces those failure modes. Each test page is designed around a specific problem documented in the Agent-Friendly Documentation Spec . The pages embed canary tokens at strategic positions. But instead of asking agents to hunt for tokens (which games relevance filters), the test gives the agent realistic documentation tasks. Only after the agent completes all tasks does it learn about the canary tokens and report which ones it encountered. You paste the results into a scoring form. How It Works Point your agent at the start page. Give your agent the URL agentreadingtest.com/start/ and tell it to follow the instructions. Go to https://agentreadingtest.com/start/ and follow the instructions The agent completes 10 documentation tasks. Each task requires reading a page that targets a specific failure mode. The agent doesn't know about canary tokens yet. The agent visits the results page. Only after completing all tasks does the agent learn about canary tokens and report which ones it saw. Paste the results into the scoring form. The agent gives you a comma-separated list of canary tokens. Paste it into the scoring form for a detailed breakdown of what your agent's pipeline delivered and where it lost content. Score Your Results The Tests 1. Truncation 150K-char page with canary tokens at 10K, 40K, 75K, 100K, and 130K. Maps exactly where your agent's truncation limit kicks in. page-size-html, page-size-markdown 2. Boilerplate Burial 80K of inline CSS before the real content. Tests whether agents distinguish CSS noise from documentation. content-start-position 3. SPA Shell Client-side rendered page. Content only appears after JavaScript executes. Most agents see an empty shell. rendering-strategy 4. Tabbed Content 8 language variants in tabs. Canary tokens in tabs 1, 4, and 8. Tests how far into serialized tab content the agent reads. tabbed-content-serialization 5. Soft 404 Returns HTTP 200 with a "page not found" message. Tests whether the agent recognizes it as an error page. http-status-codes 6. Broken Code Fence Markdown with an unclosed code fence. Everything after it becomes "code." Tests markdown parsing awareness. markdown-code-fence-validity 7. Content Negotiation Different canary tokens in HTML vs. markdown versions. Tests whether your agent requests the better format. content-negotiation 8. Cross-Host Redirect 301 redirect to a different hostname. Most agents won't follow it (security measure). The canary is on the other side. redirect-behavior 9. Header Quality Three cloud platforms, identical "Step 1/2/3" headers. Tests whether agents can determine which section is which. section-header-quality 10. Content Start Real content buried after 50% navigation chrome. Tests whether agents read past the sidebar serialization. content-start-position Scoring The test has a maximum score of 20 points . Each canary token found earns 1 point, and correct answers to qualitative questions earn 1 point each. The answer key has the full breakdown. A perfect score is unlikely for any current agent. The tests are calibrated so that each failure mode will realistically affect at least some agents. A typical score range for current agents is probably 14-18 out of 20, depending on the platform's web fetch pipeline. About Agent Reading Test is a companion project to the Agent-Friendly Documentation Spec , which defines 22 checks across 8 categories evaluating how well documentation sites serve AI agent consumers. The spec is grounded in empirical observation of real agent workflows. This benchmark flips the perspective: instead of testing the documentation site, it tests the agent. The same failure modes apply, but here we're measuring which agents handle them gracefully and which don't. Source code: github.com/agent-ecosystem/agent-reading-test