메뉴
HN
Hacker News 49일 전

앤스로픽, 캐시 TTL을 1시간에서 5분으로 은밀히 축소

IMP
8/10
핵심 요약

AI 개발자 커뮤니티에서 앤스로픽(Anthropic)이 3월 초 서버 측 업데이트를 통해 '클로드 코드(Claude Code)'의 프롬프트 캐시 유지 시간(TTL)을 기존 1시간에서 5분으로 임의로 축소했다는 의혹이 제기되었습니다. 이로 인해 캐시 재사용률이 급감하면서 사용자들의 API 사용량과 비용이 20~32%나 폭증하는 등 심각한 비용 문제가 발생하고 있습니다. 사전 공지나 클라이언트 업데이트 없이 서버 측에서 진행된 이 변경은 개발자들에게 직접적인 금전적 피해를 주고 있어 큰 논란이 예상됩니다.

번역된 본문

공개 알림: 알림 설정을 변경하려면 로그인해야 합니다. 포크(Fork) 18.8k | 스타(Star) 113k

이슈: 2026년 3월 초순을 기준으로 캐시 TTL(Cache TTL)이 1시간(1h)에서 5분(5m)으로 임의로 퇴행(regressed)하여 사용량 할당량 및 비용이 급증했습니다. #46829 새 이슈 열기 | 링크 복사

라벨: api:anthropic, area:cost, 버그(bug: 작동하지 않는 문제), 재현 단계 있음(has repro: 상세한 재현 단계 포함)

설명: 작성자: seanGSISG | 개시일: 2026년 4월 12일

요약: 2026년 1월 11일부터 4월 11일까지의 원본 클로드 코드(Claude Code) 세션 JSONL 파일을 분석한 결과, 앤스로픽이 2026년 3월 초에 프롬프트 캐시 TTL 기본값을 1시간에서 5분으로 조용히 변경한 것으로 확인되었습니다.

이 변경 이전에 클로드 코드는 1시간 TTL 캐시 쓰기를 적용받고 있었으며, 이는 원래 의도된 기본값이었을 것으로 추정됩니다. 5분 TTL로의 회귀는 캐시 생성 비용을 20~32% 증가시켰으며, 이전에 한도에 도달한 적이 없던 구독 사용자들의 사용량 할당량(Quota) 소모가 눈에 띄게 급증하는 결과를 낳았습니다. 이는 이슈 #45756에 설명된 동작과 직접적으로 관련이 있는 것으로 보입니다.

데이터: 데이터는 2026년 1월 11일부터 4월 11일까지 두 대의 머신(Linux 워크스테이션 및 Windows 노트북, 서로 다른 계정 및 세션)에 걸쳐 총 119,866건의 API 호출을 추출하여 분석했습니다. 각 어시스턴트 메시지에는 usage.cache_creation.ephemeral_5m_input_tokensephemeral_1h_input_tokens의 세부 내역이 포함되어 있어, 호출 시 사용되는 TTL 등급(tier)을 명확하게 확인할 수 있습니다. 두 대의 독립적인 머신에서 동일한 날짜에 동일한 패턴의 변화가 나타났다는 점은 이 문제의 신뢰성을 더해줍니다.

단계별 분석(Phase breakdown):

1단계 (1월 11일 – 1월 31일) - 5분 전용 동작: ephemeral_1h가 없거나 0임 근거: API에서 1시간 등급이 아직 도입되지 않았을 가능성이 높음

2단계 (2월 1일 – 3월 5일) - 1시간 전용 동작: ephemeral_5m = 0, ephemeral_1h > 0 근거: 두 머신에서 33일 이상 연속적으로 1시간 등급만 사용됨. 거의 예외가 없었음

3단계 (3월 6일–7일) - 전환기(Transition) 동작: 처음으로 5분 토큰이 다시 등장하며 비율은 적지만 1시간 토큰도 여전히 존재함

4단계 (3월 8일 – 4월 11일) - 5분 주도 동작: 5분 토큰이 급증하여 대다수를 차지하고, 1시간 토큰은 소수로 전락하거나 완전히 사라짐

저희는 2단계가 앤스로픽의 원래 의도된 기본 동작이라고 확신합니다. 1시간 TTL은 2월 1일경 클로드 코드의 표준으로 도입되었고, 서로 다른 계정을 사용하는 두 대의 독립적인 머신에서 한 달 이상 일관되게 유지되었습니다. 1월의 모든 데이터가 5분이었던 것은 API에 1시간 TTL 등급이 도입되기 이전이었기 때문일 가능성이 가장 높습니다.

이 퇴행(regression)은 2026년 3월 6일에서 8일 사이에 시작되었습니다. 단계가 바뀌는 동안 클라이언트 측의 변경은 없었습니다. 동일한 클로드 코드 버전과 사용 패턴이 계속 유지되었습니다. TTL 등급은 앤스로픽의 서버 측에서 설정됩니다.

날짜별 TTL 데이터 (두 머신 합산, 퇴행 현상 확인):

날짜 5분(m) 생성 1시간(h) 생성 동작
2026-02-01 0.00M 1.70M 1시간 전용 ← 1시간 기본값 시작
2026-02-09 0.00M 7.95M 1시간 전용
2026-02-15 0.00M 13.61M 1시간 전용 ← 사용량이 가장 많은 날, 100% 1시간
2026-02-28 0.00M 16.15M 1시간 전용 ← 16M 토큰, 여전히 100% 1시간
2026-03-01 0.00M 0.12M 1시간 전용
2026-03-04 0.00M 8.12M 1시간 전용
2026-03-05 0.00M 6.55M 1시간 전용 ← 깔끔하게 1시간만 적용된 마지막 날
2026-03-06 0.29M 0.22M 혼합(MIXED) ← 5분 토큰이 처음으로 다시 등장
2026-03-07 4.56M 0.50M 혼합(MIXED) ← 5분 토큰 급증
2026-03-08 16.86M 3.44M 혼합(MIXED) ← 5분 토큰이 83%로 주도
2026-03-10 10.55M 0.51M 혼합(MIXED)
2026-03-15 19.47M 1.84M 혼합(MIXED)
2026-03-21 21.37M 1.70M 혼합(MIXED) ← 93%가 5분
2026-03-22 13.48M 2.85M 혼합(MIXED)

이러한 전환은 일별로 명확하게 추적됩니다. 33일 동안 온전히 1시간만 적용되던 중 3월 6일에 처음으로 5분 토큰이 다시 나타났습니다. 3월 8일이 되자 5분 토큰이 1시간 토큰을 5:1 비율로 압도했습니다. 이는 서버 측 구성 변경이 점진적으로 롤아웃되다가 3월 8일경 완료된 것과 일치하는 양상입니다.

비용 영향 (Cost impact): 공식 앤스로픽 ... (원문 생략됨)

원문 보기
원문 보기 (영어)
anthropics / claude-code Public Notifications You must be signed in to change notification settings Fork 18.8k Star 113k Cache TTL silently regressed from 1h to 5m around early March 2026, causing quota and cost inflation #46829 New issue Copy link New issue Copy link Open Open Cache TTL silently regressed from 1h to 5m around early March 2026, causing quota and cost inflation #46829 Copy link Labels api:anthropic area:cost bug Something isn't working Something isn't working has repro Has detailed reproduction steps Has detailed reproduction steps Description seanGSISG opened on Apr 12, 2026 Issue body actions Cache TTL appears to have silently regressed from 1h to 5m around early March 2026, causing significant quota and cost inflation Summary Analysis of raw Claude Code session JSONL files spanning Jan 11 – Apr 11, 2026 shows that Anthropic appears to have silently changed the prompt cache TTL default from 1 hour to 5 minutes sometime in early March 2026 . Prior to this change, Claude Code was receiving 1-hour TTL cache writes — which we believe was the intended default. The reversion to 5-minute TTL has caused a 20–32% increase in cache creation costs and a measurable spike in quota consumption for subscription users who have never previously hit their limits. This appears directly related to the behavior described in #45756 . Data Session data extracted from ~/.claude/projects/ JSONL files across two machines (Linux workstation + Windows laptop, different accounts/sessions), totaling 119,866 API calls from Jan 11 – Apr 11, 2026. Each assistant message includes a usage.cache_creation.ephemeral_5m_input_tokens / ephemeral_1h_input_tokens breakdown that makes the TTL tier per-call observable. Having two independent machines strengthens the signal — both show the same behavioral shift at the same dates. Phase breakdown Phase Dates TTL behavior Evidence 1 Jan 11 – Jan 31 5m ONLY ephemeral_1h absent/zero — likely predates 1h tier availability in the API 2 Feb 1 – Mar 5 1h ONLY ephemeral_5m = 0 , ephemeral_1h > 0 across 33+ consecutive days on both machines — near-zero exceptions 3 Mar 6–7 Transition First 5m tokens re-appear, small volumes, 1h still present 4 Mar 8 – Apr 11 5m dominant 5m tokens surge to majority; 1h becomes minority or disappears entirely We believe Phase 2 represents Anthropic's intended default behavior — 1h TTL was rolled out as the Claude Code standard around Feb 1 and held consistently for over a month across two independent machines on two different accounts. January's all-5m data most likely predates the 1h TTL tier being available in the API. The regression began around March 6–8, 2026 . No client-side changes were made between phases. The same Claude Code version and usage patterns were in place throughout. The TTL tier is set server-side by Anthropic. Day-by-day TTL data showing the regression (combined, both machines) Date | 5m-create | 1h-create | Behavior ------------|------------|------------|---------- 2026-02-01 | 0.00M | 1.70M | 1h ONLY ← 1h default begins 2026-02-09 | 0.00M | 7.95M | 1h ONLY 2026-02-15 | 0.00M | 13.61M | 1h ONLY ← heaviest day, 100% 1h 2026-02-28 | 0.00M | 16.15M | 1h ONLY ← 16M tokens, still 100% 1h 2026-03-01 | 0.00M | 0.12M | 1h ONLY 2026-03-04 | 0.00M | 8.12M | 1h ONLY 2026-03-05 | 0.00M | 6.55M | 1h ONLY ← last clean 1h-only day | | | 2026-03-06 | 0.29M | 0.22M | MIXED ← first 5m tokens reappear 2026-03-07 | 4.56M | 0.50M | MIXED ← 5m surging 2026-03-08 | 16.86M | 3.44M | MIXED ← 5m now dominant (83%) 2026-03-10 | 10.55M | 0.51M | MIXED 2026-03-15 | 19.47M | 1.84M | MIXED 2026-03-21 | 21.37M | 1.70M | MIXED ← 93% 5m 2026-03-22 | 13.48M | 2.85M | MIXED The transition is visible to the day: March 6 is when 5m tokens first reappear after 33 days of clean 1h-only behavior. By March 8, 5m tokens outnumber 1h by 5:1. This is consistent with a server-side configuration change being rolled out gradually then completing around March 8. Cost impact Applying official Anthropic pricing (rates.json, updated 2026-04-09): Combined dataset (119,866 API calls, two machines): claude-sonnet-4-6 ( cache_write_5m = $3.75/MTok , cache_write_1h = $6.00/MTok , cache_read = $0.30/MTok ): Month Calls Actual cost Cost with 1h TTL Overpaid % waste Jan 2026 2,639 $78.99 $37.54 $41.45 52.5% Feb 2026 27,220 $1,120.43 $1,108.11 $12.32 1.1% ← nearly 0 on 1h Mar 2026 68,264 $2,776.11 $2,057.01 $719.09 25.9% Apr 2026 21,743 $1,193.01 $1,016.78 $176.23 14.8% Total 119,866 $5,561.17 $4,612.09 $949.08 17.1% claude-opus-4-6 ( cache_write_5m = $6.25/MTok , cache_write_1h = $10.00/MTok , cache_read = $0.50/MTok ): Month Calls Actual cost Cost with 1h TTL Overpaid % waste Jan 2026 2,639 $131.65 $62.57 $69.08 52.5% Feb 2026 27,220 $1,867.38 $1,846.85 $20.53 1.1% ← nearly 0 on 1h Mar 2026 68,264 $4,626.84 $3,428.36 $1,198.49 25.9% Apr 2026 21,743 $1,988.35 $1,694.64 $293.71 14.8% Total 119,866 $9,268.97 $7,687.17 $1,581.80 17.1% February — the month Anthropic was defaulting to 1h TTL — shows only 1.1% waste (trace 5m activity from one machine on one day). Every other month shows 15–53% overpayment from 5m cache re-creations. The cost difference is explained entirely by TTL tier, not by usage volume. The percentage waste is identical across model tiers (17.1%) because it is driven purely by the 5m/1h token split, not by per-token price. Why 5m TTL is so expensive in practice With 5m TTL, any pause in a session longer than 5 minutes causes the entire cached context to expire. On the next turn, Claude Code must re-upload that context as a fresh cache_creation at the write rate, rather than a cache_read at the read rate. The write rate is 12.5× more expensive than the read rate for Sonnet, and the same ratio holds for Opus. For long coding sessions — which are the primary Claude Code use case — this creates a compounding penalty: the longer and more complex your session, the more context you have cached, and the more expensive each cache expiry becomes. Over the 3-month period analyzed: 220M tokens were written to the 5m tier Those same tokens generated 5.7B cache reads — meaning they were actively being used Had those 220M tokens been on the 1h tier, re-accesses within the same hour would be reads ( $0.30–0.50/MTok) instead of re-creations ( $3.75–6.25/MTok) Quota impact Users on Pro/subscription plans are quota-limited, not just cost-limited. Cache creation tokens count toward quota at full rate; cache reads are significantly cheaper (the exact coefficient is under investigation in #45756 ). The silent reversion to 5m TTL in March is the most likely explanation for why subscription users began hitting their 5-hour quota limits for the first time — including the author of this issue, who had never hit quota limits before March 2026. Hypothesis The data strongly suggests that 1h TTL was the intended default for Claude Code and was in place as of early February 2026. Sometime between Feb 27 and Mar 8, 2026, Anthropic silently changed the default to 5m TTL — either intentionally as a cost-saving measure, or accidentally as an infrastructure regression. Evidence supporting "1h was the intended default": Phase 2 (1h ONLY) shows zero 5m tokens across 14 separate active days spanning 3+ weeks — this is not noise or partial rollout, it is consistent deliberate behavior The February cost profile is the only month with 0% overpayment — it represents what users should have been paying all along The March reversion immediately produced the largest 5m-tier days in the entire dataset (30M tokens on Mar 22 alone), suggesting a sudden configuration flip rather than gradual drift Subscription users began hitting 5-hour quota limits for the first time in March — directly coinciding with the reversion The most likely sequence of events: ~Feb 1 and prior : Anthropic defaulted to 1h TTL for Claude Code subscription users ~Mar 6 : 5m tokens begin reappearing — gradual rollout of the change or partial infrastructure flip ~Mar 8 : 5m TTL becomes dominan