메뉴
HN
Hacker News 2일 전

정체불명 Hy3, LLM 랭킹 1위 점령한 이유

IMP
6/10
핵심 요약

대중에게 생소한 중국 텐센트의 오픈소스 모델 'Hy3 preview'가 최근 OpenRouter 모델 사용량 랭킹에서 최고의 인기를 누리던 Claude와 DeepSeek를 큰 폭으로 제치며 부상했습니다. 성능 벤치마크나 사용자 평가는 상위 모델들에 미치지 못하는 수준이지만, 입력 토큰당 약 $0.066라는 극도로 저렴한 가격 책정 덕분에 비용에 민감한 유료 사용자들을 대량으로 끌어들이며 유기적인 사용량 1위를 기록하고 있습니다. 이 현상은 최근 AI 코딩 에이전트 등의 비용이 급증함에 따라, 최고 수준의 성능보다 '가성비'를 선택하는 시장의 실용적인 트렌드를 보여준다는 점에서 중요합니다.

번역된 본문

OpenRouter는 단일 API로 대부분의 LLM에 접근할 수 있게 해주는 서비스로, 최근 새로운 LLM이 쏟아지는 추세 덕분에 그 유용성이 매우 높아지고 있습니다. 사용자와 LLM API 사이의 중개자 역할을 하는 이 회사는 사용자가 LLM과 상호작용하는 방식에 대한 견고하고 대표성 있는 데이터를 보유하고 있으며, 경쟁상의 이유로 이러한 데이터를 일반적으로 비밀로 유지하는 연구소들과 달리 이를 'AI 모델 랭킹' 페이지에 공개하고 있습니다.

최저 타임에 OpenRouter 랭킹을 확인하다가 이상한 점을 발견했습니다. 두 개의 새로운 모델이 토큰 사용량 측면에서 업계의 대열인 Claude를 50% 이상의 큰 차이로 제치고 있다는 것입니다. 'DeepSeek Flash V4'에 대해서는 들어보았습니다. 이 모델은 DeepSeek의 오픈소스 출시작으로 빠르고 저렴할 뿐만 아니라 매우 낮은 비용으로 최고 수준의 LLM 모델과 근접한 성능을 내기 때문에 엄청난 인기를 끄는 것이 전혀 놀랍지 않습니다.

하지만 대체 'Hy3 preview'는 무엇일까요? Hy3나 이에 대해 이야기하는 사람에 대해 전혀 들어본 적이 없습니다. 구글링을 해보니 중국의 거대 기업인 텐센트(Tencent)가 Hy3를 오픈소스로 공개했다는 발표문이 나왔습니다. 하지만 Hugging Face의 모델 페이지는 정보가 거의 없었고, 다른 중국 오픈소스 모델들과 비교했을 때 이 모델에게 불리한 이상하리만치 솔직한 벤치마크 결과만 포함되어 있었습니다. 해커 뉴스(Hacker News)에서 Hy3를 검색해도 Hy3와 관련 없는 단 하나의 게시물만 반환되었고, 레딧(Reddit)의 논의는 주로 오픈 웨이트(open-weights) 공개에 관한 것이었습니다.

한 레딧 스레드에서도 Hy3의 부상을 언급했지만, 그것은 Hy3가 5월 6일에 OpenRouter를 통해 무료로 제공되던 시절의 이야기였습니다. 현재는 해당 무료 엔드포인트가 더 이상 사용 불가능하므로, 위 주간 랭킹에서 보이는 Hy3의 사용량은 전적으로 유료 사용자들에 의해 발생한 것입니다. 흥미롭게도 Hy3 preview는 에이전트 코딩 분야 외의 다른 영역에서도 인기가 있는 것으로 보입니다. 제가 뭔가 놓친 게 있을까요?

비과학적인 테스트를 거쳐본 결과, 모델의 품질은 벤치마크에 명시된 다른 중국 모델들과 확실히 비슷했지만 Claude Opus 4.7이나 GPT 5.5 같은 최상위 모델에는 미치지 못했습니다. 이는 세상에 알려지지 않은 숨겨진 보석 같은 모델이 아니므로, 여기에는 다른 무언가가 작용하고 있음이 틀림없습니다.

다행히 OpenRouter에는 가능한 설명의 범위를 좁힐 수 있는 데이터가 있습니다. 하지만 데이터를 확인한 후 저는 더욱 혼란스러워졌습니다. Hy3 preview는 OpenRouter API에서 1백만 토큰당 $0.066의 입력 가격으로 제공되며, 이는 현재 1위인 DeepSeek V4 Flash의 입력 가격인 1백만 토큰당 $0.10보다 실제로 더 저렴합니다. LLM과 코딩 에이전트의 비용이 급격히 상승하는 상황을 고려할 때, 더 저렴한 모델이 인기를 끄는 것은 이해되지만, 그것은 동등한 품질을 제공할 때만 해당하는 이야기이고 Hy3는 그렇지 않아 보입니다.

다음은 모델 페이지에서 가져온 시간 경과에 따른 Hy3 preview 사용량 차트입니다. Hy3 preview는 5월 8일 이전의 사용 데이터가 없는데, 이는 해당 시점에 모델이 무료 버전에서 유료 버전으로 전환되었음을 의미합니다. 또한 출시 후 여러 주가 지난 이번 포스팅의 초기 랭킹에 나타난 것을 보면, 그 이후로 사용량이 꾸준하여 이 사용량이 적어도 유기적(또는 조작하려면 매우 비용이 많이 드는 수준)이며 일회성 예외 현상이 아님을 보여줍니다.

흥미로운 점은, 여기에 제시된 숫자로 계산해 보면 현재 LLM API 호출에서 입력 토큰과 출력 토큰의 비율이 전체적으로 입력 98%, 출력 2%로 나타난다는 것입니다. OpenRouter AI 모델 랭킹의 역사를 보면, 특정 앱이 기본 모델을 다른 LLM으로 변경하면서 급증하는 현상이 있었습니다. 예를 들어 2025년 9월에 Kilo Code가 Grok Code Fast 1을 무료로 제공하면서 인기가 급등한 경우가 있었습니다. 하지만 Hy3 preview의 활동에서 앱이 차지하는 비중은 매우 적기 때문에 이번에는 해당하지 않는 것으로 보입니다.

OpenRouter의 핵심 가치는 주어진 API 요청을 다양한 제공업체(Provider)로 자동 라우팅할 수 있다는 것입니다. DeepSeek V4 Flash 같은 오픈 웨이트 모델의 경우 OpenRouter는 13개의 제공업체를 나열하지만, Hy3 preview는 오픈 웨이트임에도 불구하고 단 한 곳, 싱가포르에 본사를 둔 SiliconFlow만을 제공업체로 두고 있습니다. OpenRouter의 사용량 통계 페이지를 보면 SiliconFlow의 사용량은 Hy3가 등장하기 전까지는 상대적으로 거의 없었습니다... (본문 마지막 부분이 시각화 데이터에서 잘린 것으로 보입니다.)

원문 보기
원문 보기 (영어)
OpenRouter is a service that provides access to most LLMs with a singular API, which has become exceedingly useful as of late given the rapid cadence of new LLM releases. Due to the company’s role as an intermediary between users and the LLM APIs, OpenRouter has robust, representative data on how users interact with LLMs and it publishes this data on the AI Model Rankings page: a welcome deviation from the labs themselves which generally keep this data secret for competitive reasons. Recently, I checked the OpenRouter rankings and noticed something peculiar. Two new models are now beating LLM darling Claude in terms of token usage and by more than 50%? I’ve heard of DeepSeek Flash V4 : it’s an open-source release from DeepSeek that is not only fast/cheap, but also performs closer to the leading LLM models at a very low cost so it’s no surprise that it’s incredibly popular. But what the heck is Hy3 preview? I’ve never heard of Hy3 or anyone talking about it. Googling it returns an announcement from Chinese megacorp Tencent about Hy3’s open-source release: the model page itself on Hugging Face is sparse and includes oddly honest benchmark results that are not favorable for the model compared to other Chinese open-source models. A Hacker News search for Hy3 only returned a single submission that isn’t about Hy3 , and Reddit discussion is more about the open-weights release . One Reddit thread also noted the rise of Hy3 but from May 6, when Hy3 was offered by OpenRouter for free; that free endpoint is no longer available, and therefore Hy3’s usage in the weekly rankings above is from paying users. Hy3 preview is apparently popular in domains outside of agentic coding as well. Did I miss something? After some nonscientific testing, the model quality is indeed on par with the other Chinese models indicated and not close to models such as Claude Opus 4.7 and GPT 5.5. It’s not a magic overlooked diamond-in-the-rough, so there has to be something else at play. Fortunately, OpenRouter has the data to narrow down possible explanations, but after checking the data I became more confused. Hy3 preview is available from the OpenRouter API at a stated price of $0.066/1M tokens input which is indeed cheaper than the current top-ranked model DeepSeek V4 Flash with a stated price of $0.10/1M tokens input. Given the drastically rising cost of LLMs and coding agents, it makes sense that a cheaper model would prevail, but only if it offered similar quality and that doesn’t appear to be the case. Here’s the chart of Hy3 preview model usage over time on OpenRouter from the model page: Hy3 preview has no usage data before May 8, which implies that is the time the model switched from the free SKU to the paid SKU. Usage is also steady over time since then with the initial rankings shown in this post being several weeks after launch, showing that the usage is at least organic (or very expensive to fake) and not a one-off outlier. Of note, if you do the math on the numbers presented here, the input-token-to-output-token breakdown on LLM API calls is now 98% input , 2% output in aggregate. For the OpenRouter AI Model Rankings, there have historically been spikes by specific apps switching their default to a particular LLM, such as when Kilo Code offered Grok Code Fast 1 for free in September 2025, which rocketed it up in popularity . That does not appear to be the case here because apps only constitute a very small part of Hy3 preview’s activity. OpenRouter’s value proposition is the ability to automatically route a given API request to different providers: for open-weight models such as DeepSeek V4 Flash, OpenRouter lists 13 providers, but Hy3 preview only has one provider despite its open weights 1 : the Singapore-based SiliconFlow . Their usage page on OpenRouter shows that SiliconFlow had relatively little usage…until Hy3. Coincidentially that data visualization shows that usage didn’t drop drastically when Hy3 preview moved from free to paid, which in itself is interesting: if users were not getting value from the free model, they likely would have stopped using it once the costs hit their wallet. What am I missing? Am I overthinking it and the answer is really because “it’s the cheapest” and it received sufficient loss leader traction from the free period? …but is Hy3 preview actually the cheapest LLM backed by a major company on OpenRouter? While I was double-checking some assumptions, I found that OpenRouter has data that shows Hy3 preview is not the cheapest well-performing LLM available: it’s actually DeepSeek V4 Flash, but with interesting caveats. LLM Economics in 2026 # So here are a few more notes about how LLM APIs work that aren’t often discussed. LLM calls are still stateless, which means that after every turn (including user messages to the LLM asking questions), all of the tokens in the current conversation thread are reprocessed, meaning that in the case of agents, the count of input tokens increases cumulatively with each successive message and is one reason why starting new threads frequently as context fills up is encouraged for effective agent use. But even before agentic workflows, large inputs such as full PDFs bloated context similarly. As a result, most LLM providers implemented prompt caching , which reuses input tokens processed earlier in the conversation: this is a win-win that saves time/compute for the LLM provider and the savings are passed to the customer. Most LLM providers cache inputs automatically, including when accessed through OpenRouter: the disk-lightning-bolt symbol next to the cost indicates tokens were cached and the cache may not always be hit, especially if OpenRouter switches providers mid-thread. The odd API provider out is the Anthropic (Claude) API which requires paying for a cache write first for some reason. Typically, cache read costs are 10% of the input costs: this is the case for the latest models from OpenAI API , Anthropic API , and Google Gemini API . For the 13 providers that serve DeepSeek V4 Flash, cache read costs are between 20% and 50% of input cost, which makes sense as they may not have the same economies of scale. There’s one DeepSeek V4 Flash provider that’s an exception, though: That’s a 2% cache read cost! (multiply by 2, move decimal left 2 places) How are DeepSeek’s cache read prices so low? DeepSeek has implemented a new approach to KV caching starting with V4 and as the model’s creator it is positioned to best leverage its own innovations, which as mentioned the benefits are passed to the customer. The DeepSeek V4 Pro variant model, when served by DeepSeek, has a cache read cost of 0.83% ! (use a calculator for that one) Remember how I showed that 98% of LLM API costs are now input tokens, which are aggressively cached? That means the “stated” prices of LLMs are now misleading, but unusually in a pro-customer way because the effective price will be much cheaper! To counter this ambiguity, OpenRouter now has a table for effective prices on the model page, which accounts for the cost savings from cache hits. Here’s the effective pricing for DeepSeek V4 Flash via OpenRouter by provider, which is different for each provider as they have different cache read costs and cache hit rates: The prices are all over the place, but notice the second row where DeepSeek itself is the provider, which is priced at a whopping $0.018/1M input tokens! That 2% cache read really pays off. Comparing apples to apples with Hy3 preview, the effective pricing for Hy3 preview as noted on its model page from SiliconFlow (a whopping 44% cache read cost) is $0.034/1M: nearly double DeepSeek V4 Flash from DeepSeek! Of course, this is only applicable if DeepSeek is explicitly used as the provider, which some downstream OpenRouter clients/agents may not suppor