메뉴
HN
Hacker News 44일 전

내 노트북의 Qwen이 오히스보다 펠리컨을 더 잘 그렸다

IMP
7/10
핵심 요약

Simon Willison은 자신의 유명한 '자전거를 타는 펠리컨' 이미지 생성 벤치마크를 통해 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7을 비교했습니다. 놀랍게도 노트북에서 구동한 21GB 크기의 오픈소스 Qwen 모델이 최상위 독점 모델인 Opus 4.7보다 훨씬 완성도 높은 SVG 그림을 그려냈습니다. 이는 특정 작업에서 로컬 경량 모델이 최고가의 상용 모델을 압도할 수 있다는 흥미로운 결과를 보여줍니다.

번역된 본문

Simon Willison의 웹로그 후원: Teleport — Teleport Beams를 사용하여 몇 초 만에 에이전트를 인프라에 연결하세요. 기본 제공 ID, 제로 시크릿. 얼리 액세스 신청

내 노트북에서 돌아간 Qwen3.6-35B-A3B가 Claude Opus 4.7보다 펠리컨을 더 잘 그렸다 2026년 4월 16일

'자전거를 타는 펠리컨' 벤치마크를 모델 테스트를 위한 진지하고 강력한 방법으로 여기던 분들을 위해, 오늘 아침 공개된 두 개의 주요 모델 알리바이의 Qwen3.6-35B-A3B와 Anthropic의 Claude Opus 4.7이 그린 펠리컨들을 소개합니다.

다음은 Qwen 3.6이 그린 펠리컨입니다. 이는 Unsloth가 제작한 20.9GB 크기의 양자화 모델(Qwen3.6-35B-A3B-UD-Q4_K_S.gguf)을 사용하여 제 MacBook Pro M5에서 LM Studio(llm-lmstudio 플러그인 사용)를 통해 생성했습니다(대화 내역 보기).

그리고 다음은 Anthropic의 완전히 새로운 Claude Opus 4.7에서 얻은 결과입니다(대화 내역 보기).

이번 라운드는 Qwen 3.6의 승리로 하겠습니다. 오히스는 자전거 프레임을 망쳐버렸습니다!

Opus를 한 번 더 시도하면서 thinking_level: max를 적용해 보았습니다. 하지만 결과가 크게 나아지지는 않았습니다(대화 내역 보기).

Qwen이 부정행위를 한다고 생각하지 않습니다 많은 사람들이 각 AI 연구소들이 제 '바보 같은' 벤치마크에 맞춰 학습을 진행한다고 확신합니다. 저는 그렇지 않다고 생각하지만, 솔직히 이번 결과는 약간의 의심을 품게 했습니다. 그래서 비밀리에 숨겨두었던 백업 테스트 중 하나를 사용해 보기로 했습니다. Qwen3.6-35B-A3B와 Opus 4.7에게 "외발자전거를 타는 플라밍고 SVG 생성"을 요청한 결과는 다음과 같았습니다.

이번에도 Qwen에게 점수를 주었습니다. 부분적으로는 SVG 코드에 포함된 훌륭한 주석 덕분이기도 합니다.

우리는 여기서 무엇을 배울 수 있을까요? '펠리컨 벤치마크'는 항상 농담이었습니다. 주로 이 모델들을 비교하는 작업이 얼마나 난해하고 터무니없는지를 보여주기 위한 것이었습니다.

이 농담의 이상한 점은, 대부분의 경우 생성된 펠리컨의 품질과 모델의 일반적인 유용성 사이에 직접적인 상관관계가 있었다는 것입니다. 2024년 10월에 나왔던 첫 펠리컨들은 형편없었습니다. 최근에 출시된 모델들의 결과는 훨씬 나아졌습니다. 정말 급하게 자전거를 타는 펠리컨 삽화가 필요하다면 실제로 사용할 수 있을 수준에 이르렀습니다(특히 Gemini 3.1 Pro의 경우).

하지만 오늘, 그 느슨했던 유용성과의 연결고리마저 끊어졌습니다.

저는 Qwen을 엄청나게 존경하지만, 최신 모델의 21GB 양자화 버전이 Anthropic의 최신 독점 모델보다 더 강력하거나 유용할 것이라고는 생각하지 않습니다.

하지만 만약 여러분에게 당장 자전거를 타는 펠리컨의 SVG 삽화가 필요하다면, 현재로서는 노트북에서 구동되는 Qwen3.6-35B-A3B가 Opus 4.7보다 더 나은 선택일 것입니다!

2026년 4월 16일 오후 5:16 게시 · Mastodon, Bluesky, Twitter 팔로우 또는 뉴스레터 구독하기

최근 기사 더보기 메타의 새로운 모델 Muse Spark, 흥미로운 도구가 포함된 meta.ai 챗 - 2026년 4월 8일 Anthropic의 Project Glasswing — 보안 연구원에게만 Claude Mythos를 제한하는 방침은 필요해 보입니다 - 2026년 4월 7일

원문 보기
원문 보기 (영어)
Simon Willison’s Weblog Subscribe Sponsored by: Teleport &mdash; Connect agents to your infra in seconds with Teleport Beams. Built-in identity. Zero secrets. Get early access Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7 16th April 2026 For anyone who has been taking my pelican riding a bicycle benchmark seriously as a robust way to test models, here are pelicans from this morning’s two big model releases— Qwen3.6-35B-A3B from Alibaba and Claude Opus 4.7 from Anthropic . Here’s the Qwen 3.6 pelican, generated using this 20.9GB Qwen3.6-35B-A3B-UD-Q4_K_S.gguf quantized model by Unsloth, running on my MacBook Pro M5 via LM Studio (and the llm-lmstudio plugin)— transcript here : And here’s one I got from Anthropic’s brand new Claude Opus 4.7 ( transcript ): I’m giving this one to Qwen 3.6. Opus managed to mess up the bicycle frame! I tried Opus a second time passing thinking_level: max . It didn’t do much better ( transcript ): I don’t think Qwen are cheating A lot of people are convinced that the labs train for my stupid benchmark . I don’t think they do, but honestly this result did give me a little glint of suspicion. So I’m burning one of my secret backup tests—here’s what I got from Qwen3.6-35B-A3B and Opus 4.7 for “Generate an SVG of a flamingo riding a unicycle”: I’m giving this one to Qwen too, partly for the excellent <!-- Sunglasses on flamingo! --> SVG comment. What can we learn from this? The pelican benchmark has always been meant as a joke—it’s mainly a statement on how obtuse and absurd the task of comparing these models is. The weird thing about that joke is that, for the most part, there has been a direct correlation between the quality of the pelicans produced and the general usefulness of the models. Those first pelicans from October 2024 were junk. The more recent entries have generally been much, much better—to the point that Gemini 3.1 Pro produces illustrations you could actually use somewhere , provided you had a pressing need to illustrate a pelican riding a bicycle. Today, even that loose connection to utility has been broken. I have enormous respect for Qwen, but I very much doubt that a 21GB quantized version of their latest model is more powerful or useful than Anthropic’s latest proprietary release. If the thing you need is an SVG illustration of a pelican riding a bicycle though, right now Qwen3.6-35B-A3B running on a laptop is a better bet than Opus 4.7! Posted 16th April 2026 at 5:16 pm &middot; Follow me on Mastodon , Bluesky , Twitter or subscribe to my newsletter More recent articles Meta&#x27;s new model is Muse Spark, and meta.ai chat has some interesting tools - 8th April 2026 Anthropic&#x27;s Project Glasswing - restricting Claude Mythos to security researchers - sounds necessary to me - 7th April 2026 This is Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7 by Simon Willison, posted on 16th April 2026 . ai 1963 generative-ai 1742 local-llms 154 llms 1709 anthropic 269 claude 266 qwen 54 pelican-riding-a-bicycle 105 lm-studio 19 Previous: Meta&#x27;s new model is Muse Spark, and meta.ai chat has some interesting tools Monthly briefing Sponsor me for $10/month and get a curated email digest of the month's most important LLM developments. Pay me to send you less! Sponsor & subscribe Disclosures Colophon &copy; 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026