메뉴
BL
The Decoder 36일 전

강력한 AI 모델이 더 좋은 거래를 성사시킨다

IMP
7/10
핵심 요약

Anthropic이 자사 AI 모델을 대상으로 진행한 협상 실험 '프로젝트 딜(Project Deal)'에서, 고성능 모델인 Claude Opus가 소형 모델인 Haiku보다 평균적으로 더 많은 거래를 성사시키고 유리한 가격을 받아냈습니다. 놀랍게도 불리한 조건으로 거래한 Haiku 사용자들은 자신이 손해를 보고 있다는 사실을 전혀 인지하지 못해 AI 보조 의사결정의 보이지 않는 불평등이 확인되었습니다.

번역된 본문

Anthropic은 더 강력한 AI 모델이 더 나은 거래를 성사시키며, 패배자들은 자신이 진 줄도 모른다고 밝혔습니다.

Matthias Bastian의 글 (THE DECODER)

핵심 요약: '프로젝트 딜(Project Deal)'이라는 일주일간의 실험에서, Anthropic은 Claude 모델 패밀리의 AI 에이전트들이 직원들을 대신해 독립적으로 실제 물품을 협상하고 거래하도록 했습니다. 더 강력한 Claude Opus 모델은 더 작은 Claude Haiku 모델보다 지속적으로 더 나은 가격을 보장하고 평균적으로 더 많은 거래를 성사시켰으며, 공격적인 협상 지시는 결과에 통계적으로 유의미한 차이를 만들지 않았습니다. 객관적으로 더 불리한 거래를 받았음에도 불구하고, 약한 모델인 Haiku 사용자들은 Opus 사용자들만큼이나 거래의 공정성을 높게 평가했습니다. Anthropic은 이러한 인식 격차를 AI 보조 의사결정에서 나타나는 보이지 않는 불평등의 한 형태로 지적합니다.

일주일간의 실험에서 Anthropic은 Claude 에이전트가 직원들을 위해 물품을 사고 팔도록 했습니다. 결과는 강력한 모델이 더 나은 가격을 협상해 냈다는 것이었습니다. 문제는 더 약한 에이전트를 사용한 사람들은 자신이 손해를 보고 있다는 것을 전혀 눈치채지 못했다는 점입니다.

2025년 12월, Anthropic은 샌프란시스코 사무소의 직원 69명을 대상으로 '프로젝트 딜'이라는 일주일짜리 중고 거래 장터를 운영했습니다. 모든 과정은 Slack을 통해 진행되었으며, Claude 에이전트가 모든 협상과 거래를 처리했습니다. 각 참가자는 100달러의 예산을 받았습니다. 시작에 앞서 Claude는 각 자원봉사자와 짧은 인터뷰를 통해 팔고 싶은 물품과 가격, 사고 싶은 물품, 그리고 에이전트가 사용해야 할 협상 스타일을 파악했습니다. 그런 다음 Anthropic은 이러한 답변을 각 에이전트의 맞춤형 시스템 프롬프트(system prompt)로 변환했습니다.

그 후부터는 AI 에이전트가 모든 것을 완전히 장악했습니다. 이들은 확인 없이 판매글을 작성하고, 잠재적 구매자와 판매자를 찾고, 제안하고, 가격을 흥정하고, 거래를 성사시켰습니다. 인간은 스노우보드부터 핑퐁공 한 봉지까지 다양한 실제 물품을 교환하는 마지막 단계에서만 다시 개입했습니다.

모델 성능이 조용히 시장을 기울이다

진짜 연구 질문은 참가자들이 처음에 알지 못했던 병렬 실험에 숨겨져 있었습니다. Anthropic은 동시에 4개 버전의 장터를 운영했습니다. 그중 2개에서는 모든 에이전트가 당시 Anthropic의 최고급 모델인 Claude Opus 4.5를 사용했습니다. 다른 2개에서는 각 참가자가 Anthropic의 가장 작은 모델인 Claude Haiku 4.5를 사용할 50%의 확률을 가졌습니다. 어느 쪽이든 AI 에이전트끼리만 대화를 나눴습니다.

모든 에이전트가 Opus를 사용한 '실제' 실행에서는 69개의 에이전트가 500개 이상의 판매글에 걸쳐 186건의 거래를 성사시키며 총 4,000달러 이상을 이동시켰습니다. 참가자들은 개별 거래의 공정성을 7점 만점에 평균 4점으로 평가했으며, 정확히 중간 수준이었습니다.

혼합 실행은 측정 가능한 격차를 드러냈습니다. Opus 사용자가 앞서나가며 Haiku 사용자보다 평균 약 2건의 거래를 더 성사시켰습니다. 동일한 물품이 Opus 에이전트를 통해 한 번, Haiku 에이전트를 통해 한 번 판렸을 때, Opus는 평균 3.64달러를 더 벌어들였습니다. 예를 들어, 합성 루비는 Opus에서는 65달러에 팔렸지만 Haiku에서는 35달러에 팔렸습니다. Opus 에이전트는 60달러에서 시작해 경쟁 입찰에 의해 가격이 올라갔지만, Haiku 에이전트는 40달러에서 시작해 흥정에 의해 깎였습니다.

4번의 실행 중 적어도 2번에서 판매된 161개의 물품을 기준으로, Opus 판매자는 평균 2.68달러를 더 벌었고 Opus 구매자는 2.45달러를 덜 지불했습니다. Opus 판매자가 Haiku 구매자와 맞붙었을 때 평균 가격은 24.18달러로, Opus 간의 거래인 18.63달러보다 높았습니다. 모든 실행의 중앙값이 12달러, 평균이 20.05달러임을 고려할 때 Anthropic은 이러한 격차가 결코 무시할 수 없는 수준이라고 말합니다.

참가자들이 에이전트에게 제공한 협상 지시는 거의 영향을 미치지 않았습니다. 일부는 친근한 접근을 요청했고, 다른 일부는 "강하게 협상하고 처음에 가격을 후려쳐라"와 같은 공격적인 전술을 원했습니다. Anthropic에 따르면 공격적인 판매자가 더 높은 가격을 받기는 했지만, 그것은 단지 처음에 더 높은 가격을 제시했기 때문일 뿐입니다.

패배자들은 자신이 지고 있다는 것을 전혀 눈치채지 못했다

명확한 가격 격차에도 불구하고 Haiku 사용자들은 Opus 사용자들과 마찬가지로 거래의 공정성을 높게 평가했습니다.

원문 보기
원문 보기 (영어)
Anthropic says stronger AI models cut better deals, and the losers don't even notice Matthias Bastian View the LinkedIn Profile of Matthias Bastian Apr 25, 2026 Nano Banana Pro prompted by THE DECODER Key Points In a week-long experiment called "Project Deal," Anthropic had AI agents from the Claude model family independently negotiate and trade real goods on behalf of employees. The more capable Claude Opus model consistently secured better prices and closed more deals on average than the smaller Claude Haiku model, while aggressive negotiation instructions made no statistically significant difference in outcomes. Despite receiving objectively worse deals, users of the weaker Haiku model rated the fairness of their transactions just as highly as Opus users—a perception gap that Anthropic flags as a form of invisible inequality in AI-assisted decision-making. Ask about this article… Search In a week-long experiment, Anthropic let Claude agents buy and sell goods for employees. The result: stronger models negotiated better prices. The catch: the people stuck with weaker agents had no idea they were losing out. In December 2025, Anthropic ran a one-week classifieds marketplace called "Project Deal" for 69 employees at its San Francisco office. The whole thing ran through Slack, with Claude agents handling every negotiation and deal. Each participant got a $100 budget. Before things kicked off, Claude conducted a short interview with each volunteer to figure out what they wanted to sell, at what price, what they wanted to buy, and what kind of negotiating style their agent should use. Anthropic then turned those answers into a custom system prompt for each agent. Ad From there, the AI agents took over completely. They wrote listings, found potential buyers and sellers, made offers, haggled over prices, and closed deals without checking in. The humans only stepped back in at the very end to swap the actual items, which ranged from a snowboard to a bag of ping-pong balls. Ad DEC_D_Incontent-1 Model strength quietly tilts the market The real research question was hidden in a parallel experiment that participants didn't know about at first. Anthropic ran four versions of the marketplace at the same time. In two of them, every agent used Claude Opus 4.5, Anthropic's frontier model at the time. In the other two, each participant had a 50 percent chance of being represented by Claude Haiku 4.5 instead, Anthropic's smallest model. Either way, only the AI agents talked to each other. In the "real" run, where every agent used Opus, the 69 agents closed 186 deals across more than 500 listings, moving just over $4,000 in total. Participants rated the fairness of individual deals at 4 out of 7 on average, right in the middle. Ad The mixed runs exposed a measurable gap. Opus users came out ahead, closing about two more deals on average than Haiku users. When the same item sold once through an Opus agent and once through a Haiku agent, Opus pulled in $3.64 more on average. A lab-grown ruby, for example, sold for $65 with Opus but only $35 with Haiku. The Opus agent opened at $60 and got pushed up by competitive bidding, while the Haiku agent started at $40 and got talked down. Ad DEC_D_Incontent-2 Across 161 items sold in at least two of the four runs, an Opus seller pulled in $2.68 more on average, while an Opus buyer paid $2.45 less. When an Opus seller faced off against a Haiku buyer, the average price hit $24.18, compared to $18.63 for Opus-on-Opus deals. With a median price of $12 and an average of $20.05 across all runs, Anthropic says these gaps aren't trivial. Ad The negotiation instructions participants gave their agents barely mattered. Some asked for a friendly approach; others wanted aggressive tactics like "negotiate hard and lowball at first." Aggressive sellers did get higher prices, but only because they set higher opening prices to begin with, Anthropic says. The losers had no clue they were losing Despite the clear price gap, participants with Haiku agents rated the fairness of their deals almost the same as Opus users: 4.06 versus 4.05 on the fairness scale. There was also no statistically meaningful difference in satisfaction with individual deals. Of 28 participants who used both Opus and Haiku across different runs, 17 preferred their Opus run, but 11 actually preferred the Haiku run. Anthropic calls this an "uncomfortable implication:" when agents of different strengths meet in real markets, people could end up on the losing side without ever knowing it. The company admits the experiment wasn't built to dig into these dynamics in detail and says more research is needed. The experiment also suggests that AI agent commerce isn't some far-off scenario: 46 percent of participants said they'd pay for a service like this. At the same time, Anthropic flags several risks. In a world with companies instead of volunteers, the incentives would look very different. Optimizing for AI agent attention could become a powerful tool that doesn't necessarily work in people's favor. And new security issues like jailbreaking and prompt injection would come into play with agents that actually act on your behalf. "The policy and legal frameworks around AI models that transact on our behalf simply don't exist yet," Anthropic writes, adding that "society will need to move quickly." "Will those dynamics reinforce, or even compound, existing economic inequalities?" Anthropic has run similar experiments before. As part of Project Vend, the company had Claude run a small shop out of its office . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Anthropic