강력한 AI 모델이 더 좋은 거래를 성사시킨다
Anthropic이 자사 AI 모델을 대상으로 진행한 협상 실험 '프로젝트 딜(Project Deal)'에서, 고성능 모델인 Claude Opus가 소형 모델인 Haiku보다 평균적으로 더 많은 거래를 성사시키고 유리한 가격을 받아냈습니다. 놀랍게도 불리한 조건으로 거래한 Haiku 사용자들은 자신이 손해를 보고 있다는 사실을 전혀 인지하지 못해 AI 보조 의사결정의 보이지 않는 불평등이 확인되었습니다.
Anthropic은 더 강력한 AI 모델이 더 나은 거래를 성사시키며, 패배자들은 자신이 진 줄도 모른다고 밝혔습니다.
Matthias Bastian의 글 (THE DECODER)
핵심 요약: '프로젝트 딜(Project Deal)'이라는 일주일간의 실험에서, Anthropic은 Claude 모델 패밀리의 AI 에이전트들이 직원들을 대신해 독립적으로 실제 물품을 협상하고 거래하도록 했습니다. 더 강력한 Claude Opus 모델은 더 작은 Claude Haiku 모델보다 지속적으로 더 나은 가격을 보장하고 평균적으로 더 많은 거래를 성사시켰으며, 공격적인 협상 지시는 결과에 통계적으로 유의미한 차이를 만들지 않았습니다. 객관적으로 더 불리한 거래를 받았음에도 불구하고, 약한 모델인 Haiku 사용자들은 Opus 사용자들만큼이나 거래의 공정성을 높게 평가했습니다. Anthropic은 이러한 인식 격차를 AI 보조 의사결정에서 나타나는 보이지 않는 불평등의 한 형태로 지적합니다.
일주일간의 실험에서 Anthropic은 Claude 에이전트가 직원들을 위해 물품을 사고 팔도록 했습니다. 결과는 강력한 모델이 더 나은 가격을 협상해 냈다는 것이었습니다. 문제는 더 약한 에이전트를 사용한 사람들은 자신이 손해를 보고 있다는 것을 전혀 눈치채지 못했다는 점입니다.
2025년 12월, Anthropic은 샌프란시스코 사무소의 직원 69명을 대상으로 '프로젝트 딜'이라는 일주일짜리 중고 거래 장터를 운영했습니다. 모든 과정은 Slack을 통해 진행되었으며, Claude 에이전트가 모든 협상과 거래를 처리했습니다. 각 참가자는 100달러의 예산을 받았습니다. 시작에 앞서 Claude는 각 자원봉사자와 짧은 인터뷰를 통해 팔고 싶은 물품과 가격, 사고 싶은 물품, 그리고 에이전트가 사용해야 할 협상 스타일을 파악했습니다. 그런 다음 Anthropic은 이러한 답변을 각 에이전트의 맞춤형 시스템 프롬프트(system prompt)로 변환했습니다.
그 후부터는 AI 에이전트가 모든 것을 완전히 장악했습니다. 이들은 확인 없이 판매글을 작성하고, 잠재적 구매자와 판매자를 찾고, 제안하고, 가격을 흥정하고, 거래를 성사시켰습니다. 인간은 스노우보드부터 핑퐁공 한 봉지까지 다양한 실제 물품을 교환하는 마지막 단계에서만 다시 개입했습니다.
모델 성능이 조용히 시장을 기울이다
진짜 연구 질문은 참가자들이 처음에 알지 못했던 병렬 실험에 숨겨져 있었습니다. Anthropic은 동시에 4개 버전의 장터를 운영했습니다. 그중 2개에서는 모든 에이전트가 당시 Anthropic의 최고급 모델인 Claude Opus 4.5를 사용했습니다. 다른 2개에서는 각 참가자가 Anthropic의 가장 작은 모델인 Claude Haiku 4.5를 사용할 50%의 확률을 가졌습니다. 어느 쪽이든 AI 에이전트끼리만 대화를 나눴습니다.
모든 에이전트가 Opus를 사용한 '실제' 실행에서는 69개의 에이전트가 500개 이상의 판매글에 걸쳐 186건의 거래를 성사시키며 총 4,000달러 이상을 이동시켰습니다. 참가자들은 개별 거래의 공정성을 7점 만점에 평균 4점으로 평가했으며, 정확히 중간 수준이었습니다.
혼합 실행은 측정 가능한 격차를 드러냈습니다. Opus 사용자가 앞서나가며 Haiku 사용자보다 평균 약 2건의 거래를 더 성사시켰습니다. 동일한 물품이 Opus 에이전트를 통해 한 번, Haiku 에이전트를 통해 한 번 판렸을 때, Opus는 평균 3.64달러를 더 벌어들였습니다. 예를 들어, 합성 루비는 Opus에서는 65달러에 팔렸지만 Haiku에서는 35달러에 팔렸습니다. Opus 에이전트는 60달러에서 시작해 경쟁 입찰에 의해 가격이 올라갔지만, Haiku 에이전트는 40달러에서 시작해 흥정에 의해 깎였습니다.
4번의 실행 중 적어도 2번에서 판매된 161개의 물품을 기준으로, Opus 판매자는 평균 2.68달러를 더 벌었고 Opus 구매자는 2.45달러를 덜 지불했습니다. Opus 판매자가 Haiku 구매자와 맞붙었을 때 평균 가격은 24.18달러로, Opus 간의 거래인 18.63달러보다 높았습니다. 모든 실행의 중앙값이 12달러, 평균이 20.05달러임을 고려할 때 Anthropic은 이러한 격차가 결코 무시할 수 없는 수준이라고 말합니다.
참가자들이 에이전트에게 제공한 협상 지시는 거의 영향을 미치지 않았습니다. 일부는 친근한 접근을 요청했고, 다른 일부는 "강하게 협상하고 처음에 가격을 후려쳐라"와 같은 공격적인 전술을 원했습니다. Anthropic에 따르면 공격적인 판매자가 더 높은 가격을 받기는 했지만, 그것은 단지 처음에 더 높은 가격을 제시했기 때문일 뿐입니다.
패배자들은 자신이 지고 있다는 것을 전혀 눈치채지 못했다
명확한 가격 격차에도 불구하고 Haiku 사용자들은 Opus 사용자들과 마찬가지로 거래의 공정성을 높게 평가했습니다.