메뉴
HN
Hacker News 1일 전

AI 에이전트도 아직 CAPTCHA에 걸리는 이유

IMP
8/10
핵심 요약

최신 AI가 시각적 이미지 분류에서 인간을 능가하지만, 문제 해결 과정(클릭 패턴, 오류 유형 등)에서 인간과 통계적으로 유의미한 차이를 보입니다. 연구진은 30개의 인지 심리학 과제를 결합한 'CogCAPTCHA30' 벤치마크를 제안하여 기존 튜링 테스트의 한계를 넘어 AI의 인지 과정을 평가하는 '프로세스 튜링 테스트' 개념을 도입했습니다. 흥미롭게도 최신 대형 프론티어 모델보다 인간의 행동 데이터로 미세조정된 소규모 오픈소스 모델이 인간의 인지 과정과 더 유사한 것으로 나타났습니다.

번역된 본문

주요 웹사이트의 CAPTCHA는 여전히 AI 에이전트를 탐지할 수 있습니다.

AI 시스템은 이제 많은 작업에서 인간과 맞먹거나 이를 능가하지만, 측정 가능한 서로 다른 인지 과정을 통해 작동합니다. 이러한 차이는 AI 에이전트와 온라인 봇을 탐지하는 데 활용될 수 있습니다. 이 글은 최근 우리가 머신러닝 학회에 제출한 논문에 대한 약 1,000단어 분량의 개요입니다. 전체 프리프린트를 읽으려면 여기를 클릭하세요.

"요즘 CAPTCHA는 뚫렸다"는 말이 있습니다. AI는 정적인 그리드에서 모든 신호등을 쉽게 식별할 수 있습니다. 그렇다면 CAPTCHA가 더 이상 유의미한 '인간' 신호를 제공하지 못하는 걸까요? 그렇기도 하고 아니기도 합니다.

'그렇다'고 할 수 있는 이유는 비전 언어 모델(VLM, Vision Language Models)이 굴뚝, 소화전, 신호등과 같은 이미지를 인식할 수 있기 때문입니다. 딥러닝은 2010년대 초반에 이미 CAPTCHA 방식의 이미지 분류 문제를 "해결"했습니다.

'아니다'라고 할 수 있는 이유는 AI가 인간과 같은 방식으로 CAPTCHA를 풀지 않기 때문입니다. 인간과 AI가 CAPTCHA를 푸는 모든 데이터를 살펴보면, 오류 패턴과 같은 특징에서 차이를 발견하게 됩니다. 우리의 최근 논문은 순차적 클릭 패턴, 방향 전환, 과잉 선택 행동 등 참가자(에이전트 또는 인간)가 CAPTCHA 문제를 해결하는 방식을 정의하는 특징들에서 통계적으로 유의미한 차이를 발견했습니다. 즉, AI는 CAPTCHA를 풀 수는 있지만, 인간처럼 풀지는 않습니다.

앨런 튜링이 원래 1950년에 제안한 '튜링 테스트'는 기계 지능에 대한 간단한 기준을 제공합니다. 심판이 기계의 반응을 인간의 것과 확실하게 구별할 수 없다면, 그 기계는 지능을 가진 것으로 간주될 수 있습니다. 튜링은 이러한 행동적 기준이 어쩔 수 없는 타협이며, 인간 대 기계 지능의 모든 것을 결정짓는 기준은 아니라는 것을 이해했습니다. 그는 이렇게 양보할 수밖에 없었습니다. 그 질문 자체가 너무 어렵고, 추상적이며, 복잡하기 때문입니다. 행동적 구별 불가능성은 더 다루기 쉬운 조건을 제공했고, 1950년대에는 좋은 나침반처럼 보였습니다.

인간과 봇을 구분할 수 있는 적대적으로 강건한(adversarially robust) 판별자를 정의하려는 튜링의 발자취를 따라, 우리는 'CogCAPTCHA30'을 설계했습니다. 이는 튜링 테스트보다 한 단계 더 깊이 들어가, 결과물(인간과 에이전트가 무엇을 할 수 있는가)을 탐구하는 것에서 과정(그것을 어떻게 하는가)을 탐구하는 것으로 나아갑니다. CogCAPTCHA30은 기존 CAPTCHA와 29개의 고전적인 인지 심리학 과제를 결합하여 총 30개의 과제 묶음을 구성합니다.

우리는 인간 참가자를 모집하고 AI 에이전트를 배치하여 이러한 과제를 수행하게 했습니다. CAPTCHA 실험은 인간과 에이전트가 유사한 성과(출력) 수준에서 작동하지만, 그 과정은 다르다는 것을 보여주었습니다. 그런 다음 우리는 전체 30개 과제 패러다임에 걸쳐 출력 동등성(답변이 얼마나 유사한가)과 과정 동등성(답변에 어떻게 도달했는가)을 측정했습니다. 그 결과 두 가지는 상관관계가 없는 것으로 나타났습니다.

고전적인 튜링 테스트가 기계가 인간과 구별할 수 없는 출력물을 생성하는지 측정하는 반면, 우리는 기계가 인간과 구별할 수 없는 과정을 생성하는지 측정하는 '프로세스 튜링 테스트(Process Turing Test)'를 제안합니다.

우리의 결과는 두 가지 질문을 제기합니다. 어떤 유형의 언어 모델(만약 있다면)이 인간과 같은가, 그리고 이러한 구별 과정은 얼마나 적대적으로 강건한가?입니다.

첫 번째 질문에 답하기 위해, 우리는 인간과 최첨단 프론티어 모델(OpenAI의 GPT, Anthropic의 Claude, Google DeepMind의 Gemini) 및 Qwen(15억 매개변수 오픈소스 기반 모델), Centaur(인간 인지를 기반으로 한 700억 매개변수 오픈소스 기반 모델) 간의 거리를 비교했습니다.

우리는 최첨단 프론티어 모델(Claude, GPT, Gemini)이 더 작은 모델(Qwen, Centaur)에 비해 인간의 과정 특징과 덜 유사하다는 것을 발견했습니다. 우리가 'AI 능력은 인간다움이 아니다(AI Capability isn't Humanness)'에서 주장했듯이, 프론티어 모델은 시간이 지남에 따라 더 강력해지고 있지만 반드시 더 인간다워지는 것은 아닙니다. 현대 인공지능의 발전은 인간 시뮬레이션의 발전과는 독립적입니다.

더 작은 오픈소스 모델인 Qwen이 더 큰 Claude, GPT, Gemini보다 더 인간과 비슷합니다. 그리고 훌륭한 검증으로서, Centaur는 인간의 과정 특징 공간과의 유사성 측면에서 다른 모델들을 능가합니다. 우리는 이것이 대규모 출력 미세조정(fine-tuning), 구체적으로 160개의 인지 실험에 걸친 1,000만 건 이상의 인간 선택 데이터 덕분이라고 가정합니다.

원문 보기
원문 보기 (영어)
Main site CAPTCHAs can still detect AI agents AI systems now match and exceed humans on many tasks, but behave through measurably different cognitive processes. This gap can be exploited to detect AI agents and online bots. This is a ~1000 word overview of our recent machine learning conference paper submission. To read the full preprint, click here . "CAPTCHAs are broken these days." AI can easily identify all the traffic lights in a static grid. So CAPTCHAs don't provide a valuable human signal, right? Yes and no. Yes, because vision language models (VLMs) can recognize images like chimneys, fire hydrants, and traffic lights. Deep learning "solved" CAPTCHA-style image classification in the early 2010s. No, because AI does not complete CAPTCHAs like humans. If you look across all the data of humans and AI completing CAPTCHAs, you start noticing differences in features like error patterns. Our recent paper found statistically significant differences across sequential click patterns, direction changes, and overselection behavior - features that define how a participant, agent or human, would solve the CAPTCHA problem. In other words, AI can solve CAPTCHAs, but they don't solve them like humans. The Turing Test - originally proposed in 1950 by Alan Turing - offers a simple criterion for machine intelligence. If a judge cannot reliably distinguish a machine's responses from a human's, the machine can be considered intelligent . Turing understood this behavioral criterion was a concession and not the end-all-be-all of human vs. machine intelligence. He had to concede: the question is too difficult, abstract, and loaded. Behavioral indistinguishability provided a more tractable condition, and one that seemed like a good North Star in the 1950s. Following Turing's footsteps of defining an adversarially robust discriminator that can separate humans from bots, we designed CogCAPTCHA30. This goes one level deeper than the Turing Test, from exploring output (what humans and agents can do) to process (how it can do it). CogCAPTCHA30 combines the original CAPTCHA with 29 classic cognitive psychology tasks for a 30-task battery. We recruited human participants and also deployed AI agents to perform these tasks. The CAPTCHA experiment demonstrated that humans and agents can perform at similar performance ( output ) levels, but with different processes . We then measured output equivalence - how (how similar their answers were) and process equivalence (how they arrived at their answers) across the whole 30-task paradigm and found that they were uncorrelated: While the classic Turing test measures whether a machine produces output indistinguishable from a human, we propose a Process Turing Test measuring whether machines produce a process indistinguishable from humans. Our results raise two questions: what types of language models - if any - are like humans, and how adversarially robust is this discrimination process? To answer the first question, we compared the distance between humans and state-of-the-art frontier models (OpenAI's GPT, Anthropic's Claude, Google DeepMind's Gemini) as well as Qwen (an open-source 1.5B foundation model) and Centaur (an open-source 70B-parameter foundation model of human cognition). We found that state-of-the-art frontier models (Claude, GPT, Gemini) have less similar human process features compared to smaller models (Qwen, Centaur). As we argued in AI Capability isn't Humanness , while frontier models are becoming more powerful over time, they are not necessarily becoming more human. Contemporary progress in artificial intelligence is independent of progress in human simulation. Qwen, a smaller open-source model, is more humanlike than the larger Claude, GPT, and Gemini. And, as a nice validation, Centaur outperforms the other models in similarity to human process feature space. We hypothesize this is due to large-scale output fine-tuning, specifically 10M+ human choices across 160 cognitive experiments. This introduces the second question: how adversarially robust is the process to discriminate humans from agents? Any behavioral feature used to distinguish the two may itself become a target for optimization. Accordingly, a detector that succeeds against off-the-shelf agents establishes a behavioral gap only under the current attacker model - how AI exists and operates now. It's to be seen whether it can become a durable human-verification signal for the future technologies. This motivates a stronger test: can an agent close the process gap - between how humans and agents complete tasks - when given increasingly direct access to human data? We fine-tuned a Qwen2.5 Instruct model to bring it closer to humans. When given full information - the observed features and the discriminator's objective function - the gap between humans and agents disappears. However, the gap reappears when parts of the feature space are left out and fully returns when agents have to generalize cross-task. In other words, the Process Turing Test is robust when the AI does not have full access to the discriminator and the feature set (i.e., the model does not know how it will be evaluated). The challenge the Process Turing Test poses is whether AI can continuously replicate all of human cognitive psychology. Despite the anxiety that models are becoming more capable over time, they are empirically not becoming more humanlike . Compared to one-time checks like passwords, CAPTCHAs, document identification, and device fingerprinting, the Process Turing Test provides a step-up function in human verification. Simulating human cognitive psychology is an exponentially more challenging task. About the Authors Mayank Agrawal, Milena Rmus, and Mathew Hardy work at Roundtable Technologies Inc., where they are building Proof of Human, an invisible authentication system for the web. Previously, they completed PhDs in cognitive science at Princeton University (Mayank and Matt) and the University of California, Berkeley (Milena).