HN
Hacker News • 52일 전
178개 AI 모델 글쓰기 지문 분석
IMP 8/10
핵심 요약
43개 프롬프트에 걸쳐 3,095개의 표준화된 AI 응답을 분석해 어휘, 문장 구조 등 32차원의 문체 지문(fingerprint)을 추출한 연구 결과입니다. 이를 통해 90% 이상의 유사도를 보이는 9개의 복제 클러스터를 발견했으며, 저렴한 Gemini 모델이 고가의 Claude 모델과 78% 유사한 문체를 보이는 등 주요 AI 모델 간의 놀라운 문체적 유사성과 각 사업자별 고유의 특징을 정량화하여 입증했다는 점에서 중요합니다.
번역된 본문
저희는 43개 프롬프트에 걸쳐 총 3,095개의 표준화된 AI 응답 데이터셋을 보유하고 있습니다. 각 응답으로부터 32차원의 문체 지문(stylometric fingerprint)을 추출합니다(어휘의 다양성, 문장 구조, 문장 부호 사용 습관, 서식 패턴, 담화 표지자 등).
주요 연구 결과는 다음과 같습니다:
- 9개의 복제 클러스터(Z-정규화된 특징 벡터 기준 90% 이상의 코사인 유사도)
- Mistral Large 2와 Large 3 2512 모델은 5개의 독립적인 신호를 결합한 복합 지표에서 84.8%의 점수를 기록했습니다.
- Gemini 2.5 Flash Lite는 Claude 3 Opus와 78% 비슷한 방식으로 글을 작성합니다. 하지만 비용은 185배 더 저렴합니다.
- Meta는 가장 강력한 자체 제공사 '하우스 스타일(고유 문체)'을 보유하고 있습니다 (37.5배의 독창성 비율).
- '풍자적인 가짜 뉴스(Satirical fake news)'는 모든 모델에서 글쓰기 방식이 가장 많이 수렴하는 프롬프트입니다.
- '글자 수 세기(Count letters)'는 모델 간 글쓰기 차이가 가장 크게 벌어지게 하는 프롬프트입니다.
이 복합 복제 점수(composite clone score)는 다음의 요소들을 결합하여 산출합니다: 프롬프트 제어 기반 일대일 유사도, 과제 전반에 걸친 특성별 피어슨 상관관계(Pearson correlation), 응답 길이 상관관계, 프롬프트 간 교차 일관성, 그리고 종합 코사인 유사도.
기술적 구현: Node.js를 이용한 문체 특징 추출, Z-점수(Z-score) 정규화, 종합 지표를 위한 코사인 유사도, 특성별 추적을 위한 피어슨 상관관계 분석을 사용했습니다. 분석 스크립트는 약 1,400줄로 구성되어 있습니다.
원문 보기 (영어)
We have a dataset of 3,095 standardized AI responses across 43 prompts. From each response, we extract a 32-dimension stylometric fingerprint (lexical richness, sentence structure, punctuation habits, formatting patterns, discourse markers).<p>Some findings:<p>- 9 clone clusters (>90% cosine similarity on z-normalized feature vectors)
- Mistral Large 2 and Large 3 2512 score 84.8% on a composite metric combining 5 independent signals
- Gemini 2.5 Flash Lite writes 78% like Claude 3 Opus. Costs 185x less
- Meta has the strongest provider "house style" (37.5x distinctiveness ratio)
- "Satirical fake news" is the prompt that causes the most writing convergence across all models
- "Count letters" causes the most divergence<p>The composite clone score combines: prompt-controlled head-to-head similarity, per-feature Pearson correlation across challenges, response length correlation, cross-prompt consistency, and aggregate cosine similarity.<p>Tech: stylometric extraction in Node.js, z-score normalization, cosine similarity for aggregate, Pearson correlation for per-feature tracking. Analysis script is ~1400 lines.