메뉴
HN
Hacker News 17일 전

EditLens: AI가 수정한 텍스트 정량화

IMP
8/10
핵심 요약

대규모 언어 모델(LLM)이 처음부터 새로 생성한 텍스트가 아니라 사람이 작성한 텍스트를 수정(AI Editing)한 경우를 탐지하는 새로운 연구가 발표되었습니다. 연구진은 원문과 수정문 간의 유사도를 측정하고 학습하여 AI가 개입한 정도를 수치로 예측하는 회귀 모델인 'EditLens'를 제안했습니다. 이 모델은 인간 작성, AI 생성, 혼합(AI 수정) 텍스트를 구분하는 데 90% 이상의 높은 정확도를 보였으며, 저작권 및 교육 정책에 중요한 시사점을 제공합니다.

번역된 본문

컴퓨터 과학 > 컴퓨팅 및 언어 arXiv:2510.03154 (cs) [2025년 10월 3일 제출]

제목: EditLens: 텍스트 내 AI 편집 정도 정량화 저자: Katherine Thai, Bradley Emi, Elyas Masrour, Mohit Iyyer

초록: 대규모 언어 모델에 대한 상당수의 쿼리는 처음부터 새로운 텍스트를 생성하도록 요청하는 것이 아니라, 사용자가 제공한 텍스트를 편집하도록 요청합니다. 기존 연구들은 완전히 AI가 생성한 텍스트를 탐지하는 데 집중했지만, 본 연구에서는 AI가 편집한 텍스트(AI-edited text)가 인간이 작성한 텍스트 및 AI가 생성한 텍스트와 구별될 수 있음을 입증합니다.

먼저, 원래 인간이 작성한 텍스트가 주어졌을 때 텍스트에 존재하는 AI 편집의 규모를 정량화하기 위해 가벼운 유사도 측정 지표(lightweight similarity metrics)를 사용할 것을 제안하며, 인간 주석자(annotators)를 통해 이러한 지표를 검증합니다. 이러한 유사도 지표를 중간 지도(supervision)로 사용하여, 우리는 텍스트 내에 존재하는 AI 편집의 양을 예측하는 회귀 모델인 EditLens를 학습시켰습니다.

우리의 모델은 인간, AI, 혼합된 글쓰기를 구분하는 이진(F1=94.7%) 및 삼진(F1=90.4%) 분류 작업 모두에서 최고 수준(state-of-the-art)의 성능을 달성했습니다. 우리는 AI가 편집한 텍스트를 탐지할 수 있을 뿐만 아니라, 인간의 글에 대해 AI가 변경한 정도도 감지할 수 있음을 보여줍니다. 이는 저자 식별(authorship attribution), 교육 및 정책에 중요한 의미를 갖습니다.

마지막으로, 사례 연구로서 인기 있는 글쓰기 보조 도구인 Grammarly(그래머리)가 적용한 AI 편집의 효과를 분석하기 위해 우리의 모델을 사용합니다. 추가 연구를 장려하기 위해 우리는 모델과 데이터셋을 공개할 것을 약속합니다.

주제: 컴퓨팅 및 언어 (cs.CL) 인용: arXiv:2510.03154 [cs.CL]로 인용 (또는 이 버전의 경우 arXiv:2510.03154v1 [cs.CL]) https://doi.org/10.48550/arXiv.2510.03154 제출 기록: Katherine Thai [v1] 2025년 10월 3일 금요일 16:27:48 UTC (5,596 KB) 전문 링크: PDF 보기, HTML 보기 (실험적), TeX 소스, 라이선스 보기 현재 탐색 컨텍스트: cs.CL < 이전 | 다음 > 새 글 | 최근 글 | 2025-10 탐색 기준 변경: cs 참고 문헌 및 인용: NASA ADS, Google Scholar, Semantic Scholar, BibTeX 내보내기 서지 및 인용 도구: Bibliographic Explorer, Connected Papers, Litmaps, scite.ai 코드, 데이터, 미디어: alphaXiv, CatalyzeX Code Finder, DagsHub, GotitPub, Hugging Face, Papers with Code, ScienceCast 데모: Replicate, Hugging Face Spaces, TXYZ.AI 관련 논문 추천 및 검색 도구: Influence Flower, CORE 추천 arXivLabs 정보: arXivLabs는 커뮤니티 협력자들과 함께하는 실험적 프로젝트로, 협력자들이 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있는 프레임워크입니다. arXivLabs와 함께하는 개인과 조직은 개방성, 커뮤니티, 우수성 및 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 동의했습니다. arXiv는 이러한 가치에 전념하며 이와 함께 일합니다.

원문 보기
원문 보기 (영어)
--> Computer Science > Computation and Language arXiv:2510.03154 (cs) [Submitted on 3 Oct 2025] Title: EditLens: Quantifying the Extent of AI Editing in Text Authors: Katherine Thai , Bradley Emi , Elyas Masrour , Mohit Iyyer View a PDF of the paper titled EditLens: Quantifying the Extent of AI Editing in Text, by Katherine Thai and 3 other authors View PDF HTML (experimental) Abstract: A significant proportion of queries to large language models ask them to edit user-provided text, rather than generate new text from scratch. While previous work focuses on detecting fully AI-generated text, we demonstrate that AI-edited text is distinguishable from human-written and AI-generated text. First, we propose using lightweight similarity metrics to quantify the magnitude of AI editing present in a text given the original human-written text and validate these metrics with human annotators. Using these similarity metrics as intermediate supervision, we then train EditLens, a regression model that predicts the amount of AI editing present within a text. Our model achieves state-of-the-art performance on both binary (F1=94.7%) and ternary (F1=90.4%) classification tasks in distinguishing human, AI, and mixed writing. Not only do we show that AI-edited text can be detected, but also that the degree of change made by AI to human writing can be detected, which has implications for authorship attribution, education, and policy. Finally, as a case study, we use our model to analyze the effects of AI-edits applied by Grammarly, a popular writing assistance tool. To encourage further research, we commit to publicly releasing our models and dataset. Subjects: Computation and Language (cs.CL) Cite as: arXiv:2510.03154 [cs.CL] (or arXiv:2510.03154v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2510.03154 Focus to learn more arXiv-issued DOI via DataCite Submission history From: Katherine Thai [ view email ] [v1] Fri, 3 Oct 2025 16:27:48 UTC (5,596 KB) Full-text links: Access Paper: View a PDF of the paper titled EditLens: Quantifying the Extent of AI Editing in Text, by Katherine Thai and 3 other authors View PDF HTML (experimental) TeX Source view license Current browse context: cs.CL < prev | next > new | recent | 2025-10 Change to browse by: cs References & Citations NASA ADS Google Scholar Semantic Scholar export BibTeX citation Loading... BibTeX formatted citation &times; loading... Data provided by: Bookmark Bibliographic Tools Bibliographic and Citation Tools Bibliographic Explorer Toggle Bibliographic Explorer ( What is the Explorer? ) Connected Papers Toggle Connected Papers ( What is Connected Papers? ) Litmaps Toggle Litmaps ( What is Litmaps? ) scite.ai Toggle scite Smart Citations ( What are Smart Citations? ) Code, Data, Media Code, Data and Media Associated with this Article alphaXiv Toggle alphaXiv ( What is alphaXiv? ) Links to Code Toggle CatalyzeX Code Finder for Papers ( What is CatalyzeX? ) DagsHub Toggle DagsHub ( What is DagsHub? ) GotitPub Toggle Gotit.pub ( What is GotitPub? ) Huggingface Toggle Hugging Face ( What is Huggingface? ) Links to Code Toggle Papers with Code ( What is Papers with Code? ) ScienceCast Toggle ScienceCast ( What is ScienceCast? ) Demos Demos Replicate Toggle Replicate ( What is Replicate? ) Spaces Toggle Hugging Face Spaces ( What is Spaces? ) Spaces Toggle TXYZ.AI ( What is TXYZ.AI? ) Related Papers Recommenders and Search Tools Link to Influence Flower Influence Flower ( What are Influence Flowers? ) Core recommender toggle CORE Recommender ( What is CORE? ) Author Venue Institution Topic About arXivLabs arXivLabs: experimental projects with community collaborators arXivLabs is a framework that allows collaborators to develop and share new arXiv features directly on our website. Both individuals and organizations that work with arXivLabs have embraced and accepted our values of openness, community, excellence, and user data privacy. arXiv is committed to these values and only works with partners that adhere to them. Have an idea for a project that will add value for arXiv's community? Learn more about arXivLabs . Which authors of this paper are endorsers? | Disable MathJax ( What is MathJax? )