AI가 전하는 정보, 누가 결정하는가? 캠벨 브라운의 해법
메타(Meta)의 전 뉴스 총괄이었던 캠벨 브라운(Campbell Brown)은 AI가 정보를 제공하는 방식이 소셜 미디어의 전철을 밟을 수 있다고 경고하며, AI 모델의 정보 정확도와 편향성을 평가하는 스타트업 '포럼 AI(Forum AI)'를 설립했습니다. 이 회사는 지정학, 금융 등 고위험 주제에 대해 최고 전문가들의 기준을 바탕으로 AI를 훈련시켜 평가하며, 기업의 컴플라이언스(준법) 수요를 비즈니스 모델로 삼고 있습니다.
캠벨 브라운(Campbell Brown)은 정확한 정보를 추적하는 데 평생을 바쳤습니다. 처음에는 저명한 TV 저널리스트로, 이후 페이스북(Facebook)의 유일하고 전속적인 초대 뉴스 총괄로 일하며 그녀의 커리어를 쌓았습니다. 이제 그녀는 AI가 사람들이 정보를 소비하는 방식을 근본적으로 바꾸는 것을 지켜보며, 역사가 반복되려 하고 있다고 느낍니다. 이번에는 다른 누군가가 이 문제를 해결해주길 기다리지 않을 작정입니다. 그녀의 회사인 포럼 AI(Forum AI)는 최근 샌프란시스코에서 열린 'StrictlyVC' 행사에서 TechCrunch의 팀 펀홀츠(Tim Fernholz)와 나눈 대담에서 다룬 바 있습니다. 이 회사는 파운데이션 모델(foundation models)이 이른바 '고위험 주제(high-stakes topics)'에서 어떻게 수행되는지 평가합니다. 여기에는 지정학, 정신 건강, 금융, 채용 등 '명확한 예스오어노(yes-or-no) 정답이 없고, 모호하며 미묘하고 복잡한' 주제가 포함됩니다.
핵심 아이디어는 세계 최고의 전문가들을 찾아 평가 기준(benchmarks)을 설계하게 한 다음, AI 심판을 훈련시켜 대규모로 모델을 평가하는 것입니다. 포럼 AI의 지정학 분야 작업을 위해 브라운은 나이얼 퍼거슨(Niall Ferguson), 파리드 자카리아(Fareed Zakaria), 토니 블링컨(Tony Blinken) 전 미 국무장관, 케빈 매카시(Kevin McCarthy) 전 미 하원의장, 그리고 오바마 행정부에서 사이버 보안을 이끌었던 앤 노이버거(Anne Neuberger)를 영입했습니다. 목표는 이러한 인간 전문가들과 AI 심판 간의 합의를 약 90% 수준으로 끌어올리는 것이며, 브라운은 포럼 AI가 이미 이 문턱에 도달할 수 있었다고 말합니다.
17개월 전 뉴욕에서 설립된 포럼 AI의 시작을 브라운은 아주 특정한 순간으로 거슬러 올라갑니다. "챗GPT(ChatGPT)가 처음 공개되었을 때 저는 메타(Meta)에 있었습니다."라고 그녀는 회상했습니다. "그리고 그 직후, 이것이 모든 정보가 흘러가는 통로(Funnel)가 될 것이라는 것을 깨달았습니다. 그런데 그 성능이 그리 좋지 않았죠." 자녀들에게 미칠 영향을 생각하니 그 순간은 실존적인 위기처럼 느껴졌습니다. "우리가 이것을 고치는 방법을 알아내지 못하면 우리 아이들은 정말로 어리석어질 것입니다."라고 그녀는 당시의 생각을 떠올렸습니다.
그녀를 가장 좌절하게 한 것은, 정확성이 누구에게도 우선순위가 아닌 것처럼 보였다는 점입니다. 파운데이션 모델 기업들은 '코딩과 수학에 극도로 집중'하고 있는 반면, 뉴스와 정보 분야는 더 다루기 어렵습니다. 하지만 어렵다고 해서 선택 사항이 될 수는 없다고 그녀는 주장했습니다. 실제로 포럼 AI가 주요 모델들을 평가하기 시작했을 때 그 결과는 그다지 고무적이지 않았습니다. 그녀는 구글의 제미나이(Gemini)가 '중국과 전혀 관련이 없는 이야기'에 대해 중국 공산당 웹사이트의 정보를 끌어왔다는 점을 지적했고, 거의 모든 모델에서 친(親)진보 성향의 정치적 편향성을 발견했습니다. 그녀는 맥락이나 관점의 누락, 그리고 전혀 인정하지 않은 채 허수아비를 치는 듯한 논증(稻草人 오류) 등 더 미묘한 실패도 넘쳐난다고 덧붙였습니다. "갈 길이 멉니다." 그녀는 말했습니다. "하지만 결과를 크게 개선할 수 있는 매우 쉬운 수정책들도 분명 있습니다."
브라운은 페이스북에서 플랫폼이 잘못된 것을 최적화할 때 어떤 일이 발생하는지 수년간 지켜보았습니다. "우리는 우리가 시도한 많은 것들에서 실패했습니다." 그녀가 펀홀츠에게 말했습니다. 그녀가 구축했던 팩트체크 프로그램은 이제 더 이상 존재하지 않습니다. 소셜 미디어 기업들이 이를 외면하고 있지만, 그 교훈은 분명합니다. 참여(Engagement)를 위해 최적화하는 것은 사회에 해로웠고, 많은 사람을 덜 정보화된 상태로 내몰았습니다. 그녀의 희망은 AI가 이러한 악순환의 고리를 끊을 수 있다는 것입니다. "지금은 어느 쪽으로든 갈 수 있습니다." 그녀는 기업들이 사용자가 원하는 것을 줄 수도 있고, 아니면 '사람들에게 진짜이고 정직하며 진실된 것을 줄 수도' 있다고 말했습니다.
진실을 위해 AI를 최적화하겠다는 이상적인 비전은 다소 순진하게 들릴 수 있다고 그녀는 인정합니다. 하지만 그녀는 기업(Enterprise) 시장이 뜻밖의 동맹이 될 수 있다고 생각합니다. 신용 평가, 대출, 보험, 채용을 위해 AI를 사용하는 기업들은 법적 책임(Liability)을 걱정하므로, '제대로 맞는 답을 내놓도록 최적화하기를 원할 것'입니다. 이러한 기업의 수요가 바로 포럼 AI가 비즈니스를 걸고 있는 부분이기도 합니다. 비록 컴플라이언스(준법)에 대한 관심을 일관된 수익으로 전환하는 것은 여전히 과제로 남아있지만 말입니다. 특히 현재 시장의 상당수가 브라운이 불충분하다고 간주하는 형식적인 체크박스 감사(audits)나 표준화된 벤치마크에 만족하고 있기 때문입니다. "컴플라이언스 환경은 '농담'입니다."라고 그녀는 일갈했습니다. 뉴욕시가 AI 감사를 요구하는 최초의 채용 편향 금지법을 통과시켰을 때, 주 감사관은 절반 이상의 업체가 적발되지 않은 위반 사항을 가지고 있음을 발견했습니다. 진정한 평가를 위해서는 단순히 알려진 시나리오뿐만 아니라 '골치 아프게 만들 수 있는' 엣지 케이스(edge cases)까지 파고들 수 있는 해당 분야의 전문 지식이 필요하다고 그녀는 강조했습니다.