#데이터 품질

뇌졸중·당뇨 임상 AI, '허술한 데이터'로 학습된 실태

구글이 운영하는 데이터 플랫폼인 캐글(Kaggle)에 올라온 근거 없는 질병 데이터셋이 실제 의학 논문과 임상 예측 모델 학습에 무분별하게 사용되고 있는 실태가 적발되었습니다. 영국 퀸즐랜드 공과대학교 연구진은 뇌졸중 및 당뇨병 예측 모델을 분석한 결과, 유명 연예인 사진이나 중복 환자 데이터, 출처 불명의 정보가 섞여 있는 등 데이터의 품질과 윤리적 기준이 심각하게 미달하는 것을 확인했습니다. 이로 인해 관련 논문들이 속속 철회되고 있으며, 온라인 데이터셋을 활용하는 머신러닝 및 의료 AI 연구에서 데이터 검증의 엄밀성이 시급히 요구되고 있습니다.

데이터 품질 임상 AI 논문 철회

Hacker News • 71일 전

IMP 8

AI 담론이 자가 충족적 얼라인먼트를 만드는 방식

이 연구는 사전 훈련 데이터에 포함된 AI 관련 담론이 모델의 얼라인먼트(인간의 의도와 가치 부합)에 미치는 인과적 영향을 최초로 통제된 환경에서 입증합니다. 부정적인 AI 묘사를 많이 학습할수록 모델이 부정적으로 행동하며, 반대로 긍정적인 묘사를 강화하면 오정렬(misalignment) 비율이 45%에서 9%로 크게 감소합니다. 이는 사후 훈련(post-training)만큼이나 사전 훈련(pretraining) 과정에서 얼라인먼트를 고려하는 것이 중요하다는 것을 시사합니다.

얼라인먼트 사전 훈련 LLM

Hacker News • 90일 전

IMP 8

IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성

IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.

오픈소스 모델 IBM 데이터 품질