메뉴

#언어 모델

HN
Hacker News 28일 전
IMP 8

대규모 언어 모델의 거부 행동은 단일 방향성에 의해 매개된다

이 연구는 대화형 대규모 언어 모델이 유해한 요청을 거부하는 메커니즘이 모델 내부의 단일 1차원 부분 공간(방향성)에 의해 결정된다는 사실을 13개의 주요 오픈소스 모델을 통해 입증합니다. 연구진은 이 방향성을 제거하면 모델의 안전장치가 무력화되고, 반대로 추가하면 무해한 요청도 거부하게 만들 수 있음을 보였습니다. 이러한 기계적 해석 가능성(Mechanistic Interpretability) 연구는 현재 AI 안전성 미세조정(Fine-tuning) 방식의 취약성을 지적하며, 모델 내부 구조 이해가 행동 제어 기술로 이어질 수 있음을 시사합니다.

AI 안전성 메커니즘 해석 가능성 언어 모델
HN
Hacker News 36일 전
IMP 9

오픈AI, API에 GPT-5.5 및 GPT-5.5 프로 공개

오픈AI가 자사 API를 통해 최신 언어 모델인 GPT-5.5와 고성능 버전인 GPT-5.5 Pro를 공개했습니다. 이 모델은 기존 버전 대비 추론 능력 및 처리 속도가 향상되어 실무 개발 및 다양한 비즈니스 애플리케이션에 즉각적으로 활용될 수 있습니다. 개발자 커뮤니티에서도 폭발적인 반응을 보이며 연 1,000개가 넘는 댓글이 달리는 등 AI 업계의 기술적 진보를 확인하는 중요한 이정표로 평가받고 있습니다.

오픈AI GPT-5.5 API
HN
Hacker News 47일 전
IMP 9

내향적 디퓨전 언어 모델(I-DLM)

디퓨전 언어 모델(DLM)의 한계를 극복하고 자기회귀(AR) 모델과 동등한 성능을 달성한 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 이 모델은 기존 DLM이 가진 '내향적 일관성' 부족 문제를 해결하여, 절반 크기의 파라미터로도 대형 모델들을 능가하는 추론 및 코딩 성능을 보여줍니다. 또한 동시 처리 시 높은 처리량을 제공하며 기존 AR 서빙 인프라와 완벽하게 호환된다는 점에서 실무적으로 매우 중요한 의미를 갖습니다.

디퓨전 모델 언어 모델 자기회귀 모델