#언어 모델

AI 모델 내부에 나타난 '의식 작업 공간'의 발견

Anthropic의 연구진은 Claude 모델 내부에서 인간의 '의식적 접근'과 유사한 특수한 내부 신경 패턴인 'J-space'가 자발적으로 형성되었음을 발견했습니다. J-space는 AI가 텍스트로 출력하지 않고도 내면에서 조용히 개념을 떠올려 다단계 추론이나 제어된 사고를 수행하는 데 핵심적인 역할을 합니다. 이는 AI의 단순한 문장 생성을 넘어, 고차원적인 인지 작용과 추론 메커니즘을 신경과학적 관점에서 해체하고 이해하는 데 매우 중요한 의미를 갖습니다.

해석 가능성 언어 모델 신경과학

Hacker News • 49일 전

IMP 8

GPT-2: 공개하기엔 너무 위험했던 모델 (2019)

2019년 발표된 GPT-2는 GPT-1을 기반으로 파라미터와 학습 데이터를 대폭 확장한 언어 모델입니다. 악의적 사용을 우려해 전체 모델 공개를 보류하고 소규모 모델만 공개했던 이 사건은, 강력한 AI 모델의 책임 있는 공개를 둔러싼 초창기 핵심 이슈였습니다.

GPT-2 OpenAI 언어 모델

Hacker News • 88일 전

IMP 8

대규모 언어 모델의 거부 행동은 단일 방향성에 의해 매개된다

이 연구는 대화형 대규모 언어 모델이 유해한 요청을 거부하는 메커니즘이 모델 내부의 단일 1차원 부분 공간(방향성)에 의해 결정된다는 사실을 13개의 주요 오픈소스 모델을 통해 입증합니다. 연구진은 이 방향성을 제거하면 모델의 안전장치가 무력화되고, 반대로 추가하면 무해한 요청도 거부하게 만들 수 있음을 보였습니다. 이러한 기계적 해석 가능성(Mechanistic Interpretability) 연구는 현재 AI 안전성 미세조정(Fine-tuning) 방식의 취약성을 지적하며, 모델 내부 구조 이해가 행동 제어 기술로 이어질 수 있음을 시사합니다.

AI 안전성 메커니즘 해석 가능성 언어 모델

Hacker News • 95일 전

IMP 9

오픈AI, API에 GPT-5.5 및 GPT-5.5 프로 공개

오픈AI가 자사 API를 통해 최신 언어 모델인 GPT-5.5와 고성능 버전인 GPT-5.5 Pro를 공개했습니다. 이 모델은 기존 버전 대비 추론 능력 및 처리 속도가 향상되어 실무 개발 및 다양한 비즈니스 애플리케이션에 즉각적으로 활용될 수 있습니다. 개발자 커뮤니티에서도 폭발적인 반응을 보이며 연 1,000개가 넘는 댓글이 달리는 등 AI 업계의 기술적 진보를 확인하는 중요한 이정표로 평가받고 있습니다.

오픈AI GPT-5.5 API

Hacker News • 106일 전

IMP 9

내향적 디퓨전 언어 모델(I-DLM)

디퓨전 언어 모델(DLM)의 한계를 극복하고 자기회귀(AR) 모델과 동등한 성능을 달성한 내향적 디퓨전 언어 모델(I-DLM)을 소개합니다. 이 모델은 기존 DLM이 가진 '내향적 일관성' 부족 문제를 해결하여, 절반 크기의 파라미터로도 대형 모델들을 능가하는 추론 및 코딩 성능을 보여줍니다. 또한 동시 처리 시 높은 처리량을 제공하며 기존 AR 서빙 인프라와 완벽하게 호환된다는 점에서 실무적으로 매우 중요한 의미를 갖습니다.

디퓨전 모델 언어 모델 자기회귀 모델