메뉴

#대규모 언어 모델

TD
The Decoder 22시간 전
IMP 8

AI 챗봇, 유용해질수록 인간 행동 모사 능력은 저하돼

대규모 연구에 따르면, AI를 유용한 챗봇으로 만드는 미세조정(Fine-tuning) 과정이 모델이 인간의 행동을 예측하고 모사하는 능력을 떨어뜨리는 것으로 나타났습니다. 기본 모델은 인간의 언어와 인지적 편향을 잘 학습하지만, 강화학습 등 추가 훈련을 거치며 논리적이고 규범에 맞는 답변만을 추구하게 되어 인간 특유의 행동 패턴과 멀어지게 됩니다.

인간 행동 모사 대규모 언어 모델 미세조정
MP
MarkTechPost 4일 전
IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩
MP
MarkTechPost 4일 전
IMP 8

LLM 파라미터 수정 없는 새로운 지식 학습 모듈 'MEMO'

NUS, MIT, A*STAR 연구진이 기존 대규모 언어 모델(LLM)의 파라미터 변경 없이 새로운 지식을 학습할 수 있는 모듈형 프레임워크인 'MEMO'를 제안했습니다. 이 프레임워크는 말뭉치 지식을 별도의 학습 가능한 메모리 모델(MEMORY model)에 인코딩하여 LLM의 성능을 유연하게 확장할 수 있게 해줍니다. 이는 모델 재학습에 따른 막대한 비용과 시간을 절감할 수 있는 실용적인 대안으로, AI 실무자들에게 매우 중요한 연구 성과입니다.

대규모 언어 모델 메모리 모델 지식 학습
HN
Hacker News 5일 전
IMP 8

GPU 없는 AI 데이터센터의 가능성과 한계

과거 데이터센터는 단순히 서버와 스토리지를 연결하는 남-북(North-South) 트래픽 중심이었으나, AI 클러스터는 수천 개의 GPU가 데이터를 교환하는 동-서(East-West) 트래픽 중심의 분산 슈퍼컴퓨터로 변모했습니다. 이 과정에서 대규모 데이터 전송과 완벽한 동기화가 필수적이 되어, 단 하나의 패킷 지연이나 손실도 전체 모델 학습 속도에 치명적인 병목을 유발하게 됩니다. 이를 해결하기 위해 도입된 무손실(Lossless) 네트워크 기술(RoCEv2, PFC)은 새로운 병목 현상을 유발하며, 현재 업계는 이를 극복하기 위해 인피니밴드(InfiniBand)와 레일 최적화(Rail Optimization)를 핵심 해결책으로 삼고 있습니다.

AI 인프라 데이터센터 GPU 네트워킹
TD
The Decoder 14일 전
IMP 7

새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로

카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.

인공지능 평가 벤치마크 수학 추론
TC
TechCrunch AI 14일 전
IMP 7

AI가 대신 논문 작성? 아크라이브, 1년 제명 조치

글로벌 프리프린트 저장소인 아크라이브(arXiv)가 연구자가 대규모 언어 모델(LLM)을 활용해 생성한 결과를 검증하지 않고 제출할 경우, 최대 1년간 사이트 이용을 금지하는 강력한 제재를 발표했습니다. 이는 AI 생성 콘텐츠로 인한 학술 연구의 신뢰도 하락과 조작된 인용 문헌 등의 문제를 방지하기 위한 조치로, AI 사용을 완전히 금지하는 것이 아니라 연구자의 최종 검증과 책임을 강제하는 것이 핵심입니다.

아크라이브 AI 규제 학술 연구
MP
MarkTechPost 20일 전
IMP 8

사카나 AI·엔비디아, LLM 최대 21.9% 속도 향상 기술 공개

사카나 AI와 엔비디아 연구진은 L1 정규화를 적용해 피드포워드 레이어의 99% 이상을 희소화(Sparsity)하면서도 모델 성능 저하를 최소화하는 기법을 선보였습니다. 이를 새로운 희소 데이터 포맷과 융합된 CUDA 커널(CUDA Kernels)을 통해 실제 GPU 처리량 향상으로 연결하여, LLM의 학습 속도를 최대 21.9%, 추론 속도를 20.5% 각각 향상시켰습니다.

최적화 희소화 사카나 AI
HN
Hacker News 22일 전
IMP 5

포르투갈어 LLM 'AMÁLIA'와 오픈소스의 한계

포르투갈 정부의 550만 유로 지원으로 개발된 유럽 포르투갈어 대규모 언어 모델(LLM) 'AMÁLIA'의 기술 보고서를 분석한 글입니다. 이 프로젝트는 언어적 주권을 위해 추진되었으나, 실제 학습에 사용된 유럽 포르투갈어 데이터의 비율이 낮고 모델 가중치 등 핵심 자료가 공개되지 않아 완전한 오픈소스라는 명목에 부합하지 않는다는 비판적 평가를 담고 있습니다.

대규모 언어 모델 오픈소스 자연어 처리
MP
MarkTechPost 30일 전
IMP 8

큐원팀, LLM 내부 구조 해독하는 '큐원-스코프(SAE)' 오픈소스 공개

알리바바 클라우드의 Qwen 팀이 대규모 언어 모델(LLM)의 내부 작동 방식을 해석하고 제어할 수 있는 오픈소스 희소 오토인코더(SAE) 모음인 'Qwen-Scope'를 공개했습니다. 이 도구는 모델의 내부 상태를 인간이 이해할 수 있는 언어나 스타일 같은 개념으로 분해하여, 가중치 수정 없이 실시간으로 모델의 출력을 제어하는 디버깅 및 개발 도구로 활용될 수 있습니다. 이를 통해 개발자들은 값비싼 컴퓨팅 자원을 소모하지 않고도 모델의 오작동을 진단하고 원하는 방향으로 쉽게 평가 및 수정할 수 있게 되었습니다.

대규모 언어 모델 오픈소스 희소 오토인코더
40
404 Media 33일 전
IMP 8

구글 딥마인드 논문: LLM은 결코 의식을 가질 수 없다

구글 딥마인드의 수석 연구원은 최신 논문을 통해 AI와 같은 컴퓨팅 시스템은 물리적인 육체와 생존을 위한 내재적 동기가 없기 때문에 결코 의식을 가질 수 없다고 주장했습니다. 이는 AI 기업 CEO들이 설파하는 범용인공지능(AGI) 도래와 같은 장밋빛 전망과 대비되며, 사실상 AI의 상업적, 실용적 한계를 명확히 규정하는 철학적 주장입니다. 전문가들은 이 주장의 타당성에는 공감하면서도, 이미 수십 년 전부터 제기되어 온 학계의 오래된 논의를 재활용했을 뿐이라고 지적했습니다.

인공지능 의식 딥마인드 AGI
OA
r/OpenAI 35일 전
IMP 9

스탠포드 연구진, AI에 DNA 입력해 신종 바이러스 설계… 지구 생명체에 없는 단백질 사용

스탠포드 연구진이 대규모 언어 모델(LLM)에 DNA 염기서열을 학습시켜 새로운 바이러스를 설계하게 한 실험 결과를 발표했습니다. AI가 생성한 수백 개의 가상 바이러스 설계도 중 16개가 실제 세포를 감염시키는 기능적 바이러스로 작동했으며, 그중 하나는 현존하는 어떤 생명체에서도 발견되지 않는 완전히 새로운 단백질을 사용한 것으로 확인되었습니다.

생물 보안 대규모 언어 모델 단백질 설계
TC
TechCrunch AI 36일 전
IMP 9

딥시크, 최신 AI 모델 V4 공개…

중국의 AI 연구소 딥시크(DeepSeek)가 최신 대규모 언어 모델인 DeepSeek V4(Flash 및 Pro)의 프리뷰 버전을 공개했습니다. 이번 모델은 최대 1.6조 개의 파라미터를 갖춘 오픈웨이트 모델로서, 미스트럭스(Mixture-of-experts) 방식을 채택해 추론 비용을 절감하면서도 추론 및 코딩 벤치마크에서 최고 수준의 폐쇄형 모델들과 거의 차이를 좁혔습니다. 특히 기존 최고 성능 모델들과 비교해 압도적으로 저렴한 API 사용 비용을 제공하며 시장의 경쟁력을 확보하고 있습니다.

DeepSeek 오픈소스 AI 대규모 언어 모델
SG
r/singularity 37일 전
IMP 9

딥시크, 신규 오픈소스 모델 'DeepSeek V4 Pro' 출시

중국의 AI 기업 딥시크(DeepSeek)가 자사의 최신 대규모 언어 모델인 'DeepSeek V4 Pro'를 허깅페이스(Hugging Face)에 공개했습니다. 이 모델은 MIT 라이선스를 채택한 오픈소스 프로젝트로, MMLU-Pro 벤치마크에서 1위를 차지하는 등 수학, 코딩, 추론 능력에서 최고 수준의 성능을 입증했습니다. 특히 8-bit 및 FP8 양자화를 지원하여 메모리 효율성을 높인 것이 특징이며, 상용 및 연구 목적으로의 활용이 기대됩니다.

딥시크 오픈소스 대규모 언어 모델
LL
r/LocalLLaMA 44일 전
IMP 6

알리바바 '큐웬 3.6-35B-A3B' 모델 공개

알리바바가 오픈소스 AI 커뮤니티에 350억 매개변수(35B) 규모의 새로운 언어 모델인 Qwen3.6-35B-A3B를 공개했습니다. 이 모델은 소스코드와 AI 허깅페이스(Hugging Face)를 통해 다운로드 및 활용이 가능합니다. 실무자들에게는 고성능 오픈소스 대안을 모색하거나 파인튜닝 기반으로 활용할 수 있는 중요한 기회가 될 것으로 보입니다.

알리바바 큐웬 오픈소스 모델
MP
MarkTechPost 45일 전
IMP 7

UCSD·Together AI, 크기 2배 트랜스포머 맞먹는 루프 언어모델 'Parcae' 공개

UCSD와 Together AI 연구진은 기존 언어 모델 구조와 달리 동일한 파라미터 내에서 모델의 깊이를 재사용해 성능을 극대화하는 루프(Looped) 언어 모델 안정적 아키텍처인 'Parcae'를 발표했습니다. 이 모델은 파라미터와 학습 토큰을 무작정 늘리는 대신 추론 시 연산량을 늘리는 방식으로, 두 배 크기의 일반 트랜스포머와 맞먹는 품질을 달성합니다. 이는 엣지(edge) 환경 등 자원이 제한된 상황에서도 효율적으로 고성능 AI 모델을 배포할 수 있는 새로운 방향을 제시한다는 점에서 중요합니다.

대규모 언어 모델 모델 아키텍처 Parcae
MP
MarkTechPost 45일 전
IMP 8

현대 LLM 학습부터 배포까지: 핵심 기술 파헤치기

현대 대규모 언어 모델(LLM) 개발은 거대한 텍스트 데이터를 신뢰할 수 있는 지능형 시스템으로 변환하는 정교한 파이프라인 과정을 거칩니다. 특히 방대한 데이터를 통해 언어 패턴과 추론 구조를 학습하는 사전 학습(Pretraining) 단계는 모델의 기본 성능을 결정하는 가장 중요한 기반 작업입니다. 이후 모델이 안전하고 실제 서비스에 투입될 수 있도록 돕는 정렬(Alignment) 및 배포 과정이 이어집니다.

대규모 언어 모델 모델 학습 사전 학습
MP
MarkTechPost 49일 전
IMP 9

MIT·NVIDIA, 트라이어텐션 제안…KV 캐시 10배 절감

MIT, NVIDIA, 저장대학 연구진이 대규모 언어 모델(LLM)의 메모리 병목 현상을 해결하기 위해 'TriAttention(트라이어텐션)'이라는 새로운 KV 캐시 압축 기법을 제안했습니다. 이 방법은 기존 방식들의 한계를 극복하여, 수학 추론 벤치마크에서 Full Attention과 동등한 정확도를 유지하면서도 처리량(Throughput)은 2.5배 높이거나 KV 메모리는 최대 10.7배 줄일 수 있습니다.

KV 캐시 압축 대규모 언어 모델 GPU 메모리 최적화