#대규모 언어 모델

KV 캐시 압축 기술 경쟁: TurboQuant vs OSCAR vs EpiCache

최근 긴 문맥(Long Context)을 처리하는 AI 모델에서 모델 가중치보다 KV 캐시가 차지하는 메모리 비중이 훨씬 커지는 병목 현상이 발생하고 있습니다. 본 글은 이러한 메모리 문제를 해결하기 위해 등장한 TurboQuant, OSCAR, EpiCache 세 가지 기술의 접근 방식을 분석하며, 이들이 서로 경쟁하기보다는 각자 다른 측면을 보완해 주는 관계라고 설명합니다.

KV 캐시 메모리 최적화 대규모 언어 모델

Hacker News • 50일 전

대규모 언어 모델 초고속 추론 샤오미 MiMo

샤오미, 1T 모델 1000TPS 달성 'MiMo-V2.5-Pro-UltraSpeed' 공개

샤오미와 TileRT는 1조(1T) 파라미터를 갖춘 대규모 언어 모델에서 초당 1,000토큰(1000 TPS)이라는 전례 없는 디코딩 속도를 달성한 'MiMo-V2.5-Pro-UltraSpeed'를 공개했습니다. 단순한 속도 향상을 넘어, AI가 실시간으로 의사결정에 개입하고 스스로 검증 및 교정하는 등 산업 패러다임을 근본적으로 전환시키는 의미를 지닙니다. 오는 6월 9일부터 23일까지 제한된 기업 및 개발자 대상으로 API 및 채팅 체험이 무료로 제공됩니다.

Hacker News • 58일 전

스탠퍼드 대학교 대규모 언어 모델 트랜스포머 모델

스탠퍼드 CS336: 밑바닥부터 시작하는 언어 모델링

스탠퍼드 대학교에서 2026년 봄 학기에 개설되는 'CS336: 밑바닥부터 시작하는 언어 모델링' 강의 소개글입니다. 이 수업은 기존의 뼈대 코드를 활용하는 것과 달리, 학생들이 직접 데이터 수집부터 Transformer 모델 구현, GPU 분산 학습 및 최적화까지 대규모 언어 모델(LLM) 전체를 구축하는 실무적인 과정을 강조합니다. AI 연구원 및 엔지니어에게 필수적인 심화 구현 능력과 시스템 최적화 기술을 배우는 데 매우 중요한 코스입니다.

MarkTechPost • 58일 전

어텐션 메커니즘 대규모 언어 모델 Parallax

Parallax: 소프트맥스 유지 및 학습된 공분산 보정 브랜치를 추가한 파라미터화 국소 선형 어텐션

새로운 어텐션 기법인 Parallax는 기존 국소 선형 어텐션(LLA)의 쿼리별 풀이법(query solver)을 학습된 프로젝터(projector)로 대체하여 연산 밀도를 두 배로 높였습니다. 이를 통해 0.6B 및 1.7B 크기의 언어 모델에서 펄플렉시티(perplexity) 성능이 향상되었습니다. 이 연구는 효율적인 어텐션 메커니즘의 성능을 개선하여 대규모 언어 모델의 추론 및 학습 효율성을 높인다는 점에서 중요합니다.

The Decoder • 60일 전

AI 챗봇, 유용해질수록 인간 행동 모사 능력은 저하돼

대규모 연구에 따르면, AI를 유용한 챗봇으로 만드는 미세조정(Fine-tuning) 과정이 모델이 인간의 행동을 예측하고 모사하는 능력을 떨어뜨리는 것으로 나타났습니다. 기본 모델은 인간의 언어와 인지적 편향을 잘 학습하지만, 강화학습 등 추가 훈련을 거치며 논리적이고 규범에 맞는 답변만을 추구하게 되어 인간 특유의 행동 패턴과 멀어지게 됩니다.

인간 행동 모사 대규모 언어 모델 미세조정

MarkTechPost • 63일 전

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩

MarkTechPost • 63일 전

LLM 파라미터 수정 없는 새로운 지식 학습 모듈 'MEMO'

NUS, MIT, A*STAR 연구진이 기존 대규모 언어 모델(LLM)의 파라미터 변경 없이 새로운 지식을 학습할 수 있는 모듈형 프레임워크인 'MEMO'를 제안했습니다. 이 프레임워크는 말뭉치 지식을 별도의 학습 가능한 메모리 모델(MEMORY model)에 인코딩하여 LLM의 성능을 유연하게 확장할 수 있게 해줍니다. 이는 모델 재학습에 따른 막대한 비용과 시간을 절감할 수 있는 실용적인 대안으로, AI 실무자들에게 매우 중요한 연구 성과입니다.

대규모 언어 모델 메모리 모델 지식 학습

Hacker News • 64일 전

GPU 없는 AI 데이터센터의 가능성과 한계

과거 데이터센터는 단순히 서버와 스토리지를 연결하는 남-북(North-South) 트래픽 중심이었으나, AI 클러스터는 수천 개의 GPU가 데이터를 교환하는 동-서(East-West) 트래픽 중심의 분산 슈퍼컴퓨터로 변모했습니다. 이 과정에서 대규모 데이터 전송과 완벽한 동기화가 필수적이 되어, 단 하나의 패킷 지연이나 손실도 전체 모델 학습 속도에 치명적인 병목을 유발하게 됩니다. 이를 해결하기 위해 도입된 무손실(Lossless) 네트워크 기술(RoCEv2, PFC)은 새로운 병목 현상을 유발하며, 현재 업계는 이를 극복하기 위해 인피니밴드(InfiniBand)와 레일 최적화(Rail Optimization)를 핵심 해결책으로 삼고 있습니다.

AI 인프라 데이터센터 GPU 네트워킹

The Decoder • 73일 전

새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로

카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.

인공지능 평가 벤치마크 수학 추론

TechCrunch AI • 73일 전

AI가 대신 논문 작성? 아크라이브, 1년 제명 조치

글로벌 프리프린트 저장소인 아크라이브(arXiv)가 연구자가 대규모 언어 모델(LLM)을 활용해 생성한 결과를 검증하지 않고 제출할 경우, 최대 1년간 사이트 이용을 금지하는 강력한 제재를 발표했습니다. 이는 AI 생성 콘텐츠로 인한 학술 연구의 신뢰도 하락과 조작된 인용 문헌 등의 문제를 방지하기 위한 조치로, AI 사용을 완전히 금지하는 것이 아니라 연구자의 최종 검증과 책임을 강제하는 것이 핵심입니다.

아크라이브 AI 규제 학술 연구

MarkTechPost • 79일 전

사카나 AI·엔비디아, LLM 최대 21.9% 속도 향상 기술 공개

사카나 AI와 엔비디아 연구진은 L1 정규화를 적용해 피드포워드 레이어의 99% 이상을 희소화(Sparsity)하면서도 모델 성능 저하를 최소화하는 기법을 선보였습니다. 이를 새로운 희소 데이터 포맷과 융합된 CUDA 커널(CUDA Kernels)을 통해 실제 GPU 처리량 향상으로 연결하여, LLM의 학습 속도를 최대 21.9%, 추론 속도를 20.5% 각각 향상시켰습니다.

최적화 희소화 사카나 AI

Hacker News • 81일 전

IMP 5

포르투갈어 LLM 'AMÁLIA'와 오픈소스의 한계

포르투갈 정부의 550만 유로 지원으로 개발된 유럽 포르투갈어 대규모 언어 모델(LLM) 'AMÁLIA'의 기술 보고서를 분석한 글입니다. 이 프로젝트는 언어적 주권을 위해 추진되었으나, 실제 학습에 사용된 유럽 포르투갈어 데이터의 비율이 낮고 모델 가중치 등 핵심 자료가 공개되지 않아 완전한 오픈소스라는 명목에 부합하지 않는다는 비판적 평가를 담고 있습니다.

대규모 언어 모델 오픈소스 자연어 처리

MarkTechPost • 89일 전

큐원팀, LLM 내부 구조 해독하는 '큐원-스코프(SAE)' 오픈소스 공개

알리바바 클라우드의 Qwen 팀이 대규모 언어 모델(LLM)의 내부 작동 방식을 해석하고 제어할 수 있는 오픈소스 희소 오토인코더(SAE) 모음인 'Qwen-Scope'를 공개했습니다. 이 도구는 모델의 내부 상태를 인간이 이해할 수 있는 언어나 스타일 같은 개념으로 분해하여, 가중치 수정 없이 실시간으로 모델의 출력을 제어하는 디버깅 및 개발 도구로 활용될 수 있습니다. 이를 통해 개발자들은 값비싼 컴퓨팅 자원을 소모하지 않고도 모델의 오작동을 진단하고 원하는 방향으로 쉽게 평가 및 수정할 수 있게 되었습니다.

대규모 언어 모델 오픈소스 희소 오토인코더

404 Media • 93일 전

구글 딥마인드 논문: LLM은 결코 의식을 가질 수 없다

구글 딥마인드의 수석 연구원은 최신 논문을 통해 AI와 같은 컴퓨팅 시스템은 물리적인 육체와 생존을 위한 내재적 동기가 없기 때문에 결코 의식을 가질 수 없다고 주장했습니다. 이는 AI 기업 CEO들이 설파하는 범용인공지능(AGI) 도래와 같은 장밋빛 전망과 대비되며, 사실상 AI의 상업적, 실용적 한계를 명확히 규정하는 철학적 주장입니다. 전문가들은 이 주장의 타당성에는 공감하면서도, 이미 수십 년 전부터 제기되어 온 학계의 오래된 논의를 재활용했을 뿐이라고 지적했습니다.

인공지능 의식 딥마인드 AGI

r/OpenAI • 94일 전

스탠포드 연구진, AI에 DNA 입력해 신종 바이러스 설계… 지구 생명체에 없는 단백질 사용

스탠포드 연구진이 대규모 언어 모델(LLM)에 DNA 염기서열을 학습시켜 새로운 바이러스를 설계하게 한 실험 결과를 발표했습니다. AI가 생성한 수백 개의 가상 바이러스 설계도 중 16개가 실제 세포를 감염시키는 기능적 바이러스로 작동했으며, 그중 하나는 현존하는 어떤 생명체에서도 발견되지 않는 완전히 새로운 단백질을 사용한 것으로 확인되었습니다.

생물 보안 대규모 언어 모델 단백질 설계

TechCrunch AI • 96일 전

DeepSeek 오픈소스 AI 대규모 언어 모델

딥시크, 최신 AI 모델 V4 공개…

중국의 AI 연구소 딥시크(DeepSeek)가 최신 대규모 언어 모델인 DeepSeek V4(Flash 및 Pro)의 프리뷰 버전을 공개했습니다. 이번 모델은 최대 1.6조 개의 파라미터를 갖춘 오픈웨이트 모델로서, 미스트럭스(Mixture-of-experts) 방식을 채택해 추론 비용을 절감하면서도 추론 및 코딩 벤치마크에서 최고 수준의 폐쇄형 모델들과 거의 차이를 좁혔습니다. 특히 기존 최고 성능 모델들과 비교해 압도적으로 저렴한 API 사용 비용을 제공하며 시장의 경쟁력을 확보하고 있습니다.

r/singularity • 96일 전

딥시크, 신규 오픈소스 모델 'DeepSeek V4 Pro' 출시

중국의 AI 기업 딥시크(DeepSeek)가 자사의 최신 대규모 언어 모델인 'DeepSeek V4 Pro'를 허깅페이스(Hugging Face)에 공개했습니다. 이 모델은 MIT 라이선스를 채택한 오픈소스 프로젝트로, MMLU-Pro 벤치마크에서 1위를 차지하는 등 수학, 코딩, 추론 능력에서 최고 수준의 성능을 입증했습니다. 특히 8-bit 및 FP8 양자화를 지원하여 메모리 효율성을 높인 것이 특징이며, 상용 및 연구 목적으로의 활용이 기대됩니다.

딥시크 오픈소스 대규모 언어 모델

r/LocalLLaMA • 104일 전

IMP 6

알리바바 '큐웬 3.6-35B-A3B' 모델 공개

알리바바가 오픈소스 AI 커뮤니티에 350억 매개변수(35B) 규모의 새로운 언어 모델인 Qwen3.6-35B-A3B를 공개했습니다. 이 모델은 소스코드와 AI 허깅페이스(Hugging Face)를 통해 다운로드 및 활용이 가능합니다. 실무자들에게는 고성능 오픈소스 대안을 모색하거나 파인튜닝 기반으로 활용할 수 있는 중요한 기회가 될 것으로 보입니다.

알리바바 큐웬 오픈소스 모델

MarkTechPost • 104일 전

UCSD·Together AI, 크기 2배 트랜스포머 맞먹는 루프 언어모델 'Parcae' 공개

UCSD와 Together AI 연구진은 기존 언어 모델 구조와 달리 동일한 파라미터 내에서 모델의 깊이를 재사용해 성능을 극대화하는 루프(Looped) 언어 모델 안정적 아키텍처인 'Parcae'를 발표했습니다. 이 모델은 파라미터와 학습 토큰을 무작정 늘리는 대신 추론 시 연산량을 늘리는 방식으로, 두 배 크기의 일반 트랜스포머와 맞먹는 품질을 달성합니다. 이는 엣지(edge) 환경 등 자원이 제한된 상황에서도 효율적으로 고성능 AI 모델을 배포할 수 있는 새로운 방향을 제시한다는 점에서 중요합니다.

대규모 언어 모델 모델 아키텍처 Parcae

MarkTechPost • 104일 전

현대 LLM 학습부터 배포까지: 핵심 기술 파헤치기

현대 대규모 언어 모델(LLM) 개발은 거대한 텍스트 데이터를 신뢰할 수 있는 지능형 시스템으로 변환하는 정교한 파이프라인 과정을 거칩니다. 특히 방대한 데이터를 통해 언어 패턴과 추론 구조를 학습하는 사전 학습(Pretraining) 단계는 모델의 기본 성능을 결정하는 가장 중요한 기반 작업입니다. 이후 모델이 안전하고 실제 서비스에 투입될 수 있도록 돕는 정렬(Alignment) 및 배포 과정이 이어집니다.

대규모 언어 모델 모델 학습 사전 학습

MarkTechPost • 108일 전