#대형언어모델

거짓 안심을 주는 LLM 자신감 점수

LLM(대형 언어 모델)에게 스스로의 답변에 대한 자신감 점수(0~100)를 요구하는 것은 실질적으로 아무런 의미가 없습니다. 현재 모델은 자신의 내부 상태를 정확히 평가할 수 있는 능력이 부족하며, 이는 단지 결과를 신뢰할 수 있다는 착각을 유발할 뿐입니다. AI 시스템을 구축하는 실무자들은 이러한 자가 평가 점수에 의존하는 대신, 보다 객관적인 검증 방식을 도입해야 합니다.

대형언어모델 평가 환각현상

Hacker News • 1일 전

IMP 8

‘진리’를 향할 수 없는 LLM: 타르스키 대각선 공격

최근 AI 안전성 연구에서 LLM의 임베딩 공간 내에 '진리' 방향이 존재하여 모델의 거짓말을 탐지할 수 있을 것이라는 기대가 컸습니다. 그러나 이 글은 '이 문장은 거짓이다'와 같은 자기참조적 역설을 활용한 대각선 공격을 통해 어떤 탐지기도 완벽하게 진리를 특정할 수 없음을 증명합니다. 이는 AI 정렬 및 해석 가능성 연구에서 기하학적·선형적 방식의 한계를 명확히 보여주는 중요한 이론적 통찰입니다.

인공지능 안전성 해석가능성 대형언어모델

Hacker News • 6일 전

IMP 7

비트토렌트 방식으로 집에서 대형 언어 모델 돌리기

가정용 GPU나 구글 코랩 환경에서 비트토렌트(BigScience Petals) 방식으로 초대형 언어 모델을 구동할 수 있는 오픈소스 프로젝트입니다. 사용자들이 모델의 일부분씩을 분산하여 연산함으로써, 초고사양 하드웨어 없이도 Llama 3.1이나 Mixtral 등 거대 모델을 실행하고 파인튜닝할 수 있다는 점이 가장 큰 의의입니다.

오픈소스 대형언어모델 분산컴퓨팅

The Decoder • 16일 전

IMP 7

독일 컨소시엄, 영어·독일어 벤치마크 1위 오픈소스 30B 모델 'Soofi S' 공개

독일 연구 컨소시엄이 도이체 텔레콤의 AI 클라우드 인프라에서 완전히 학습된 오픈소스 언어 모델 'Soofi S'를 공개했습니다. 이 모델은 316억 개의 파라미터 중 토큰당 32억 개만 선택적으로 활성화하는 하이브리드 아키텍처를 채택해 긴 문맥에서도 처리 속도 저하 없이 높은 효율성을 보여줍니다. 결과적으로 영어 및 독일어 벤치마크에서 기존 완전 오픈소스 모델들을 모두 제치고 최고 성능을 달성하며 의미 있는 성과를 기록했습니다.

오픈소스 대형언어모델 Soofi S

MarkTechPost • 16일 전

IMP 8

스탠퍼드, 반복되는 AI 실패 학습하는 'TRACE' 개발

스탠퍼드 대학교 연구진이 에이전트의 반복적인 실패 원인을 분석해, 이를 보완하는 맞춤형 강화학습 환경을 자동 생성하는 시스템 'TRACE'를 공개했습니다. 이 시스템은 부족한 기능별로 전문 LoRA 어댑터를 훈련하고 상황에 맞게 라우팅하여 SWE-bench에서 73.2%의 높은 성능을 달성하는 등 AI 에이전트의 실질적 문제 해결 능력을 크게 향상시켰습니다.

대형언어모델 강화학습 스탠퍼드

MIT Tech Review • 19일 전

IMP 8

클로드의 내부 작동 방식과 오픈AI의 슈퍼 앱

AI 기업 Anthropic이 'J-space'라는 숨겨진 개념 공간을 발견하여 대형 언어 모델(LLM)이 답변을 생성하기 전 내부적으로 어떻게 추론하는지 처음으로 규명했습니다. 또한 OpenAI가 챗봇, 코딩 도구, 새로운 모델을 하나로 묶은 올인원 '슈퍼 앱'을 공개하며 업무 자동화를 본격화하고, SK하이닉스가 미국에서 대규모 상장에 성공하는 등 AI 산업의 핵심 기술 및 비즈니스 동향이 빠르게 전개되고 있습니다.

Anthropic OpenAI 대형언어모델

MarkTechPost • 20일 전

IMP 7

엔비디아, 압축형 하이브리드 MoE LLM 출시

엔비디아가 기존 모델 대비 서버 처리량을 2배 이상 향상한 압축형 하이브리드 전문가 혼합(MoE) 대형 언어 모델을 공개했습니다. 이 모델은 하드웨어에 최적화된 구조적 압축과 지식 증류 기술을 활용하여 총 파라미터와 활성 파라미터 수를 줄이면서도 사용자별 응답 속도는 유지합니다. 결과적으로 동일한 하드웨어 환경에서 처리할 수 있는 동시 사용자 수와 전체 서버 효율성을 극대화할 수 있어, AI 인프라 운영 비용 절감 및 확장성 측면에서 매우 중요합니다.

엔비디아 대형언어모델 모델압축

MIT Tech Review • 20일 전

IMP 6

엠테크 AI 2026: AI 플랫폼의 부상

이 기사는 MIT 테크놀로지 리뷰가 다루는 최신 AI 동향과 핵심 이슈들을 요약한 목록입니다. 스타트업이 LLM(LLM)의 한계를 돌파했다고 주장하는 논란, 중국의 뇌-컴퓨터 인터페이스 칩 승인, AI가 노동 시장에 미치는 영향에 대한 현실적인 분석, 그리고 AI 코딩 도구가 가져올 소프트웨어 개발 방식의 영구적인 변화 등을 다룹니다.

인공지능 대형언어모델 뇌-컴퓨터 인터페이스

MarkTechPost • 22일 전

IMP 9

텐센트, 295B 매개변수 MoE 모델 'Hy3' 공개

텐센트의 Hy팀이 총 295B 크기의 매개변수 중 토큰당 21B만 사용하는 효율적인 MoE(Mixture-of-Experts) 아키텍처 기반의 'Hy3' 모델을 오픈소스로 공개했습니다. 이 모델은 256K의 긴 컨텍스트 창과 강력한 추론 능력을 갖추고 있어 코딩 및 에이전트 업무 수행에 매우 유용하며, 2026년 7월까지 OpenRouter에서 무료로 테스트할 수 있습니다.

텐센트 대형언어모델 오픈소스

Hacker News • 27일 전

IMP 9

단일 트랜스포머 계층, 전체 파라미터 RL 학습과 동일한 효과 입증

대형 언어 모델(LLM)의 강화학습(RL) 시 모델의 모든 파라미터를 업데이트하는 대신, 단일 트랜스포머 계층(레이어)만 학습해도 전체 학습 효과의 대부분을 달성하거나 능가할 수 있다는 연구 결과입니다. 수학적 추론 및 코딩 등 다양한 작업에서 실험한 결과, 학습 효과는 모델 중간 부분의 특정 계층에 집중되어 있는 것으로 나타났습니다. 이는 막대한 컴퓨팅 자원이 소모되는 기존의 전체 파라미터 강화학습 방식의 효율성을 크게 뒤집을 수 있는 중요한 발견입니다.

강화학습 대형언어모델 효율적파인튜닝

Hacker News • 28일 전

IMP 6

IEEE, 대형 언어 모델(LLM) 가상 교육 과정 출시

세계 최대 엔지니어링 학회인 IEEE가 LLM을 직접 설계, 보안 및 배포하는 방법을 다루는 가상 교육 과정을 개설했습니다. 엔지니어들이 복잡한 AI 시스템을 실무에 안전하게 도입하고 활용할 수 있도록 돕는 실무 중심의 프로그램입니다.

대형언어모델 교육 IEEE

Hacker News • 30일 전

IMP 7

블랙박스 대형 언어 모델의 지식 증류

GPT-4와 같은 비공개 대형 언어 모델(LLM)의 내부 구조에 접근할 수 없는 한계를 극복하고, 작은 모델로 지식을 효과적으로 전달하는 새로운 'Proxy-KD' 방법론이 제안되었습니다. 중간 단계의 프록시 모델을 활용하는 이 접근 방식은 기존의 화이트박스 지식 증류 기법을 능가하는 성능을 보여주며, 고성능 모델의 지식을 가볍고 효율적인 모델로 옮기는 데 중요한 진전을 의미합니다.

대형언어모델 지식증류 모델경량화

Hacker News • 49일 전

IMP 9

앤스로픽, 최고 성능 모델 클로드 페이블 5 및 미토스 5 출시

앤스로픽이 AI 성능 벤치마크를 대부분 석권한 최신 모델 '클로드 페이블 5(Claude Fable 5)'와 사이버 보안 특화 모델 '미토스 5(Mythos 5)'를 공개했습니다. 특히 복잡하고 장기적인 소프트웨어 엔지니어링 작업에서 압도적인 성능을 보여주며, 가격은 기존 프리뷰 모델 대비 절반 이하로 책정되었습니다. 보안상 위험을 방지하기 위해 일부 민감한 주제는 필터링되며, 사이버 방어를 위한 미토스 5는 미국 정부와의 협력을 통해 제한적으로 배포됩니다.

클로드 앤스로픽 대형언어모델

The Decoder • 68일 전

IMP 8

코히어, 최강 AI 모델 '커맨드 A+' 오픈소스 공개

캐나다 AI 기업 코히어(Cohere)가 자사의 가장 강력한 언어 모델인 '커맨드 A+(Command A+)'를 아파치 2.0 라이선스로 오픈소스화 했습니다. 이 MoE(Mixture-of-Experts) 모델은 총 2,180억 개의 파라미터 중 250억 개를 활성화하여 단 두 대의 엔비디아 H100 GPU에서도 구동 가능한 효율성을 자랑합니다. 에이전트 벤치마크 및 코딩 테스트에서 이전 모델 대비 비약적인 성능 향상을 기록했으며, 기업의 실무 워크플로우 최적화를 위해 설계되었습니다.

오픈소스 대형언어모델 코히어

Hacker News • 69일 전

IMP 7

PopuLoRA: LLM 추론 능력을 향상시키는 공진화 자가 대전 프레임워크

기존 단일 에이전트 자가 대전(Self-Play) 방식의 한계를 극복하고 LLM의 추론 능력을 향상시키는 새로운 강화학습 프레임워크인 PopuLoRA를 소개합니다. 이 프레임워크는 모델 스스로 쉬운 문제로 수렴하는 현상을 방지하기 위해, 학습 과정에서 서로 경쟁하며 진화하는 교사(문제 생성) 모델과 학생(문제 해결) 모델 집단을 공동으로 훈련합니다. 이를 통해 모델이 지속적으로 더 어렵고 복잡한 과제에 도전하게 만들어 훈련 데이터가 고갈되거나 난이도가 정체하는 문제를 해결합니다.

강화학습 대형언어모델 자가대전

Hacker News • 72일 전

IMP 8

LLM 시대의 TLA+ 입문: 프롬프트로 승리하기

TLA+의 복잡한 문법이 LLM(대형 언어 모델) 시대를 맞아 진입 장벽이 크게 낮아졌습니다. 이제 엔지니어는 시스템과 '올바름(Correctness)'을 정의하는 것에 집중하고, 실제 모델 검사(Model Checking) 코드는 프롬프트로 쉽게 생성해 복잡한 분산 시스템이나 알고리즘을 검증할 수 있습니다. 본문은 고전적인 콩 시뮬레이션 문제를 통해 TLA+의 기본 개념과 상태 변환 논리를 설명합니다.

TLA+ 형식명세 대형언어모델

Hacker News • 74일 전

IMP 8

대형언어모델을 위한 효율적 온라인 메모리 δ-Mem

대형언어모델(LLM)의 장기 기억 및 에이전트 시스템에서 과거 정보를 효율적으로 재사용하기 위한 경량 메모리 메커니즘인 δ-Mem(델타-맴)이 제안되었습니다. 이 기술은 고정된 크기의 8x8 온라인 메모리 상태 행렬만 사용해 기존 모델의 성능을 평균 1.10배, 메모리 집약적 벤치마크에서는 최대 1.31배 향상시켰습니다. 전체 파인튜닝이나 모델 교체 없이 어텐션(Attention) 연산에 저위상 보정을 적용하는 방식으로 효율적인 메모리 활용을 입증했다는 점에서 실무적 가치가 높습니다.

인공지능 대형언어모델 메모리

MarkTechPost • 88일 전

IMP 8

SFT부터 DPO, GRPO까지: TRL을 활용한 LLM 후처리 튜토리얼

이 튜토리얼은 강력한 TRL 라이브러리 생태계를 활용하여 대형 언어 모델(LLM)을 후처리하는 전체 과정을 코드와 함께 안내합니다. 가벼운 베이스 모델을 시작으로 SFT, 보상 모델링(RM), DPO, GRPO 등 4가지 핵심 기법을 점진적으로 적용하며 모델의 정렬(alignment) 파이프라인을 구축하는 방법을 다룹니다. LoRA와 같은 효율적인 기법을 사용하여 구글 코랩(Colab) T4 GPU 같은 제한된 하드웨어 환경에서도 실습할 수 있도록 구성되어 있다는 점이 특징입니다.

대형언어모델 파인튜닝 강화학습