#강화학습

Hacker News • 1일 전

90억 파라미터 오픈소스 모델, 강화학습 파인튜닝으로 최첨단 AI 모델 제압

90억(9B) 개의 매개변수를 가진 오픈소스 모델을 강화학습(RL)으로 미세조정(Fine-tuning) 하자, 단 500달러의 비용으로도 최첨단 상용 AI 모델들을 특정 업무에서 능가하는 성능을 보여주었습니다. 이 성공의 핵심은 단순한 모델 도입이 아니라 기존 워크플로우를 재설계하고, 회사의 고유한 비즈니스 맥락(Context)을 주입하는 전략적 접근에 있습니다. 이 글은 높은 AI 투자 수익률(ROI)을 달성하는 선도 기업들이 오픈소스 모델의 강화학습 파인튜닝에 주목하는 이유를 분석합니다.

강화학습 파인튜닝 오픈소스 모델

TechCrunch AI • 6일 전

전문가들 "Kimi K3의 성능, 단순 기술 도용 때문은 아냐"

미국 백악관은 중국의 문샷(Moonshot)이 수출 통제를 받는 칩을 사용하고 미국 기업 앤스로픽(Anthropic)의 모델을 불법적으로 증류(Distillation)하여 오픈소스 모델인 Kimi K3를 만들었다고 비난했습니다. 하지만 AI 전문가들은 Fable 모델이 공개된 지 얼마 되지 않았으며, Kimi K3의 압도적인 성능은 단순한 데이터 증류나 지도 미세조정(SFT)만으로는 불가능하다고 반박했습니다. 대규모 강화학습(RL)과 자체적인 고도화된 훈련이 있었을 것으로 분석하며, 증류 기법의 한계와 최근 중국 모델들의 실제 기술력을 보여주는 사례로 주목받고 있습니다.

AI 모델 오픈소스 미중 AI 경쟁

Hacker News • 8일 전

LLM 추론 노력 제어: 낮음, 중간, 높음 모드 학습법

대형 언어 모델(LLM)이 단순히 정답만 내놓는 것을 넘어, 문제를 단계적으로 풀고 스스로 오류를 수정하는 '추론 모델(Reasoning Model)'로 발전하는 원리를 설명합니다. 특히 수학이나 코딩과 같이 객관적 검증이 가능한 분야에서 보상을 제공하는 강화학습(RLVR)을 통해 모델이 스스로 깨달음('Aha' 순간)을 얻고 논리적 사고 과정을 학습하는 과정을 다룹니다. 최신 AI 모델들이 사용자의 요구나 작업의 난이도에 따라 '낮음, 중간, 높음' 등 추론 노력(Reasoning Effort)을 조절할 수 있는 배경을 이해하는 데 필수적인 글입니다.

추론 모델 강화학습 대형 언어 모델

The Decoder • 13일 전

오픈AI, 자체 AI로 모델 해킹하는 데 성공… 인간 뛰어넘어

오픈AI는 'GPT-Red'라는 내부 AI 모델을 도입하여 자체 GPT 모델의 보안 취약점을 자동으로 찾아내고 있습니다. 이 시스템은 인간 레드팀(보안 테스터)보다 훨씬 뛰어난 84%의 성공률로 프롬프트 인젝션(Prompt Injection) 등의 공격을 시뮬레이션하며, 이를 통해 모델의 보안을 대폭 강화했습니다. 이는 AI 모델의 자동화된 방어 및 진화 가능성을 입증했다는 점에서 매우 중요합니다.

오픈AI 보안 레드팀

Hacker News • 13일 전

목표 지향적 마인크래프트 범용 AI 모델 'Pan'

Pantograph 연구팀은 인터넷 규모의 비디오 데이터를 사전 학습하여 목표를 달성하는 범용 로봇 AI 모델을 개발했습니다. 이 방법론은 보상 함수나 행동 데이터가 없는 영상에서 '사후 재라벨링(hindsight relabeling)' 기법을 활용해 목표 지향적 행동을 학습하는 것이 핵심입니다. 연구팀은 이를 통해 40억 매개변수(4B) 규모의 모델 'Pan'을 구축하여 마인크래프트 환경에서 전투, 탐험, 건축과 같은 복잡한 장기 목표를 능동적으로 수행할 수 있음을 증명했습니다.

강화학습 로봇공학 마인크래프트

Hacker News • 15일 전

AI를 강화학습시켜 AI를 강화학습시키는 에이전트 개발 (약 1,300달러)

개발자가 강화학습(RL)을 통해 다른 AI 모델을 효과적으로 학습시키는 방법을 스스로 터득하는 메타 에이전트를 구축했습니다. 이 에이전트는 주어진 과제에 맞춰 데이터셋과 보상 코드 등을 작성해 실제 GPU 환경에서 소형 모델을 학습시키며, 모델의 성능이 오를수록 에이전트 자체도 강화학습으로 발전합니다. 코드와 모델 가중치 등 모든 과정이 오픈소스로 공개되어, 자가 개선(self-improving)이 가능한 AI 시스템의 실질적 구현 및 저비용 검증이라는 점에서 매우 중요합니다.

강화학습 오픈소스 메타러닝

MarkTechPost • 15일 전

미스트랄 AI, 단일 카메라로 로봇을 움직이는 8B 내비게이션 모델 발표

미스트랄 AI가 일반적인 자연어 명령과 단일 RGB 카메라만으로 로봇이 복잡한 환경을 탐색할 수 있게 하는 8B 크기의 임바디드 내비게이션 모델 'Robostral Navigate'를 공개했습니다. 이 모델은 값비싼 LiDAR나 깊이 센서 없이도 작동하며, R2R-CE 검증 세트에서 76.6%의 높은 성공률을 기록했습니다. 로봇 공학 분야에서 하드웨어 의존도를 크게 낮출 수 있는 중요한 기술적 진전으로 평가받습니다.

로봇 공학 내비게이션 모델 임바디드 AI

MarkTechPost • 15일 전

스카이폴 AI, 지속적 강화학습 벤치마크 '모르페우스' 공개

Skyfall AI가 환경이 초기화되지 않는 기업용 시뮬레이션 플랫폼인 MORPHEUS를 발표했습니다. 이 플랫폼은 구조적인 비정상성 환경에서 기존 강화학습 모델들이 이론적 한계에 크게 못 미치는 성능을 보인다는 것을 입증하며, 지속적인 학습(Continual Learning)의 필요성을 강력히 제기합니다.

강화학습 벤치마크 지속적학습

MarkTechPost • 16일 전

스탠퍼드, 반복되는 AI 실패 학습하는 'TRACE' 개발

스탠퍼드 대학교 연구진이 에이전트의 반복적인 실패 원인을 분석해, 이를 보완하는 맞춤형 강화학습 환경을 자동 생성하는 시스템 'TRACE'를 공개했습니다. 이 시스템은 부족한 기능별로 전문 LoRA 어댑터를 훈련하고 상황에 맞게 라우팅하여 SWE-bench에서 73.2%의 높은 성능을 달성하는 등 AI 에이전트의 실질적 문제 해결 능력을 크게 향상시켰습니다.

대형언어모델 강화학습 스탠퍼드

MarkTechPost • 16일 전

프라임 인텔렉트, 에이전트 강화학습 평가도구 'Verifiers v1' 공개

AI 연구 개발사 Prime Intellect가 에이전트 강화학습(RL) 훈련 및 평가를 위한 새로운 도구 'Verifiers 0.2.0(v1)'을 공개했습니다. 이 도구는 환경을 과제 세트, 하네스, 런타임으로 분리하여 유연성을 높였으며, 어떤 과제 세트든 호환되는 하네스와 결합해 훈련을 즉시 실행할 수 있도록 지원합니다. AI 실무자들이 에이전트 훈련 환경을 더 쉽게 구성하고 추적할 수 있게 되었다는 점에서 의미가 있습니다.

강화학습 오픈소스 AI 에이전트

Hacker News • 16일 전

AI 연구의 한 단계 예측 함정

강화학습의 거장 리치 서튼(Rich Sutton)은 단기 예측 모델만 학습해 장기 예측을 반복적으로 생성하려는 접근 방식의 한계를 지적합니다. 단기 예측의 오차가 누적되고 계산 복잡도가 기하급수적으로 증가하기 때문입니다. 이를 극복하기 위해 옵션(Options)이나 GVF 등을 활용한 시간적 추상화(Temporal abstraction) 기반 모델 구축을 제안합니다.

강화학습 세계 모델 시간적 추상화

Wired AI • 20일 전

스스로 발전하는 AI, 우리도 직접 만들 수 있다

저자는 최신 AI 기술을 활용해 뉴스레터 작성에 필요한 반복 작업을 자동화하는 '스스로 개선되는 AI 모델'을 직접 구축한 과정을 공유합니다. Claude와 Prime Intellect 등의 도구를 활용해 특정 업무에 특화된 맞춤형 모델을 만들며, 이러한 자가 개선 기술이 거대 기업의 전유물이 아닌 개인과 일반 기업에도 개방될 수 있음을 보여줍니다. 이는 중앙화된 거대 AI 기업에 의존하지 않고도, 누구나 맞춤형 AI를 구축해 업무 효율성을 크게 높일 수 있음을 시사합니다.

자가개선 AI 맞춤형 모델 AI 민주화

Hacker News • 20일 전

SWE-1.7, GPT-5.5급 성능 달성하다

Cognition이 Devin에 탑재된 새로운 코딩 AI 모델 SWE-1.7을 공개했습니다. 이 모델은 훨씬 낮은 비용으로 GPT-5.5 및 클로드 3.5 오퍼스(Claude 3.5 Opus)에 필적하는 최고 수준의 지능을 달성했습니다. 특히 '사후 학습의 한계(Post-training ceiling)'를 뛰어넘어 장기적인 소프트웨어 엔지니어링 작업에 탁월한 성능을 발휘하는 것이 특징입니다.

강화학습 코딩-에이전트 AI-모델

MarkTechPost • 23일 전

튜닉스 GRPO와 LoRA로 젬마-3 수학 추론 훈련하기

구글의 오픈소스 모델인 젬마-3(Gemma-3)에 GRPO(그룹 상대 정책 최적화) 훈련 워크플로우를 적용하여 GSM8K 수학 문제를 단계적으로 풀도록 훈련하는 방법을 다룬 실용적인 가이드입니다. LoRA 어댑터를 결합해 훈련을 가볍게 유지하면서, 모델이 정해진 형식을 따르고 정답을 맞히도록 보상 함수를 설계하는 것이 핵심입니다. AI 모델의 수학적 구조화 추론 및 강화학습 기반 미세조정 파인튜닝 방법을 이해하는 데 중요한 레퍼런스가 될 수 있습니다.

파인튜닝 강화학습 젬마3

MarkTechPost • 24일 전

전 알리바바 Qwen 리더가 밝히는 하이브리드 추론의 한계와 에이전트의 미래

알리바바 '큐원(Qwen)'의 전 기술 책임자인 임준양(Junyang Lin)은 최근 강연과 에세이를 통해 Qwen3의 하이브리드 추론 모델이 가진 한계를 분석하고, AI의 방향성이 단순 추론에서 '에이전트적 사고(Agentic Thinking)'로 전환되어야 함을 강조했습니다. 특히 에이전트 강화학습(RL) 인프라를 구축하는 것이 기술적으로 훨씬 까다로우며, 보상 해킹(Reward hacking)과 같은 문제를 어떻게 해결해야 하는지가 현업 실무자들에게 중요한 과제로 남았습니다.

Qwen 에이전트 하이브리드 추론

Hacker News • 27일 전

단일 트랜스포머 계층, 전체 파라미터 RL 학습과 동일한 효과 입증

대형 언어 모델(LLM)의 강화학습(RL) 시 모델의 모든 파라미터를 업데이트하는 대신, 단일 트랜스포머 계층(레이어)만 학습해도 전체 학습 효과의 대부분을 달성하거나 능가할 수 있다는 연구 결과입니다. 수학적 추론 및 코딩 등 다양한 작업에서 실험한 결과, 학습 효과는 모델 중간 부분의 특정 계층에 집중되어 있는 것으로 나타났습니다. 이는 막대한 컴퓨팅 자원이 소모되는 기존의 전체 파라미터 강화학습 방식의 효율성을 크게 뒤집을 수 있는 중요한 발견입니다.

강화학습 대형언어모델 효율적파인튜닝

Hacker News • 29일 전

오픈소스 자가 개선형 에이전트 코딩 모델 'Ornith-1.0' 공개

Ornith-1.0은 스스로 학습하고 개선하는 오픈소스 에이전트 코딩(Agentic Coding) 모델로, Gemma 4와 Qwen 3.5를 기반으로 다양한 크기(9B~397B)로 출시되었습니다. 강화학습을 통해 해결책뿐만 아니라 탐색 과정까지 공동으로 최적화하여, 유사 규모의 타 오픈소스 모델들을 코딩 벤치마크에서 대폭 상회하는 최고 수준(SOTA)의 성능을 기록했습니다. MIT 라이선스로 누구나 제한 없이 무료로 사용할 수 있다는 점이 가장 큰 특징입니다.

오픈소스 코딩 에이전트 강화학습

Wired AI • 30일 전

사무실 인턴처럼 완벽한 휴머노이드 로봇

스위스 스타트업 플렉시온(Flexion)은 시뮬레이션과 강화학습을 활용해 휴머노이드 로봇이 사무실 잡무를 자율적으로 수행하도록 훈련하는 AI 소프트웨어를 개발했습니다. 이는 기존 원격 조종 방식의 한계를 넘어, 로봇 하드웨어 자체보다 이를 지능화하는 기초 AI 모델이 핵심 경쟁력임을 보여줍니다.

휴머노이드 강화학습 로봇공학

Hacker News • 30일 전

Ornith-1.0: 자가 개선형 에이전트 코딩 LLM 공개

에이전트 코딩(Agentic Coding) 작업에 특화된 오픈소스 모델인 Ornith-1.0이 공개되었습니다. 이 모델은 스스로 문제 해결을 위한 구조(Scaffold)를 생성하고 최적화하는 '자가 개선형 학습 프레임워크'를 적용하여, 동급의 타 오픈소스 모델은 물론 Claude Opus 4.7을 넘어서는 최고 수준의 벤치마크 성능을 기록했습니다. 엣지 기기에 배포 가능한 9B 소형 모델부터 397B 대규모 MoE 모델까지 다양한 버전을 제공하는 것이 특징입니다.

오픈소스-모델 에이전트-코딩 강화학습

TechCrunch AI • 33일 전

파트로너스 AI, AI 에이전트 스트레스 테스트 위해 500억 투자 유치

AI 에이전트 평가 스타트업인 파트로너스 AI(Patronus AI)가 가상의 디지털 환경을 구축해 AI 에이전트의 실제 작업 수행 능력을 평가 및 검증하고 있습니다. 이 솔루션은 주요 AI 랩들의 폭발적인 수요를 이끌어내며, 최근 삼성을 비롯한 글로벌 투자자들로부터 5천만 달러(약 680억 원)의 시리즈 B 투자를 유치하는 성과를 냈습니다. 이는 자율주행차를 훈련시키는 것과 같은 원리로, 에이전트가 다양한 환경에서 꼼수를 부리지 않고 안정적으로 작업을 완수하도록 강화학습을 지원하기 때문입니다.

AI 에이전트 평가 벤치마크

MarkTechPost • 33일 전

딥리인포스스, 강화학습 기반 오픈소스 코딩 모델 'Ornith-1.0' 공개

DeepReinforce가 Gemma 4와 Qwen 3.5를 기반으로 구축된 오픈소스 코딩 모델 패밀리인 Ornith-1.0을 발표했습니다. 이 모델은 고정된 프레임워크를 사용하는 대신 강화학습(RL) 과정에서 자체적인 스캐폴드(Scaffold)를 학습하는 것이 특징입니다. 397B 파라미터의 플래그십 모델은 SWE-Bench Verified에서 82.4점을 기록했으며, 모든 가중치가 MIT 라이선스로 공개되어 실무자들이 자유롭이 활용할 수 있다는 점에서 중요합니다.

오픈소스 코딩 모델 강화학습

Hacker News • 35일 전

큐원 에이전트월드: 범용 에이전트를 위한 언어 세계 모델

알리바바 큐원(Qwen) 연구팀이 에이전트의 추론 및 계획 능력을 향상시키기 위해 7개 주요 도메인의 환경을 시뮬레이션할 수 있는 새로운 언어 기반 세계 모델인 '큐원 에이전트월드(Qwen-AgentWorld)'를 공개했습니다. 이 모델은 기존 최고 수준의 모델들을 능가하는 성능을 보여주며, 방대한 실제 상호작용 데이터와 강화학습(RL)을 통해 탄생했습니다. 이는 단순히 성능이 좋은 모델을 넘어, 가상 환경 시뮬레이터 및 사전 학습 도구로 활용되어 범용 인공지능 에이전트의 학습 효율과 성공률을 획기적으로 끌어올린다는 점에서 중요합니다.

언어모델 에이전트 강화학습

MarkTechPost • 36일 전

프라임 인텔렉트, 1조 매개변수 MoE 모델 훈련용 RL 프레임워크 공개

프라임 인텔렉트(Prime Intellect)가 에이전트 기반 강화학습 작업을 통해 1조 개 매개변수 규모의 MoE(Mixture-of-Experts) 모델을 비동기식으로 훈련할 수 있는 오픈소스 프레임워크 'prime-rl 0.6.0'을 발표했습니다. 이 프레임워크는 소프트웨어 엔지니어링(SWE) 작업을 수행하는 GLM-5 모델을 훈련하며 5분 미만의 짧은 스텝 시간을 기록하여, 대규모 모델 훈련의 효율성을 크게 높였다는 점에서 AI 실무자들에게 매우 중요합니다.

강화학습 MoE 모델 오픈소스

The Decoder • 40일 전

OpenAI, 소량의 '긍정적 특성' 학습으로 AI 조작 방어 성공

OpenAI 연구진은 강화학습(RL)을 통해 '긍정적 특성(진실성, 투명성 등)'을 소량만 학습시켜도 모델 전반의 안전성이 크게 향상되며, 악의적 조작이나 미세 조정(fine-tuning) 공격에도 잘 견딘다는 것을 입증했습니다. 이 방법은 특정 도메인에 국한되지 않고 타 분야로 일반화되며, 원칙 기반인 Anthropic의 접근 방식과는 대비되는 OpenAI의 독자적인 경험적 안전성 강화 모델입니다.

안전성 정렬 강화학습

The Decoder • 41일 전

엔비디아, 스스로 학습하는 AI 코딩 에이전트 로봇 연구

엔비디아, 카네기멜론, UC 버클리 연구진은 AI 코딩 에이전트가 로봇을 스스로 훈련시키는 'ENPIRE' 프레임워크를 개발했습니다. 8개의 로봇이 협력해 핀 조립, 케이블타이 절단 등 까다로운 실제 작업에서 최대 99%의 성공률을 달성했습니다. 이는 로봇 학습 과정에서 인간의 개입을 획기적으로 줄여 학습 시간과 비용을 크게 단축할 수 있는 중요한 기술 패러다임 전환을 보여줍니다.

로봇공학 AI 코딩 에이전트 엔비디아

Hacker News • 49일 전

리치 서튼의 AI 창의성과 발견에 대한 통찰

강화학습의 아버지로 불리는 리치 서튼(Rich Sutton)이 AI의 창의성과 발견의 본질에 대해 깊이 있게 다루는 강연 영상입니다. 그는 AI가 단순한 도구를 넘어 스스로 새로운 지식을 발견하는 주체가 되어야 한다고 강조하며, 이를 위한 경험적 접근법의 중요성을 설명합니다. 최첨단 AI 연구 트렌드를 이해하고 미래의 인공지능 발전 방향을 가늠해볼 수 있는 핵심 자료입니다.

인공지능 리치 서튼 강화학습

Hacker News • 49일 전

LLM 기반 텍스트-CAD 생성·편집 통합 프레임워크

기존에는 텍스트로 CAD 모델을 생성하는 작업과 이를 수정(편집)하는 작업이 분리되어 있어 실용성이 떨어졌습니다. 이 논문은 대형 언어 모델(LLM)을 활용해 모델의 생성과 편집을 하나로 통합한 'PR-CAD' 프레임워크를 제안합니다. 강화학습 기반의 에이전트를 통해 사용자의 의도를 파악하고 정밀하게 설계를 수정하여, 기존 대비 월등한 수준의 제어력과 정확도를 달성하며 CAD 모델링의 효율을 크게 높였습니다.

ai-연구 텍스트-투-CAD 대형-언어-모델

The Decoder • 50일 전

마이크로소프트 'Lens', 모델 크기보다 상세한 캡션의 중요성 입증

마이크로소프트 리서치는 적은 컴퓨팅 자원으로도 고성능을 발휘하는 텍스트-투-이미지(T2I) 생성 모델 'Lens'를 공개했습니다. GPT-4.1이 생성한 고품질의 상세한 이미지 설명(캡션)과 강력한 언어 인코더, 그리고 강화학습 및 추론(Reasoner) 모델을 결합하여 800억 파라미터급 거대 모델들을 무시하는 효율성을 입증했습니다. 이는 자원이 제한된 환경에서도 데이터 품질과 아키텍처 최적화만으로 최고 수준의 이미지 생성 모델을 만들 수 있음을 보여준다는 점에서 매우 중요합니다.

마이크로소프트 리서치 Lens 이미지 생성 모델

The Decoder • 57일 전

튜링상 수상자 리처드 서튼: 순수 생성 AI는 진짜 과학을 할 수 없다

튜링상 수상자 리처드 서튼은 일반적인 생성 AI가 자체적인 '평가' 능력이 부재하여 진정한 과학적 발견을 이뤄낼 수 없다고 주장합니다. 모방이나 무작위 생성에 그치는 순수 생성 모델과 달리, 알파고나 알파폴드, 코딩 에이전트 등은 명확한 피드백과 평가 루프를 갖추고 있어 진정한 창의성과 발견이 가능하다고 설명했습니다.

인공지능 AI 연구 생성 AI

MarkTechPost • 62일 전

엔비디아, 에이전트 RL 훈련 프레임워크 'Polar' 공개

엔비디아가 기존 에이전트 구동부 수정 없이도 강화학습 훈련을 가능하게 하는 롤아웃 프레임워크 'Polar'를 발표했습니다. 이 프레임워크는 API 프록시를 통해 토큰 단위의 상호작용을 캡처하여 완벽한 훈련용 궤적을 재구성하는 것이 특징입니다. 실제 SWE-Bench 테스트에서 Codex, Claude Code 등 다양한 환경의 코딩 성능을 크게 향상시키며 그 효용성을 입증했습니다.

에이전트 강화학습 NVIDIA