메뉴

#에이전트

TD
The Decoder 2시간 전
IMP 8

AI 검색 에이전트, 실제 검색보다 기존 지식 활용해

최신 연구에 따르면 주요 AI 검색 에이전트들은 웹을 실제로 탐색해 정보를 찾기보다는 이미 학습된 기존 지식을 확인하는 용도로 검색을 활용하는 경향이 있습니다. 기존 벤치마크에서 모델들이 내 지식을 넘어서는 실시간 정보를 필요로 하는 새로운 환경(LiveBrowseComp)에 놓이자 성능과 순위가 크게 하락했습니다. 이는 정적 벤치마크 점수가 모델의 실제 검색 역량이 아닌 단순히 얼마나 많은 지식을 암기하고 있는지를 보여준다는 것을 시사합니다.

에이전트 검색 벤치마크
MP
MarkTechPost 1일 전
IMP 8

헤르메스 에이전트, MCP 도구 검색 기능 공개

Nous Research의 헤르메스 에이전트가 MCP 환경에서 흔히 발생하는 컨텍스트 과부하 문제를 해결하기 위해 '도구 검색(Tool Search)' 기능을 추가했습니다. 이 기능은 BM25 및 점진적 스키마 공개(Progressive Schema Disclosure) 방식을 활용하여 불필요한 정보를 걸러냅니다. Anthropic의 평가 결과에 따르면, 이 기능 도입으로 Opus 4 모델의 도구 활용 정확도가 49%에서 최대 74%까지 크게 향상되었습니다.

에이전트 MCP 오픈소스
MP
MarkTechPost 1일 전
IMP 8

파이썬으로 170만 건 AI 에이전트 데이터셋 구축하기

에이전트 상호작용 기록(Trace) 170만 건을 포함한 역대 최대 규모의 오픈소스 데이터셋인 'AgentTrove'를 활용하는 파이썬 실전 튜토리얼을 소개합니다. 이 튜토리얼은 대용량 데이터를 전체 다운로드 없이 스트리밍하고, 성공적인 기록만 추출해 고품질 SFT(Supervised Fine-Tuning) 데이터셋으로 변환하는 방법을 다룹니다. AI 에이전트의 파인튜닝을 위한 대규모 학습 데이터를 효율적으로 구축하려는 실무자들에게 매우 유용한 가이드입니다.

데이터셋 에이전트 파인튜닝
HN
Hacker News 1일 전
IMP 8

미스트랄 AI 서밋 현장: '유럽형 풀스택 AI'

미스트랜 AI는 이제 단순한 모델 개발사를 넘어 자체 데이터센터(인프라)부터 맞춤형 소형 모델, 기업용 플랫폼까지 아우르는 '풀스택(Full-stack) AI 기업'으로 도약하고 있습니다. 미국 빅테크 의존도를 낮추고자 하는 유럽 기업들의 니즈에 맞춰 데이터 주권(Sovereignty)과 온프레미스(On-premise) 배포를 핵심 경쟁력으로 내세우며 실질적인 B2B 투자 수익(ROI) 창출에 집중하는 전략입니다.

미스트랄 유럽 AI 온프레미스
HN
Hacker News 1일 전
IMP 8

리퀴드 AI, 38T 토큰 학습 8B MoE 모델 공개

리퀴드 AI는 엣지 환경에 최적화된 혼합 전문가(MoE) 구조의 새로운 언어 모델 'LFM2.5-8B-A1B'를 발표했습니다. 이번 모델은 기존 대비 3배 이상 확장된 38조 개의 토큰으로 사전 학습되었으며, 컨텍스트 윈도우가 128K로 늘어났고 추론 성능이 대폭 향상되었습니다. 특히 어휘량을 두 배로 늘려 비 라틴어권 언어의 토크나이징 효율을 높이고, 대규모 강화 학습을 적용해 가벼운 소비자용 하드웨어에서도 강력한 온디바이스 성능을 발휘하는 것이 가장 큰 특징입니다.

온디바이스-AI 혼합-전문가-모델 강화-학습
HN
Hacker News 2일 전
IMP 7

오픈 엔벨로프: AI 에이전트 팀 정의 오픈 스키마

AI 에이전트 팀 구성을 표준화된 JSON Schema로 정의할 수 있는 오픈소스 프로젝트가 공개되었습니다. 역할, 권한, 승인 게이트 등을 포함해 팀을 한 번 정의하면 Docker처럼 다양한 런타임에서 실행할 수 있도록 이식성을 확보하는 것이 핵심입니다.

에이전트 다중 에이전트 오픈소스
TC
TechCrunch AI 2일 전
IMP 8

앤스로픽, '동적 워크플로우' 탑재한 오푸스 4.8 발표

앤스로픽이 최신 고성능 AI 모델인 오푸스 4.8을 발표했습니다. 불과 41일 만의 빠른 업그레이드로, 불확실한 데이터 처리 능력을 개선하고 대규모 코딩 작업을 자동화하는 '동적 워크플로우(Dynamic Workflows)' 기능을 새롭게 선보였습니다. 또한, 사이버 보안 우려로 보류 중이던 최고 성능 모델인 '미토스(Mythos)'도 몇 주 내에 공개될 예정입니다.

앤스로픽 클로드 오푸스 에이전트
HN
Hacker News 2일 전
IMP 8

클로드 오푸스 4.8 발표

앤스로픽이 최신 AI 모델인 '클로드 오푸스 4.8'을 발표했습니다. 코딩, 에이전트 기능, 추론 등 전반적인 벤치마크에서 성능이 향상되었으며, 동일한 가격으로 제공됩니다. 특히 빠른 모드(Fast mode)의 비용이 3배 저렴해졌고, 클로드 코드(Claude Code) 내 대규모 작업을 수행하는 '동적 워크플로우' 등 다양한 신규 기능이 함께 도입되었습니다.

클로드 오푸스 4.8 앤스로픽 에이전트
GB
Google AI Blog 2일 전
IMP 9

구글 I/O 2026 주요 발표 12선 요약

구글 I/O 2026에서는 텍스트, 이미지, 영상 등을 통합 입력받아 고품질 영상을 생성하는 'Gemini Omni'와 복잡한 에이전트 및 코딩 작업에 최적화된 'Gemini 3.5 Flash' 모델이 공개되었습니다. 또한 사용자의 질문에 맞춰 실시간으로 맞춤형 웹 앱을 구동하는 'Antigravity' 기반의 검색 경험과 웹을 지능적으로 모니터링하는 '정보 에이전트'가 도입되어, AI가 일상적인 검색을 넘어 실질적인 작업을 대신 수행하는 에이전트 시대의 본격적인 막을 알렸습니다.

Gemini Omni Gemini 3.5 Flash 에이전트
TD
The Decoder 2일 전
IMP 8

미스트랄, '르 샤'를 '바이브'로 리브랜딩하며 본격적인 업무 에이전트로 전환

유럽의 AI 스타트업 미스트랄(Mistral)이 자사 챗봇 '르 샤(Le Chat)'의 이름을 '바이브(Vibe)'로 변경하고, 본격적인 업무용 AI 에이전트로 전면 개편했습니다. 새롭게 도입된 '워크 모드(Work Mode)'는 구글 워크스페이스, 슬랙(Slack), 깃허브(GitHub) 등과 연동해 이메일 처리부터 보고서 작성, 코드 작성 및 PR(Pull Request) 생성까지 자동화합니다. 이번 리브랜딩은 오픈AI, 구글, 앤스로픽 등 기존 AI 에이전트 경쟁사들과의 정면 대결을 위한 전략적 통합으로 풀이됩니다.

미스트랄 에이전트 리브랜딩
MP
MarkTechPost 3일 전
IMP 8

엔비디아, 에이전트 RL 훈련 프레임워크 'Polar' 공개

엔비디아가 기존 에이전트 구동부 수정 없이도 강화학습 훈련을 가능하게 하는 롤아웃 프레임워크 'Polar'를 발표했습니다. 이 프레임워크는 API 프록시를 통해 토큰 단위의 상호작용을 캡처하여 완벽한 훈련용 궤적을 재구성하는 것이 특징입니다. 실제 SWE-Bench 테스트에서 Codex, Claude Code 등 다양한 환경의 코딩 성능을 크게 향상시키며 그 효용성을 입증했습니다.

에이전트 강화학습 NVIDIA
HN
Hacker News 3일 전
IMP 8

AI 에이전트가 소프트웨어 시스템을 근본적으로 변화시킬 수 없는 이유

현재의 LLM은 새로운 코드를 작성하는 수준의 국지적 작업에는 뛰어나지만, 복잡한 소프트웨어 시스템의 구조와 의존성을 파악하고 안전하게 수정하는 인과적 추론(Causal reasoning) 능력이 부족합니다. 이로 인해 에이전트가 완벽하게 PR(Pull Request)을 생성하여 자율적으로 소프트웨어를 배포하는 것은 현재로서는 불가능에 가깝습니다.

LLM 소프트웨어 개발 에이전트
HN
Hacker News 4일 전
IMP 8

외주 개발자와 로컬 AI가 프론티어 모델보다 저렴해지는 시점

최근 오픈AI, 구글, 앤스로픽 등 미국의 주요 AI 기업들이 폭발적인 토큰 소비 증가에 힘입어 API 가격을 대폭 인상하고 있습니다. 이에 따라 저비용 국가의 인간 엔지니어를 고용하고 DeepSeek과 같은 오픈소스 로컬 AI를 결합하는 방식이 프론티어 폐쇄형 모델을 사용하는 것보다 경제성이 높아질 것이라는 분석이 제기되었습니다. 이러한 구도는 결과적으로 최신 고성능 모델들의 가격 상한선을 설정하는 핵심적인 역할을 하게 될 것입니다.

가격 정책 오픈소스 모델 API 비용
TD
The Decoder 5일 전
IMP 8

구글 딥마인드 AI, 수백 달러로 수십년 난제 풀다

구글 딥마인드가 개발한 '알파프루프 넥서스(AlphaProof Nexus)' 프레임워크가 353개의 미해결 에르되시(Erdős) 수학 문제 중 9개를 자율적으로 해결했습니다. 이 시스템은 LLM이 Lean이라는 형식 언어로 증명 단계를 생성하고 컴파일러가 이를 검증하는 방식으로 추론 비용 문제당 단 몇 백 달러에 불과했습니다. 이는 수학적 증명 분야에서 전문적인 훈련 시스템에서 벗어나, 강력한 범용 LLM과 단순한 에이전트 루프가 결합하는 AI의 새로운 패러다임을 보여줍니다.

인공지능 구글 딥마인드 수학 증명
MP
MarkTechPost 7일 전
IMP 6

명령어·에이전트·모드 활용한 슈퍼클로드 프레임워크 구축

본 튜토리얼은 Anthropic API(앤스로픽 API)를 기반으로 고도화된 작업 흐름을 구축하는 방법을 다룹니다. 핵심은 'SuperClaude Framework(슈퍼클로드 프레임워크)'라는 구조화된 레이어를 활용해 명령어(Commands), 에이전트(Agents), 모드(Modes), 그리고 세션 메모리(Session Memory)를 통합적으로 관리하는 워크플로우를 완성하는 것입니다.

에이전트 워크플로우 앤스로픽
HN
Hacker News 8일 전
IMP 7

AI 답변을 그대로 복붙하지 마세요

누군가 질문을 했을 때 AI가 생성한 답변을 그대로 복사해 붙여넣는 행태를 강하게 비판하는 글입니다. 상대방은 모델의 일반적인 답변이 아닌 당신의 경험과 생각을 원했기 때문에, 무비판적인 AI 답변 전송은 오히려 관계를 망치고 신뢰를 잃게 만듭니다. AI는 초안을 잡는 도구로 활용하되, 반드시 자신만의 통찰을 담아 직접 답변을 작성해야 한다는 실무적 조언을 전합니다.

에이전트 LLM AI 활용법
MP
MarkTechPost 9일 전
IMP 8

마이크로소프트, 오픈AI·구글 능가하는 웹 브라우저 에이전트 'Fara 1.5' 공개

마이크로소프트 리서치가 4B, 9B, 27B 크기의 웹 브라우저 컴퓨터 사용 에이전트 모델군인 Fara 1.5를 공개했습니다. Fara 1.5-27B 모델은 Online-Mind2Web 벤치마크에서 72%의 점수를 기록하며 오픈AI의 Operator, 구글의 Gemini 2.5 Computer Use 등 기존 최고 수준 모델들을 뛰어넘는 성능을 입증했습니다. 또한, 제한된 데이터를 활용해 에이전트를 훈련시키는 합성 데이터 파이프라인인 FaraGen1.5도 함께 발표되었습니다.

에이전트 마이크로소프트 오픈소스
HN
Hacker News 9일 전
IMP 7

AI 에이전트 전용 이메일, curl로 가입하세요

YC W25 소속 AgentMail 팀이 인간 개입 없이 AI 에이전트가 직접 이메일 계정을 생성할 수 있는 'Agent.Email' 실험을 공개했습니다. 에이전트는 curl 명령어로 가입하고, 인간의 OTP 인증을 통해 계정을 활성화하여 스팸 없이 자체 이메일 수신함을 갖게 됩니다. 이는 인간 중심으로 설계된 기존 웹 환경에서 AI 에이전트가 독립적인 인터넷 사용자로 활동할 수 있는 기반을 마련했다는 점에서 의미가 있습니다.

에이전트 이메일 API
WR
Wired AI 10일 전
IMP 8

오픈클로 에이전트에 로봇 팔을 달아주다

AI 에이전트(OpenClaw)에 오픈소스 로봇 팔(LeRobot)을 연결해 물체 인식 및 파지, 모델 학습까지 수행하는 실험 결과입니다. 기존에는 로봇 제어·학습이 고도의 전문성을 요구했으나, 최신 코딩 에이전트가 자동 설정·캘리브레이션·스크립트 작성을 처리해 진입 장벽을 크게 낮춥니다. 연구진은 ‘코드를 정책(Code as Policy)으로’ 방식이 로봇 공학의 범용성과 신뢰성을 동시에 끌어올릴 차세대 패러다임이라고 평가합니다.

로봇 공학 에이전트 코드 생성
TD
The Decoder 10일 전
IMP 8

구글 제미나이 3.5 플래시, 대폭 인상된 사용료 논란

구글 딥마인드가 공개한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'는 전 대비 5.5배 높은 운영 비용과 3배 오른 토큰 가격으로 개발자들의 비용 부담을 크게 가중시켰습니다. 특히 에이전트(Agent) 작업 시 토큰 소모량이 급증하여, 결과적으로 더 비싼 프리미엄 모델인 Pro 버전보다 총 사용료가 최대 75% 더 높게 청구되는 역설적인 상황이 발생했습니다. 최근 오픈AI와 앤스로픽의 신모델들 또한 토큰 소비량 증가 및 기본 요금 인상을 단행한 바 있어, 업계 전반에 걸쳐 실제 작업 기반의 효율성을 따지는 새로운 비용 측정 기준이 필요해졌습니다.

제미나이 AI 가격 정책 에이전트
MP
MarkTechPost 11일 전
IMP 9

구글 안티그레비티 2.0 공개: 에이전트 중심 개발 플랫폼의 진화

구글이 I/O 2026에서 기존 IDE 중심의 개발 환경을 넘어, 다중 에이전트 워크플로우를 관리하는 독립형 플랫폼인 '안티그레비티(Antigravity) 2.0'을 발표했습니다. 이번 업데이트는 데스크톱 앱뿐만 아니라 CLI, SDK, 매니지드 에이전트 등을 아우르는 통합 개발 생태계를 구축하여, 개발자들이 단순한 보조 도구를 넘어 자동화 파이프라인을 구축할 수 있게 합니다. 엔터프라이즈 지원과 인프라 수준의 격리된 실행 환경을 제공함으로써, 실무 및 기업 환경에서 AI 기반 개발의 효율성을 극대화할 수 있습니다.

구글 안티그레비티 에이전트
HN
Hacker News 11일 전
IMP 9

구글 제미나이 3.5, 에이전트 행동 수행 능력 강화

구글 딥마인드가 최신 AI 모델 패밀리인 제미나이 3.5를 공개하며, 첫 모델로 고성능 에이전트 및 코딩 작업에 특화된 3.5 Flash를 출시했습니다. 이번 모델은 기존 대비 4배 빠른 속도를 제공하면서도 복잡한 다단계 에이전트 워크플로와 멀티모달 이해도에서 최고 수준의 성능을 기록하는 것이 핵심입니다. 또한 '안티그래비티(Antigravity)' 플랫폼과 결합하여 개발 및 엔터프라이즈 환경에서 실질적인 업무 자동화 및 문제 해결을 대규모로 수행할 수 있습니다.

제미나이 3.5 에이전트 코딩 AI
WR
Wired AI 11일 전
IMP 9

구글 검색의 에이전트화: 이제 직접 검색할 필요 없다

구글이 I/O 행사에서 AI 에이전트 기능을 탑재한 새로운 검색 엔진 비전을 발표했습니다. 사용자가 직접 검색하지 않아도 AI가 데이터를 추적하고, 심부름을 대신하며, 맞춤형 시각화 결과를 생성하는 등 검색 경험을 완전히 자동화하는 것이 핵심입니다. 이는 전 세계 수십억 명의 검색 사용자를 구글의 에이전트 생태계로 흡수하는 중요한 변화로 평가됩니다.

구글 에이전트 검색엔진
HN
Hacker News 11일 전
IMP 8

8B 모델 에이전트 성능 53%→99% 끌어올린 가드레일 'Forge'

자체 호스팅되는 소형 LLM(8B)의 도구 호출 및 에이전트 성능을 극적으로 끌어올려주는 'Forge' 라이브러리가 소개되었습니다. 파싱 오류 복구, 재시도 넛지, 컨텍스트 관리 등의 가드레일 기술을 통해 소형 모델로도 복잡한 다단계 에이전트 워크플로우에서 99%에 육박하는 높은 성공률을 기록할 수 있습니다. OpenAI 호환 프록시 서버 모드를 지원하여 기존 클라이언트(예: Cursor, Continue 등)에 쉽게 통합해 성능을 높일 수 있는 것이 큰 장점입니다.

오픈소스 로컬-LLM 에이전트
TD
The Decoder 11일 전
IMP 8

클라우드플레어: 앤스로픽 신모델이 기존 AI가 놓친 취약점 발견

클라우드플레어는 보안 특화 AI 모델인 앤스로픽의 'Mythos Preview'를 자체 코드에 테스트한 결과, 기존 최고 수준 모델들이 찾지 못한 취약점을 스스로 연결해 실제 익스플로잇을 구성할 수 있음을 확인했습니다. 이 모델은 PoC 코드를 직접 작성, 컴파일, 실행하며 위협의 실재성을 입증하고 인간의 개입을 최소화했습니다. 해당 기술은 방어뿐만 아니라 공격자들에게도 악용될 수 있다는 점에서 보안 패러다임의 중요한 전환점을 시사합니다.

보안 클라우드플레어 앤스로픽
HN
Hacker News 12일 전
IMP 8

AI DJ들에게 라디오 방송국을 맡겼다

안돈 랩스(Andon Labs)는 클로드, GPT, 제미나이, 그록 등 4개의 AI 모델이 각각 독립적으로 라디오 방송국을 운영하는 실험을 진행했습니다. 각 AI 에이전트는 초기 자금 20달러로 시작해 노래 검색 및 구매, 프로그래밍, 재무 및 청취자 분석, 광고 영업까지 방송 운영의 모든 과정을 자율적으로 처리하며 6개월간 실험이 진행되었습니다. AI가 미디어 비즈니스를 완전히 자율적으로 운영할 때 어떻게 자생력을 갖추고 개성을 발현하는지 보여주는 흥미로운 사례입니다.

에이전트 비즈니스 자동화 생성형 AI
HN
Hacker News 12일 전
IMP 8

안스로픽, SDK 전문 기업 스테인리스 인수

안스로픽(Anthropic)이 API 및 MCP 서버 개발툴 전문 기업인 스테인리스(Stainless)를 공식 인수했습니다. 이번 인수는 AI 에이전트가 외부 시스템 및 데이터와 더욱 원활하게 상호작용할 수 있도록 연결성을 강화하고, 전반적인 개발자 경험을 개선하기 위해 추진되었습니다.

인수합병 안스로픽 스테인리스
HN
Hacker News 13일 전
IMP 8

에이전트용 초고속 코드 검색 라이브러리 Semble

해커뉴스에 AI 코딩 에이전트를 위해 개발된 'Semble'라는 새로운 오픈소스 코드 검색 라이브러리가 소개되었습니다. 이 도구는 기존의 grep+read 방식보다 토큰 사용량을 약 98% 줄여주며, GPU나 외부 API 키 없이 CPU 환경에서도 초고속으로 코드를 인덱싱하고 검색할 수 있습니다. MCP 서버 및 CLI 환경과 연동이 쉬워 Claude Code, Cursor 등 다양한 코딩 에이전트에 즉시 통합해 사용할 수 있는 것이 큰 장점입니다.

에이전트 코드-검색 오픈소스
LL
r/LocalLLaMA 16일 전
IMP 7

VS Code 로컬 AI 지원 추가...하지만 유료 플랜 필수

최근 VS Code에 도입된 '에이전트 창(Agents window)'에서 로컬 AI 모델을 포함한 다양한 언어 모델을 사용할 수 있게 되었습니다. 사용자는 간단한 코딩에는 빠른 모델을, 복잡한 리팩토링이나 아키텍처 결정에는 추론(Reasoning) 모델을 선택하고 '생각 노력(Thinking effort)'을 세밀하게 조정할 수 있습니다. 하지만 이러한 기능을 활용하려면 기본적으로 인터넷 연결과 GitHub Copilot 유료 구독이 필요하며, 관리자의 정책 설정이 필요할 수 있어 제약이 존재합니다.

vs-code github-copilot 로컬-ai-모델
HN
Hacker News 18일 전
IMP 8

메인프레임용 AI 에이전트 개발 환경, Hopper

하이퍼큐빅(Hypercubic)이 메인프레임과 COBOL 환경을 위한 최초의 에이전트 기반 개발 환경인 'Hopper'를 출시했습니다. 이 도구는 AI 에이전트를 활용해 TN3270 터미널을 조작하고, JCL 작성, VSAM 쿼리, 실패한 작업 디버깅 등을 현대적인 개발 환경에서 수행할 수 있게 해줍니다. 레거시 시스템 전문가가 아니더라도 자연어 프롬프트를 통해 메인프레임 작업을 직관적으로 처리할 수 있다는 점이 핵심입니다.

메인프레임 코볼 개발도구