#llm 에이전트

LLM, 기존 하이퍼파라미터 최적화 알고리즘을 이길 수 있을까?

본 연구는 LLM 에이전트가 기존 하이퍼파라미터 최적화(HPO) 기법보다 우수한지 평가합니다. 실험 결과, 최첨단 LLM 모델을 활용하더라도 CMA-ES나 TPE 같은 고전적 알고리즘의 성능을 넘지 못했습니다. 대신, 연구진이 기존 알고리즘과 LLM의 장점을 결합한 하이브리드 모델인 Centaur를 제안하여 LLM이 기존 최적화 알고리즘을 완전히 대체하기보다는 보완재로 쓰일 때 가장 효과적임을 입증했습니다.

머신러닝 하이퍼파라미터 최적화 LLM 에이전트

Hacker News • 50일 전

IMP 7

Grep이 전부인가? AI 에이전트 검색 혁신 분석

최근 LLM 에이전트의 복잡한 워크플로우가 가능해짐에 따라, 에이전트 검색 시스템에서 검색 전략과 아키텍처 간의 상호작용을 체계적으로 비교한 연구가 발표되었습니다. 실험 결과, 벡터 검색 방식보다 전통적인 텍스트 검색 도구인 grep이 일반적으로 더 높은 정확도를 보였으며, 동일한 데이터를 사용하더라도 에이전트의 실행 환경(harness)과 도구 호출 방식에 따라 성능이 크게 달라지는 것으로 나타났습니다.

LLM 에이전트 검색 증강 생성 에이전트 아키텍처

Hacker News • 66일 전

IMP 8

백엔드 코드 생성 시 LLM의 구조적 제약 약화 현상

LLM 에이전트가 복잡한 구조적 제약이 요구되는 백엔드 코드를 생성할 때 성능이 급감하는 '제약 감소(Constraint Decay)' 현상을 체계적으로 분석한 연구입니다. 특히 규칙이 엄격한 프레임워크나 데이터베이스 연동 과정에서 기능적 요구사항과 구조적 요구사항을 동시에 만족시키는 것은 여전히 해결해야 할 중대한 과제로 지적됩니다.

LLM 에이전트 백엔드 코드 생성 소프트웨어 엔지니어링

Hacker News • 67일 전

IMP 8

멀티 에이전트 LLM 시스템의 보안 취약점

최신 LLM 에이전트 시스템에 적용된 프롬프트 인젝션 공격 탐지기를 무력화시키는 새로운 '도메인 위장(Camouflage)' 기법이 연구진에 의해 확인되었습니다. 공격 페이로드를 특정 문서의 전문 용어와 권위적 구조로 위장할 경우 Llama 모델의 탐지율이 93.8%에서 9.7%로 급감하며, 상용 보안 분류기마저 이를 전혀 탐지하지 못하는 치명적인 맹점이 존재합니다.

ai 보안 프롬프트 인젝션 llm 에이전트

Hacker News • 96일 전

IMP 7

브라우저 하니스: LLM에 완전한 자유를 주는 도구

LLM이 브라우저 작업을 자율적으로 수행하도록 돕는 오픈소스 도구 'Browser Harness'가 공개되었습니다. 프레임워크나 고정된 규칙 없이 크롬 CDP에 직접 연결되며, 에이전트가 작업 중 필요한 기능을 스스로 작성합니다. 실무자에게는 반복적인 웹 자동화를 간소화하고, 에이전트가 직접 도메인 스킬을 학습·공유하는 구조가 특징입니다.

웹 자동화 LLM 에이전트 오픈소스

Hacker News • 112일 전

IMP 4

LLM, 구조화된 '스마트 센스'로 8비트 게임 플레이

한 개발자가 LLM이 단순히 시각이나 오디오를 해석하는 대신, 게임 세계를 텍스트 기반으로 추상화한 '스마트 센스(Smart Senses)'를 통해 8비트 레트로 게임을 플레이하도록 구현했습니다. 이 방식은 LLM이 원시 데이터를 파싱하는 데 낭비되는 시간을 줄이고, 상태 추론과 행동 계획이라는 핵심 역량에 집중하게 만듭니다. 이 프로젝트는 대형 언어 모델이 복잡한 시각 정보 없이도 구조화된 텍스트 입력을 통해 에이전트처럼 게임 환경과 성공적으로 상호작용할 수 있음을 증명합니다.

게임 AI LLM 에이전트 스마트 센스

MarkTechPost • 116일 전

IMP 8

딥마인드 LLM, 전문가 능가하는 게임이론 알고리즘 자체 개발

구글 딥마인드는 대규모 언어 모델(LLM) 기반의 진화적 코딩 에이전트인 'AlphaEvolve(알파이볼브)'를 제안했습니다. 이 에이전트는 폭발적인 정보와 숨겨진 변수가 존재하는 불완전 정보 게임(예: 포커)을 위한 다중 에이전트 강화학습(MARL) 알고리즘을 스스로 재작성 및 최적화합니다. 기존의 수동 개발 방식을 넘어 전문가가 직접 설계한 것보다 더 우수한 성능을 입증했다는 점에서 매우 중요한 연구 성과로 평가받습니다.

구글 딥마인드 알파이볼브 다중 에이전트 강화학습