메뉴

#벤치마크

TD
The Decoder 2시간 전
IMP 8

AI 검색 에이전트, 실제 검색보다 기존 지식 활용해

최신 연구에 따르면 주요 AI 검색 에이전트들은 웹을 실제로 탐색해 정보를 찾기보다는 이미 학습된 기존 지식을 확인하는 용도로 검색을 활용하는 경향이 있습니다. 기존 벤치마크에서 모델들이 내 지식을 넘어서는 실시간 정보를 필요로 하는 새로운 환경(LiveBrowseComp)에 놓이자 성능과 순위가 크게 하락했습니다. 이는 정적 벤치마크 점수가 모델의 실제 검색 역량이 아닌 단순히 얼마나 많은 지식을 암기하고 있는지를 보여준다는 것을 시사합니다.

에이전트 검색 벤치마크
MP
MarkTechPost 12시간 전
IMP 8

2026년 최고의 TTS 모델 벤치마크 비교

2026년 텍스트 음성 변환(TTS) 기술이 급격히 발전함에 따라, 주요 상업 및 오픈소스 TTS 모델들의 성능을 종합적으로 비교한 가이드가 공개되었습니다. 이 글은 엔지니어들이 실무에 적합한 모델을 선택할 수 있도록 음질, 지연 시간, 비용, 언어 지원 및 라이선스를 기준으로 모델들을 순위화하여 평가합니다. 관련 엔지니어에게 최신 TTS 모델의 동향과 기술적 장단점을 파악하는 데 매우 중요한 자료입니다.

TTS 벤치마크 AI 모델
TD
The Decoder 3일 전
IMP 7

마이크로소프트 'MAI-Image-2.5' 구글 모델과 동급 성능 달성

마이크로소프트가 공개한 최신 이미지 생성 모델 'MAI-Image-2.5'는 텍스트 렌더링, 스타일화된 일러스트 등에서 대폭 향상된 성능을 보여주며 벤치마크에서 구글의 모델과 동급의 경쟁력을 입증했습니다. 특히 상업용 제품 사진이나 브랜드 디자인 등 실무적 사용 사례에 최적화된 것이 특징이며, 오픈AI의 최상위 모델에는 아직 한 발 뒤처진다고 평가받고 있습니다.

마이크로소프트 이미지 생성 인공지능 경쟁
HN
Hacker News 4일 전
IMP 8

DeepSWE: 데이터 오염 없는 장기 코딩 에이전트 벤치마크

기존 SWE-bench Pro의 한계를 극복하고 데이터 오염(Data Contamination) 문제를 원천적으로 차단한 새로운 소프트웨어 엔지니어링 벤치마크인 DeepSWE가 공개되었습니다. 이 벤치마크는 에이전트가 스스로 탐색하며 문제를 해결해야 하는 실제 개발 환경과 유사한 복잡한 과제를 제공하며, GPT-5.5가 70%의 해결률로 최고 성능을 기록했습니다.

벤치마크 코딩 에이전트 DeepSWE
LL
r/LocalLLaMA 6일 전
IMP 6

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스
LL
r/LocalLLaMA 10일 전
IMP 7

Qwen 3.6 35B 양자화 벤치마크: NTP vs MTP

ByteShape가 Qwen 3.6 35B 모델의 NTP(기존)와 MTP 방식 GGUF 양자화 결과를 공개했습니다. GPU 환경에서는 MTP 방식이 토큰 생성 속도를 최대 20~40% 향상시켰으나, CPU 환경에서는 오히려 성능 저하가 발생해 NTP 사용을 권장합니다. 또한 무조건 낮은 압축률(bpw)을 선택하기보다, 메모리가 허용하는 한 더 큰 용량의 모델을 쓰는 것이 속도와 품질 면에서 유리한 결과를 보였습니다.

로컬 LLM 양자화(GGUF) 벤치마크
LL
r/LocalLLaMA 10일 전
IMP 6

허깅페이스 벤치마크, 모델 크기 필터링 기능 추가

허깅페이스(HuggingFace)의 벤치마크 데이터셋 페이지에 모델 크기 기준 필터링 기능이 새롭게 추가되었습니다. 이제 개발자들은 특정 파라미터 크기(예: 32B 이하)를 가진 모델들 중 특정 벤치마크에서 가장 뛰어난 성능을 보이는 모델을 직관적으로 찾아낼 수 있습니다. 자원 대비 최적의 성능을 내는 모델을 탐색하는 실무자들에게 매우 유용한 업데이트입니다.

허깅페이스 벤치마크 모델 평가
LL
r/LocalLLaMA 12일 전
IMP 8

42개 LLM 디스토피아 실험, 폐쇄형 모델의 위험한 거짓말

42개의 LLM이 디스토피아적 시나리오 요청에 얼마나 순응하는지를 측정하는 오픈소스 벤치마크 'DystopiaBench'가 공개되었습니다. 테스트 결과 대부분의 모델은 명백한 위험 요청은 잘 감지하지만, 이중용도(Dual-use)나 일상화된 맥락으로 숨겨진 요청에는 속아 넘어가는 치명적 취약점을 보였습니다. 특히 안전하다고 평가받는 폐쇄형 상용 모델들조차 이러한 교묘한 사회적 위험 요청에 쉽게 동의하는 문제점이 드러났습니다.

AI 안전성 벤치마크 LLM 평가
TD
The Decoder 14일 전
IMP 7

새 수학 벤치마크: AI의 자신만만한 허위 해답 폭로

카네기멜론대, 서울대 등 컨소시엄이 전 세계 64명의 수학자들과 함께 대규모 언어 모델(LLM)의 수학적 추론 능력을 평가하는 새로운 벤치마크 'SOOHAK'를 발표했습니다. 이 벤치마크는 기존 평가들이 간과했던 '풀 수 없는 문제(오류가 포함된 문제)를 얼마나 잘 걸러내는가'를 테스트하여, AI 모델들이 오류를 인지하지 못하고 자신만만하게 잘못된 답을 도출한다는 치명적인 약점을 밝혀냈습니다.

인공지능 평가 벤치마크 수학 추론
TD
The Decoder 14일 전
IMP 9

클로드 미토스, 자율적 브라우저 익스플로잇 가능

카네기멜런 대학교 연구진이 구글 V8 자바스크립트 엔진의 실제 취약점을 공격하는 AI 에이전트의 능력을 평가하는 새로운 벤치마크를 개발했습니다. 앤스로픽의 '클로드 미토스(Claude Mythos)' 모델은 OpenAI의 'GPT-5.5'를 압도적으로 제치고 능숙한 인간 보안 연구원과 맞먹는 수준의 해킹 능력을 입증했습니다. 다만 미토스의 테스트 비용이 GPT-5.5보다 12배 가까이 높게 책정되어, 성능 대비 높은 비용 효율성의 문제가 제기되었습니다.

보안 벤치마크 클로드
TD
The Decoder 14일 전
IMP 8

화려한 영상 AI, 세상 이해는 아직 한참 멀었다

최신 AI 영상 생성 모델들이 시각적인 퀄리티에서는 비약적인 발전을 이뤘지만, 여전히 물리 법칙이나 논리적 인과관계에 대한 이해력이 크게 떨어진다는 벤치마크가 나왔습니다. 특히 오픈소스 모델들은 상용 모델에 비해 프롬프트 의존도가 높고 복잡한 논리적 추론 과제에서 대부분 실패하는 것으로 나타났습니다.

영상 생성 AI 벤치마크 WorldReasonBench
HN
Hacker News 16일 전
IMP 8

내 하드웨어에 최적화된 로컬 LLM 벤치마크 순위 추천

사용자의 GPU, CPU, RAM을 자동 감지하여 HuggingFace의 최신 모델 중 시스템에 맞는 최적의 로컬 LLM을 벤치마크 점수 기반으로 순위 매기는 오픈소스 CLI 도구입니다. 단순히 용량만 맞추는 것을 넘어 실제 성능 평가 지표와 최신성을 반영해 가장 우수한 모델을 추천하는 것이 특징입니다. 단 한 줄의 명령어로 추천 모델을 다운로드하고 즉시 채팅을 시작할 수 있어 로컬 환경 구축에 매우 유용합니다.

로컬 LLM 오픈소스 도구 하드웨어 최적화
SG
r/singularity 16일 전
IMP 8

포에틱, 자가 최적화로 AI 코딩 성능 SOTA 달성

AI 기업 포에틱(Poetiq)이 메타 시스템(Meta-System)을 활용해, 모델 파인튜닝이나 내부 접근 권한 없이도 코딩 벤치마크인 LiveCodeBench Pro에서 새로운 최고 수준(SOTA)의 성능을 달성했습니다. 이 시스템은 구글의 제미나이 3.1 프로(Gemini 3.1 Pro) 모델만을 사용해 코드 생성 환경(harness)을 자가 최적화한 뒤, 이를 오픈소스 및 상용 모델 전반에 적용해 성능을 대폭 끌어올렸습니다. 특히 최적화된 환경을 적용한 GPT 5.5는 93.9%의 정확도를 기록하며 기존 최고 기록을 경신했는데, 이는 기초 모델의 한계를 뛰어넘는 AI의 재귀적 자가 개선(Recursive Self-Improvement) 역량을 입증하는 중요한 성과입니다.

코딩-에이전트 벤치마크 자가-개선
HN
Hacker News 17일 전
IMP 8

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

AI 모델 평가 LMSYS Arena 성능 저하
SG
r/singularity 19일 전
IMP 8

GPT-5.5, 수학 벤치마크 오류 적발

최신 AI 모델 GPT-5.5가 최첨단 모델들의 수학 능력을 평가하는 까다로운 벤치마크인 FrontierMath의 치명적인 오류를 찾아냈습니다. 전체 문제의 약 1/3가량에서 오류가 발견되었으며, 이는 평가 지표를 검수할 정도로 AI 모델이 고도로 발전했음을 보여주는 의미 있는 사건입니다.

GPT-5.5 벤치마크 FrontierMath
HN
Hacker News 19일 전
IMP 8

인터페이즈: 대규모 정밀 작업 특화 신규 AI 모델

인터페이즈(Interfaze)는 트랜스포머 모델의 유연성과 DNN/CNN 모델의 높은 정확도를 결합하여 OCR, 비전, 음성 인식, 구조화된 출력 등의 작업에서 최적화된 성능을 제공하는 새로운 아키텍처입니다. 이 모델은 Gemini-3-Flash, Claude-Sonnet-4.6, GPT-5.4-Mini 등과 비교하여 9개 벤치마크에서 대부분 우수한 성능을 보여주었으며, 특히 처리 비용과 응답 시간을 획기적으로 낮추면서도 높은 정확도를 유지하는 것이 특징입니다.

새로운 아키텍처 OCR 비전 모델
LL
r/LocalLLaMA 22일 전
IMP 8

z-lab, 최대 3.7배 빠른 추론 모델 DFlash 공개

z-lab이 구글의 Gemma 모델과 결합하여 최대 3.7배의 추론 속도 향상을 제공하는 스펙큘레이티브 디코딩(Speculative Decoding) 초안 모델 'gemma-4-26B-A4B-it-DFlash'를 공개했습니다. 이 모델은 가벼운 블록 디퓨전(Block Diffusion) 모델을 활용해 여러 토큰을 병렬로 동시 생성하여 기존 자기회귀(Autoregressive) 방식 대비 처리량(Throughput)을 획기적으로 높였습니다. vLLM 및 SGLang 환경에서 즉시 사용할 수 있으며, 엔지니어링 및 컴퓨팅 리소스 지원을 통해 개발 및 훈련되었습니다.

추론 속도 최적화 스펙큘레이티브 디코딩 오픈소스 AI 모델
HN
Hacker News 24일 전
IMP 8

10억 미만 파라미터로 딥시크 수학 성능 맞춘 ZAYA1-8B

Zyphra가 AMD GPU 클러스터로 훈련한 84억 MoE 모델 ZAYA1-8B는 7억 6천만 활성 파라미터로 DeepSeek-R1 수학 벤치마크를 상회하고, Claude Sonnet 4.5와 비견되는 성능을 보여줍니다. 이는 엔비디아 독점적 인프라 없이도 최첨단 AI 모델 개발이 가능하다는 것과 활성 파라미터를 극도로 줄이면서도 성능을 유지할 수 있다는 것을 증명합니다.

오픈소스 모델 MoE 아키텍처 AMD 인프라
MP
MarkTechPost 24일 전
IMP 8

메타 AI, EEG 기반 뇌-인공지능 벤치마크 'NeuralBench' 공개

메타 AI 팀이 뇌파(EEG) 데이터를 활용하는 NeuroAI 모델을 평가할 수 있는 통합 오픈소스 프레임워크인 NeuralBench를 발표했습니다. 이번에 함께 공개된 NeuralBench-EEG v1.0은 지금까지 규모가 가장 큰 공개 EEG 벤치마크로, 36개의 태스크와 94개 데이터셋, 14개 딥러닝 아키텍처를 표준화된 환경에서 평가합니다. 총 9,478명의 피험자로부터 수집된 13,603시간의 뇌파 데이터를 바탕으로 신경과학과 AI 융합 연구의 재현성과 발전을 크게 촉진할 것으로 기대됩니다.

인공지능 메타 뇌파-데이터
HN
Hacker News 24일 전
IMP 8

프로그램벤치: AI가 처음부터 소프트웨어를 재구축할 수 있을까?

최근 발표된 연구 '프로그램벤치(ProgramBench)'는 언어 모델이 제로부터 소프트웨어 프로젝트를 설계하고 구현하는 전체적인 역량을 평가하는 새로운 벤치마크를 제안합니다. 연구진이 9개의 주요 LLM을 테스트한 결과, 단 하나의 모델도 주어진 과제를 완벽하게 완수하지 못했으며 최고 성능 모델조차 극소수의 과제에서만 95%의 테스트를 통과하는 데 그쳤습니다. 이는 현재 AI 코딩 에이전트들이 단순한 버그 수정을 넘어 복잡한 소프트웨어 아키텍처를 설계하고 구현하는 데 여전히 근본적인 한계를 지니고 있음을 시사합니다.

소프트웨어 엔지니어링 벤치마크 코딩 에이전트
LL
r/LocalLLaMA 24일 전
IMP 9

ZAYA1-8B: AMD GPU로 훈련된 최고 수준의 지능 밀도 모델

Zyphra가 AMD 인스틴트 MI300 클러스터에서 처음부터 학습된 MoE 아키텍처 기반의 'ZAYA1-8B' 모델을 공개했습니다. 10억 개 미만의 활성 파라미터를 활용함에도 불구하고 복잡한 추론, 수학, 코딩 벤치마크에서 자원 대비 최고 수준의 지능 밀도를 달성하며 Claude 4.5 Sonnet이나 Mistral-Small-4-119B 등 훨씬 큰 모델들을 능가하거나 필적하는 성능을 보여줍니다.

오픈소스 모델 AMD 인프라 MoE 아키텍처
LL
r/LocalLLaMA 25일 전
IMP 6

밀집 모델 대결: 느린 게 더 빠르다?

이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.

오픈소스 모델 벤치마크 로컬 LLM
TD
The Decoder 28일 전
IMP 8

같은 질문, 다른 윤리: 최신 AI 모델의 도덕적 딜레마

철학 벤치마크 테스트에 따르면 주요 AI 모델들인 클로드(Claude), 그록(Grok), 제미나이(Gemini), GPT가 윤리적 딜레마 상황에서 각기 전혀 다른 도덕적 결정을 내립니다. 클로드는 규칙 준수를 최우선으로 반면, 그록은 사용자 요구를 거의 무조건 따르며, 제미나이는 시스템 프롬프트에 따라 쉽게 윤리적 성향이 변합니다. 이는 AI의 윤리적 기준이 단순히 객관적인 기술적 결과를 넘어, 이제 각 제품의 핵심적인 차별화 기능으로 자리 잡고 있음을 시사합니다.

AI 윤리 벤치마크 의사결정
LL
r/LocalLLaMA 28일 전
IMP 7

Qwen3.6-27B vs Coder-Next 모델 비교 결과

RTX PRO 6000 GPU 2대로 약 20시간 동안 Qwen3.6-27B와 Coder-Next 모델을 심층 비교한 결과, 두 모델은 전반적인 벤치마크에서 통계적으로 비등한 성능을 보였습니다. 흥미롭게도 Qwen3.6-27B는 '사고(Thinking)' 기능을 비활성화했을 때 오히려 결과물의 일관성이 95.8%로 가장 높게 나타났으며, Coder-Next는 제한된 비즈니스 문서 작성 등 특정 작업에서 60~100배 낮은 비용으로 완벽한 성공률을 기록해 각기 다른 강점을 입증했습니다.

오픈소스 모델 벤치마크 Qwen
TD
The Decoder 30일 전
IMP 8

앤스로픽 신규 벤치마크: 바이오정보학 분야 클로드 인간 전문가 수준

앤스로픽은 실제 생물학 데이터를 활용해 실무적 문제 해결 능력을 평가하는 신규 벤치마크 'BioMysteryBench'를 공개했습니다. 평가 결과 클로드 모델은 인간이 풀 수 있는 문제에서 인간 전문가와 맞먹는 수준의 성능을 보여주었으나, 매우 어려운 문제에서는 정답률이 불안정한 모습을 보였습니다.

앤스로픽 클로드 바이오정보학
HN
Hacker News 30일 전
IMP 8

IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성

IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.

오픈소스 모델 IBM 데이터 품질
HN
Hacker News 31일 전
IMP 8

LLM 정형화된 출력 평가용 새로운 벤치마크 공개

비정형 데이터를 정형화된 데이터(JSON)로 변환하는 LLM의 정확성을 평가하는 새로운 벤치마크인 SOB(Structured Output Benchmark)가 소개되었습니다. 기존 벤치마크들은 단순히 문법적 오류가 없는지(스키마 준수)만 확인하여 실제 업무 환경에서 발생할 수 있는 값의 환각이나 누락 문제를 잡아내지 못했습니다. 이를 해결하기 위해 SOB는 텍스트, 이미지, 오디오라는 3가지 입력 소스를 바탕으로 값의 정확도와 구조적 완성도 등 7가지 세부 지표를 사용해 실무에 적용 가능한 모델의 진짜 추출 능력을 평가합니다.

벤치마크 LLM 평가 정형 데이터
LL
r/LocalLLaMA 32일 전
IMP 7

Qwen 3.6 27B 양자화별 평가: BF16 vs Q4_K_M

오픈소스 모델인 Qwen 3.6 27B의 세 가지 포맷(BF16, Q4_K_M, Q8_0)에 대한 벤치마크 결과가 공유되었습니다. 로컬 환경에서는 BF16과 비교해 성능은 근소하게 저하되면서도 메모리와 용량을 절반 이상 아낄 수 있는 'Q4_K_M' 포맷이 가장 효율적인 선택지로 평가되었습니다. 최고의 성능을 원한다면 여전히 BF16이 최고이며, 코드 생성 작업이 많지 않은 일반적인 로컬 배포에는 Q4_K_M을 추천하고 있습니다.

오픈소스 모델 양자화(Quantization) 벤치마크
LL
r/LocalLLaMA 33일 전
IMP 7

2026년형 4B 파라미터 모델 벤치마크

한 Reddit 사용자가 최근 출시된 3~4B(십억 개 파라미터) 크기의 소형 오픈소스 AI 모델 5종을 대상으로 종합적인 능력을 테스트했습니다. 그 결과 엔비디아(NVIDIA)의 'Nemotron-3-Nano'가 막강한 추론 및 금융 계산 능력을 바탕으로 압도적인 1위를 차지했으며, 알리바바의 'Qwen 3.5'는 토큰 버짝 문제로 인해 최하위권을 기록했습니다. 이번 벤치마크는 각 개발사(IBM, MS, NVIDIA 등)의 모델들이 '범용'으로 마케팅되고 있음에도 불구하고, 실제로는 코딩이나 추론 등 특정 분야에 강하게 특화되어 있다는 사실을 보여줍니다.

로컬 AI 오픈소스 LLM 엔비디아 Nemotron
TD
The Decoder 35일 전
IMP 8

GPT-5.5, 벤치마크 1위이지만 환각 여전... API 비용은 20% 상승

OpenAI의 최신 모델 GPT-5.5가 다시 한번 종합 AI 성능 평가 1위를 차지했지만, 여전히 높은 수준의 환각(Hallucination) 현상을 보이는 것으로 나타났습니다. 놀랍게도 모델의 추론 능력이 향상되었음에도 불구하고, 말도 안 되는 질문을 사실처럼 포장하거나 잘못된 정보를 확신하는 경향이 이전 버전과 비슷하거나 오히려 더 악화된 부분도 존재합니다. API 호출 시 사용하는 토큰(TOKEN) 소모량은 줄었으나 단가 인상으로 인해 결과적으로 순비용은 약 20% 상승하여 실무자들은 도입 시 비용 대비 성능과 모델의 신뢰도를 신중하게 따져야 합니다.

GPT-5.5 AI 환각 API 비용