#인공지능 모델

MarkTechPost • 4일 전

앤스로픽, 새로운 플래그십 '클로드 오푸스 5' 공개

앤스로픽이 최고 수준의 에이전트 코딩 및 컴퓨터 사용 능력을 갖춘 새로운 플래그십 모델인 클로드 오푸스 5를 공개했습니다. 이 모델은 기존 오푸스 4.8을 대체하지만, 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 기존과 동일한 가격을 유지하여 뛰어난 가성비를 제공합니다. 개발자들은 절반에 가까운 비용으로 Fable 5에 필적하는 고도화된 지능과 작업 자동화 기능을 활용할 수 있게 되었습니다.

앤스로픽 클로드 오푸스 5 에이전트 코딩

The Decoder • 4일 전

앤스로픽, 클로드 오퍼스 5 공개... 페이블 5 대비 절반 가격

앤스로픽이 새로운 플래그십 모델인 클로드 오퍼스 5를 공개했습니다. 이 모델은 자체 코드 작성 및 지식 작업 벤치마크에서 최고 수준의 성능을 기록하며, 기존 최상위 모델인 페이블 5에 필적하는 성능을 토큰당 절반 가격에 제공합니다. GPT-5.6 Sol 및 중국 경쟁사들에 대응하여 가성비를 대폭 높린 것이 특징이며, 특히 새로운 문제 해결 능력을 측정하는 ARC-AGI-3 테스트에서 경쟁 모델을 압도하는 성과를 보여주었습니다.

앤스로픽 클로드 오퍼스 5 에이전트 코딩

Hacker News • 4일 전

클로드 오푸스 5 (Claude Opus 5) 발표

앤스로픽(Anthropic)이 최신 AI 모델인 클로드 오푸스 5(Claude Opus 5)를 공개했습니다. 이 모델은 이전 세대인 오푸스 4.8 대비 동일한 비용으로 압도적인 성능 향상을 보여주며, 코딩 및 지식 작업 벤치마크에서 새로운 SOTA(State-of-the-Art)를 달성했습니다. 특히 모델의 노력도(effort) 설정을 통해 토큰 비용과 지능도를 최적화할 수 있어 실무자의 일일 업무 효율성을 극대화하는 데 중요한 의미가 있습니다.

인공지능 모델 클로드 코딩 에이전트

Hacker News • 11일 전

최신 AI 모델 NP-난제 풀이 대결: /goal 모드는 효과가 있을까?

해커톤 출신의 NP-난제인 광섬유 네트워크 설계 문제를 바탕으로 Claude 'Fable 5'와 GPT-5.6 'Sol' 모델의 성능을 비교 테스트했습니다. 그 결과 Fable 5가 전반적으로 가장 뛰어난 성능과 일관성을 보였으며, AI에게 목표를 부여하는 '/goal' 모드는 단순히 '더 열심히' 풀게 만드는 마법의 스위치가 아니라 검색 경로를 바꿀 뿐인 기능으로 확인되었습니다. 이는 최신 AI 모델들의 복잡한 수학적 최적화 문제 해결 능력과 프롬프트 제어 기법의 실질적 효과를 보여줍니다.

인공지능 모델 벤치마크 최적화 문제

MarkTechPost • 20일 전

스페이스엑스AI, 코딩 특화 '그록 4.5' 발표

SpaceXAI가 코딩 및 에이전트 작업에 특화된 'Grok 4.5' 모델을 공개했습니다. 이 모델은 초당 80토큰의 처리 속도를 제공하며, 백만 토큰당 입력 2달러, 출력 6달러의 저렴한 비용으로 뛰어난 가성비를 자랑합니다. 특히 법률 에이전트 벤치마크인 Harvey에서 1위를 차지하며 복잡한 지식 노동 및 코딩 실무에서의 활용 가치를 입증했습니다.

인공지능 모델 코딩 에이전트 그록

The Decoder • 20일 전

Grok 4.5, Fable 5·GPT 5.5 대비 압도적 저렴... 성능 격차 무의미?

xAI가 코드 및 에이전트 작업에 특화된 Grok 4.5를 공개했습니다. Fable 5나 GPT 5.5 같은 경쟁 모델들과 비교해 벤치마크 성능은 약간 뒤처지지만, 토큰당 가격과 사용량 측면에서 압도적인 비용 효율성을 자랑합니다. 뛰어난 가성비를 앞세워 최고 수준의 성능을 요구하지 않는 실무 환경에서 시장 점유율을 빠르게 확보할 것으로 보입니다.

인공지능 모델 xAI 비용 효율성

The Decoder • 20일 전

미스트랄, 카메라 1대로 로봇 제어하는 '로보스트랄 내비게이트' 공개

유럽의 대표적인 AI 스타트업 미스트랄(Mistral)이 로봇 내비게이션을 위한 첫 80억 매개변수(8B) 모델인 '로보스트랄 내비게이트(Robostral Navigate)'를 공개했습니다. 이 모델은 단 하나의 일반 RGB 카메라만으로도 로봇을 복잡한 환경에서 정확하게 안내할 수 있어, 비용 효율적이고 범용성이 높은 로봇 시스템 구축에 중요한 진전으로 평가받습니다.

미스트랄 로봇 내비게이션 인공지능 모델

The Decoder • 23일 전

바이두, '무제한 OCR' 공개... 텍스트 길이와 무관하게 메모리 일정 유지

바이두 연구진이 인간의 망각 원리를 차용한 새로운 어텐션 메커니즘(R-SWA)을 적용하여, 한 번의 추론으로도 수십 페이지의 문서를 처리할 수 있는 '무제한 OCR(Unlimited OCR)' 모델을 개발했습니다. 기존 모델들의 가장 큰 병목이었던 KV 캐시 메모리 문제를 해결하여, 처리 속도와 메모리 사용량을 일정하게 유지하면서도 문서 인식 정확도 벤치마크에서 최고 수준의 성능을 기록했습니다.

OCR 바이두 인공지능 모델

The Decoder • 28일 전

오픈AI, 단일 최상위 모델 전략 벗어난 GPT-5.6 프로 3종 공개

오픈AI의 새로운 논문에 따르면 기존의 단일 최상위 모델이었던 ChatGPT Pro(프로) 체제를 변경하여 GPT-5.6 모델에 '루나 프로(Luna Pro)', '테라 프로(Terra Pro)', '솔 프로(Sol Pro)' 등 세 가지 버전을 도입할 것으로 보입니다. 이를 통해 사용자는 작업의 특성에 맞춰 처리 속도, 처리량(Throughput), 최대 추론 능력 중 최적의 옵션을 선택할 수 있게 되었습니다. 다만 해당 모델들이 실제 ChatGPT 서비스에 적용될지는 아직 명확히 공개되지 않았습니다.

오픈AI GPT-5.6 챗GPT 프로

Hacker News • 28일 전

클로드 소넷 5 출시: 최고 수준의 자율 에이전트 모델

앤스로픽(Anthropic)이 대규모 모델에 맞먹는 추론 및 도구 활용 능력을 갖춘 '클로드 소넷 5'를 공개했습니다. 이 모델은 기존 소넷 모델 대비 자율성이 크게 향상되었으며, 복잡한 코딩과 소프트웨어 엔지니어링 작업을 독립적으로 수행하면서도 합리적인 가격을 유지하여 실무 개발자들에게 효율적인 옵션을 제공합니다.

인공지능 모델 클로드 소넷 5 에이전트 AI

The Decoder • 32일 전

바이두(인민대·바이트댄스)의 디퓨전 언어모델 iLLaDA, 큐웬2.5에 맞먹는 성능 입증

중국 인민대와 바이트댄스가 기존 트랜스포머 방식과 작동 원리가 전혀 다른 디퓨전 기반 언어모델 'iLLaDA(8B)'를 공개했습니다. 이 모델은 기본(Base) 성능에서 자귀접속(autoregressive) 방식의 강자인 큐웬2.5(Qwen2.5) 7B와 동등한 수준을 기록하며 새로운 가능성을 보여줬습니다. 다만 구글의 DiffusionGemma가 속도에 집중한 것과 달리 iLLaDA는 품질에 집중했으며, 추가 미세조정(파인튜닝) 및 강화학습 정렬이 부족해 인스트럭트(Instruct) 모델 성능에는 아직 격차가 있습니다.

디퓨전 언어 모델 바이트댄스 iLLaDA

The Decoder • 36일 전

오픈AI, GPT-5.5-Cyber 공개...보안 벤치마크 앤스로픽 제쳐

오픈AI가 취약점 발견부터 패치 생성까지 전 과정을 자동화하는 보안 모델 'GPT-5.5-Cyber'와 'Codex Security' 업데이트를 전격 공개했습니다. 이 모델은 주요 사이버 보안 벤치마크에서 앤스로픽의 최신 모델을 뛰어넘는 성능을 기록했습니다. 오픈AI는 25개 이상의 글로벌 보안 기업 및 여러 정부와 협력하여 이 기술의 적용 범위를 확대하고 있습니다.

오픈AI 사이버보안 GPT-5.5

The Decoder • 46일 전

클로드 페이블 5, 최고난도 수학 벤치마크에서 GPT-5.5 제압

Anthropic의 최신 모델인 Claude Fable 5가 최고난도 수학 벤치마크인 FrontierMath에서 88%의 정확도를 기록하며 OpenAI의 GPT-5.5를 13점 차이로 크게 앞섰습니다. 이는 불과 반년 전만 해도 최고난도 문제 정답률이 10% 미만이었던 점을 고려하면 AI의 수학적 추론 능력이 비약적으로 발전했음을 보여줍니다. 이러한 성능 향상은 단순한 벤치마크를 넘어, 오랜 미해결 수학 난제를 실제로 해결하는 등 실제 현실 세계에도 큰 파급력을 미치고 있습니다.

Anthropic OpenAI 수학 추론

MarkTechPost • 48일 전

구글, 최대 4배 빠른 텍스트 생성 오픈 모델 공개

구글 딥마인드가 실험적인 260억(26B) 매개변수의 오픈 모델인 'DiffusionGemma'를 공개했습니다. 이 모델은 텍스트 디퓨전(Text Diffusion) 기법을 적용하여 GPU 환경에서 기존 대비 최대 4배 빠른 속도로 텍스트를 생성하는 것이 특징입니다.

인공지능 모델 구글 딥마인드 오픈소스

Hacker News • 49일 전

클로드 페이블 5 및 미토스 5 시스템 카드

클로드(Claude)의 새로운 버전인 '페이블 5(Fable 5)'와 '미토스 5(Mythos 5)'에 대한 공식 기술 문서입니다. 이 문서는 새로운 모델들의 안전성, 성능 평가 및 윤리적 가이드라인을 다루고 있습니다. 제공된 본문은 PDF 파일의 암호화된 바이너리 데이터로 인해 내용을 확인할 수 없습니다.

인공지능 모델 클로드 보고서

r/LocalLLaMA • 65일 전

엘론 머스크, 내년 0.5T Grok 모델 공개 예고

일론 머스크가 내년에 0.5조(0.5T) 파라미터 규모의 Grok 모델을 공개할 계획이라고 밝혔습니다. 이와 함께 현재 Grok-3가 오픈소스로 공개되며 업계의 큰 주목을 받고 있습니다. 거대 언어 모델(LLM)의 성능 향상과 오픈소스 생태계 확장에 중요한 이정표가 될 것으로 보입니다.

Grok 오픈소스 인공지능 모델

MarkTechPost • 68일 전

마이크로소프트, 오픈AI·구글 능가하는 웹 브라우저 에이전트 'Fara 1.5' 공개

마이크로소프트 리서치가 4B, 9B, 27B 크기의 웹 브라우저 컴퓨터 사용 에이전트 모델군인 Fara 1.5를 공개했습니다. Fara 1.5-27B 모델은 Online-Mind2Web 벤치마크에서 72%의 점수를 기록하며 오픈AI의 Operator, 구글의 Gemini 2.5 Computer Use 등 기존 최고 수준 모델들을 뛰어넘는 성능을 입증했습니다. 또한, 제한된 데이터를 활용해 에이전트를 훈련시키는 합성 데이터 파이프라인인 FaraGen1.5도 함께 발표되었습니다.

에이전트 마이크로소프트 오픈소스

r/singularity • 83일 전

제네시스 AI, 자율형 모델 '진 26.5' 공개

제네시스 AI(Genesis AI)가 스스로 판단하고 작업을 수행할 수 있는 자율형 AI 모델인 '진 26.5(Gene'26.5)'를 공개했습니다. 실무자 관점에서 이 모델은 사용자의 개입을 최소화하고 복잡한 작업을 독립적으로 수행할 수 있는 완전 자율(Autonomous) 에이전트 시스템의 발전을 시사합니다. 최신 소식은 X(구 트위터) 계정을 통해 확인할 수 있습니다.

제네시스 AI 자율형 AI 에이전트

TechCrunch AI • 84일 전

오픈AI, 챗GPT 기본 모델로 'GPT-5.5 인스턴트' 공개

오픈AI가 챗GPT의 새로운 기본 모델인 'GPT-5.5 Instant'를 공개했습니다. 이 모델은 수학 및 멀티모달 추론 벤치마크에서 이전 모델을 크게 상회하는 성능을 보여주며, 법률 및 의료 등 민감한 분야의 환각(Hallucination) 현상을 줄이는 데 집중했습니다. 특히 과거 대화 및 파일 등을 참조하는 개인화된 컨텍스트 관리 기능과 모델의 기억 출처를 확인 및 수정할 수 있는 기능이 추가되어 사용자 경험이 크게 향상되었습니다.

오픈AI GPT-5.5 인스턴트 챗GPT

r/LocalLLaMA • 91일 전

엔비디아 새 추론 모델 '네모트론' 유출?

레딧(Reddit)에 엔비디아의 새로운 AI 모델로 추정되는 'Nemotron-3-Nano-Omni-30B-A3B-Reasoning'의 추론 템플릿 코드가 유출되었습니다. 이 코드는 사용자의 프롬프트에 따라 모델의 '생각(Thinking)' 기능을 켜고 끌 수 있는 고급 추론 제어 시스템을 포함하고 있어, 엔비디아가 강력한 오픈소스 추론 모델을 준비하고 있음을 시사합니다.

인공지능 모델 엔비디아 추론 모델

The Decoder • 94일 전

GPT-5.5, 벤치마크 1위이지만 환각 여전... API 비용은 20% 상승

OpenAI의 최신 모델 GPT-5.5가 다시 한번 종합 AI 성능 평가 1위를 차지했지만, 여전히 높은 수준의 환각(Hallucination) 현상을 보이는 것으로 나타났습니다. 놀랍게도 모델의 추론 능력이 향상되었음에도 불구하고, 말도 안 되는 질문을 사실처럼 포장하거나 잘못된 정보를 확신하는 경향이 이전 버전과 비슷하거나 오히려 더 악화된 부분도 존재합니다. API 호출 시 사용하는 토큰(TOKEN) 소모량은 줄었으나 단가 인상으로 인해 결과적으로 순비용은 약 20% 상승하여 실무자들은 도입 시 비용 대비 성능과 모델의 신뢰도를 신중하게 따져야 합니다.

GPT-5.5 AI 환각 API 비용

The Decoder • 95일 전

GPT-5.5 벤치마크 1위, 환각 문제와 20% 인상된 비용

OpenAI의 최신 모델 GPT-5.5가 Artificial Analysis 지능 지수 60점을 기록하며 클로드 오퍼스 4.7(Claude Opus 4.7)과 제미나이 3.1 프로 프리뷰(Gemini 3.1 Pro Preview)를 제치고 종합 1위를 탈환했습니다. 토큰(token) 소모량 감소에도 불구하고 API 가격이 실질적으로 약 20% 인상되었으며, 특히 정답률은 높음에도 불구하고 모르는 것을 인정하지 않고 답변을 지어내는 '환각(hallucination)' 비율이 86%에 달해 개선이 시급한 과제로 꼽힙니다.

GPT-5.5 벤치마크 API 비용

Wired AI • 104일 전

당신의 생각을 읽는 '머리글'의 등장

실리콘밸리 스타트업 사비(Sabi)가 사용자의 생각(내면의 언어)을 텍스트로 변환하는 비침습적 웨어러블 뇌-컴퓨터 인터페이스(BCI) 기기를 개발 중입니다. 최대 10만 개의 EEG 센서와 뇌 파운데이션 모델(Foundation Model)을 결합하여 이론적인 장벽을 극복하고자 하며, 일론 머스크의 뉴럴링크와 같은 수술 없이도 누구나 일상적으로 사용할 수 있는 차세대 인터페이스로 주목받고 있습니다.

뇌-컴퓨터 인터페이스 웨어러블 기기 사비 (Sabi)

The Decoder • 104일 전

구글, 70개 이상 언어를 지원하는 가장 표현력 뛰어난 Gemini 3.1 TTS 공개

구글이 텍스트를 자연스러운 음성으로 변환해주는 'Gemini 3.1 Flash TTS' 모델을 공개했습니다. 이 모델은 70개 이상의 언어를 지원하며, 스타일과 속도, 톤을 세밀하게 조정할 수 있는 새로운 오디오 태그 기능을 제공합니다. 이를 통해 개발자들은 전 세계 다양한 언어권에서 사용자 경험을 크게 향상시키는 고품질 음성 서비스를 구축할 수 있습니다.

음성 생성 (TTS) 구글 (Google) Gemini 3.1

Hacker News • 104일 전

구글, 로봇의 물리적 추론 능력 강화한 '제미나이 로보틱스-ER 1.6' 발표

구글이 로봇이 물리적 환경을 이해하고 작업을 수행할 수 있도록 돕는 핵심 모델인 Gemini Robotics-ER 1.6을 공개했습니다. 이번 버전은 다각도 카메라 이해를 바탕으로 한 공간 추론, 계기판 읽기 등의 기능이 대폭 향상되어 복잡한 산업 현장에서 로봇의 자율성을 크게 높였다는 점에서 중요합니다. 개발자들은 현재 Gemini API와 Google AI Studio를 통해 이 모델에 접근하고 활용할 수 있습니다.

로봇 공학 구체화 추론 구글 제미나이

r/singularity • 111일 전

메타, 슈퍼인텔리전스 연구소 첫 AI 모델 '뮤즈 스파크' 공개

메타의 슈퍼인텔리전스 연구소(MSL)가 첫 번째 AI 모델인 '뮤즈 스파크(Muse Spark)'를 공식 소개했습니다. 이번 발표는 메타가 본격적인 초지능(ASI) 경쟁에 돌입했음을 알리는 중요한 이정표로 평가받습니다. 관련된 자세한 기술적 배경과 모델의 세부 사항은 메타 공식 블로그를 통해 확인할 수 있습니다.

메타(Meta) 슈퍼인텔리전스 뮤즈 스파크