메뉴

AI 모델

30개 소식

새로운 AI 모델 출시 및 업데이트

AI 모델코딩 에이전트오픈소스이미지 생성영상 생성정책/규제비즈니스연구
MP
MarkTechPost 12시간 전
IMP 8

2026년 최고의 TTS 모델 벤치마크 비교

2026년 텍스트 음성 변환(TTS) 기술이 급격히 발전함에 따라, 주요 상업 및 오픈소스 TTS 모델들의 성능을 종합적으로 비교한 가이드가 공개되었습니다. 이 글은 엔지니어들이 실무에 적합한 모델을 선택할 수 있도록 음질, 지연 시간, 비용, 언어 지원 및 라이선스를 기준으로 모델들을 순위화하여 평가합니다. 관련 엔지니어에게 최신 TTS 모델의 동향과 기술적 장단점을 파악하는 데 매우 중요한 자료입니다.

TTS 벤치마크 AI 모델
MP
MarkTechPost 1일 전
IMP 8

제네시스 AI, 확장 가능한 로봇 기반 모델 평가를 위한 '제네시스 월드 1.0' 물리 플랫폼 공개

제네시스 AI가 물리, 렌더링, 컴파일, 툴링 등 4가지 핵심 요소로 구성된 시뮬레이션 플랫폼인 '제네시스 월드 1.0'을 발표했습니다. 이 플랫폼은 시뮬레이션과 실제 로봇 구동 환경 간의 높은 상관관계(피어슨 상관계수 0.8996)를 입증하여 현실 세계를 매우 정밀하게 모사합니다. 더불어 로봇 정책(Policy) 평가 시간을 200시간 이상에서 0.5시간 미만으로 극적으로 단축시켜 로봇 학습 및 테스트의 효율성을 획기적으로 높였다는 점에서 실무자들에게 매우 중요한 의미를 갖습니다.

로봇공학 시뮬레이션 제네시스 AI
MP
MarkTechPost 1일 전
IMP 8

StepFun, 198B MoE 시각-언어 모델 'Step 3.7 Flash' 공개

StepFun이 1980억 개의 파라미터를 갖춘 MoE(Mixture of Experts) 기반의 시각-언어 모델인 Step 3.7 Flash를 발표했습니다. 이 모델은 코딩 에이전트 및 검색 워크플로우에 최적화되었으며, 256K 컨텍스트와 네이티브 비전(Native Vision), 그리고 어드바이저 모드(Advisor Mode)를 지원하는 것이 특징입니다.

StepFun MoE 모델 시각-언어 모델
WR
Wired AI 1일 전
IMP 7

구미니 스파크 체험기: 내 인생을 맡겼더니 남자친구를 '친한 친구' 취급하더라

구글이 새롭게 선보인 상시 작동 AI 에이전트 'Gemini Spark(제미나이 스파크)'의 실사용 체험기를 다룬 글입니다. 개인 이메일과 캘린더 등의 접근 권한을 부여하자, 파티 계획을 자율적으로 완벽하게 수립하지만 연인 관계인 남자친구를 '친한 친구'로 분류하는 등 데이타 기반 판단의 엉뚱함을 보여줍니다. 월 100달러의 프리미엄 구독에서 제공되며 일부 기능(식당 예약 등)은 오류가 발생해 아직 실험적 단계임을 시사합니다.

Gemini Spark AI 에이전트 구글
TD
The Decoder 1일 전
IMP 7

OpenAI, GPT-5.5 Instant 가독성 업그레이드 및 구형 모델 단계적 폐지

OpenAI가 최근 공개한 GPT-5.5 Instant 모델의 응답 품질을 개선하여 더 자연스럽고 읽기 쉬운 구조를 제공합니다. 또한 캔버스(Canvas) 기능을 제거하고 채팅창 내 특수 블록으로 대체하며, 구형 모델인 o3와 GPT-4.5를 오는 8월과 6월에 각각 ChatGPT에서 완전히 퇴출시킵니다.

OpenAI GPT-5.5 모델 업데이트
TD
The Decoder 1일 전
IMP 6

구글, 제미나이 사용량 과다 소진 버그 수정

구글이 제미나이(Gemini) 사용량 할당량이 비정상적으로 빨리 소진되던 버그 여러 건을 수정했습니다. 영상 생성 및 대용량 파일 처리 시 쿼터가 과도하게 차감되던 문제를 해결하고, 실패한 요청에 대해서는 사용량을 부과하지 않도록 정책을 개선했습니다. 이번 조치로 유료 구독자들은 할당량을 훨씬 더 효율적으로 활용할 수 있게 되었습니다.

구글 제미나이 버그 수정
GB
Google AI Blog 1일 전
IMP 9

제미나이 옴니와 3.5 플래시 데모 11선

구글 I/O 2026에서 발표된 영상 생성·편집 모델 '제미나이 옴니(Gemini Omni)'와 복잡한 에이전트 워크플로우 실행에 최적화된 '제미나이 3.5 플래시(Gemini 3.5 Flash)'의 실제 활용 데모가 공개되었습니다. 옴니는 텍스트, 이미지, 오디오, 비디오를 혼합해 고품질 영상을 생성하고 자연어로 세밀하게 편집할 수 있게 해주며, 3.5 플래시는 '안티그래비티(Antigravity)' 하네스와 결합해 대규모의 복잡한 코딩 및 멀티모달 UI 생성 작업을 빠르고 안정적으로 수행합니다. 이번 데모들은 생성형 AI가 단순 생성을 넘어 복잡한 현실의 작업을 자율적으로 수행하고 정교하게 제어할 수 있는 수준에 도달했음을 보여줍니다.

제미나이 옴니 제미나이 3.5 플래시 구글 I/O 2026
HN
Hacker News 1일 전
IMP 8

리퀴드 AI, 38T 토큰 학습 8B MoE 모델 공개

리퀴드 AI는 엣지 환경에 최적화된 혼합 전문가(MoE) 구조의 새로운 언어 모델 'LFM2.5-8B-A1B'를 발표했습니다. 이번 모델은 기존 대비 3배 이상 확장된 38조 개의 토큰으로 사전 학습되었으며, 컨텍스트 윈도우가 128K로 늘어났고 추론 성능이 대폭 향상되었습니다. 특히 어휘량을 두 배로 늘려 비 라틴어권 언어의 토크나이징 효율을 높이고, 대규모 강화 학습을 적용해 가벼운 소비자용 하드웨어에서도 강력한 온디바이스 성능을 발휘하는 것이 가장 큰 특징입니다.

온디바이스-AI 혼합-전문가-모델 강화-학습
HN
Hacker News 1일 전
IMP 9

일반 GPU에서 3k tokens/s 달성한 실시간 LLM 추론 기술

전체 소프트웨어 스택(아키텍처, 엔진, 커널)을 공동 설계(Co-design)하여 일반 데이터센터 GPU에서도 전용 추론 하드웨어 수준의 초고속 LLM 디코딩 속도(초당 3,000토큰)를 달성할 수 있음을 증명한 기술 프리뷰입니다. AI 에이전트의 작업 방식이 순차적이고 반복적이기 때문에 기존의 '총 처리량'보다 '단일 요청 디코딩 속도'가 핵심 성능 지표로 부상했으며, 이를 통해 에이전트의 작업 완료 시간을 기존 8분에서 20초 미만으로 획기적으로 단축할 수 있습니다.

[object Object] [object Object] [object Object]
HN
Hacker News 2일 전
IMP 6

정체불명 Hy3, LLM 랭킹 1위 점령한 이유

대중에게 생소한 중국 텐센트의 오픈소스 모델 'Hy3 preview'가 최근 OpenRouter 모델 사용량 랭킹에서 최고의 인기를 누리던 Claude와 DeepSeek를 큰 폭으로 제치며 부상했습니다. 성능 벤치마크나 사용자 평가는 상위 모델들에 미치지 못하는 수준이지만, 입력 토큰당 약 $0.066라는 극도로 저렴한 가격 책정 덕분에 비용에 민감한 유료 사용자들을 대량으로 끌어들이며 유기적인 사용량 1위를 기록하고 있습니다. 이 현상은 최근 AI 코딩 에이전트 등의 비용이 급증함에 따라, 최고 수준의 성능보다 '가성비'를 선택하는 시장의 실용적인 트렌드를 보여준다는 점에서 중요합니다.

오픈소스 모델 LLM 시장 트렌드 비용 최적화
MP
MarkTechPost 2일 전
IMP 6

리퀴드 AI, 128K 컨텍스트 지원 온디바이스 MoE 모델 공개

리퀴드 AI는 일반 소비자용 하드웨어에서도 구동 가능한 온디바이스용 MoE 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 총 83억 개(8.3B)의 파라미터를 보유하고 있으면서도 연산 시 15억 개(1.5B)만 활성화하여 효율적인 추론을 자랑합니다. 최대 12만 8천(128K) 토큰의 긴 컨텍스트 처리와 고급 추론, 그리고 도구 호출(Tool calling) 기능을 지원하는 것이 특징입니다.

온디바이스 AI MoE 리퀴드 AI
HN
Hacker News 2일 전
IMP 5

LLM이 만들어낸 특유의 'AI 냄새'들

한 수학 블로거가 글 작성을 돕기 위해 LLM을 사용한 뒤, 약 3개월 뒤 AI가 생성한 문장 구조와 패턴이 인터넷 전체에 동일하게 범람하고 있는 현실을 깨달았습니다. 저자는 AI가 작성한 글에 자주 등장하는 'X는 Y의 Z다'와 같은 상투적 문구, 짧은 문장의 연속, 그리고 AI가 만든 웹사이트에 공통적으로 사용되는 'JetBrains Mono' 폰트, 특정 UI 버튼 등의 패턴을 수집하여 이른바 'AI 냄새(AI Smell)'로 정의합니다. 이는 단순한 관찰일 뿐 AI 활용을 반대하는 것은 아니지만, 이제 독자와 개발자들이 AI가 개입한 흔적을 쉽게 감지할 수 있게 되었음을 시사합니다.

LLM 글쓰기 AI-생성-콘텐츠
TC
TechCrunch AI 2일 전
IMP 8

앤스로픽, '동적 워크플로우' 탑재한 오푸스 4.8 발표

앤스로픽이 최신 고성능 AI 모델인 오푸스 4.8을 발표했습니다. 불과 41일 만의 빠른 업그레이드로, 불확실한 데이터 처리 능력을 개선하고 대규모 코딩 작업을 자동화하는 '동적 워크플로우(Dynamic Workflows)' 기능을 새롭게 선보였습니다. 또한, 사이버 보안 우려로 보류 중이던 최고 성능 모델인 '미토스(Mythos)'도 몇 주 내에 공개될 예정입니다.

앤스로픽 클로드 오푸스 에이전트
HN
Hacker News 2일 전
IMP 8

클로드 오푸스 4.8 발표

앤스로픽이 최신 AI 모델인 '클로드 오푸스 4.8'을 발표했습니다. 코딩, 에이전트 기능, 추론 등 전반적인 벤치마크에서 성능이 향상되었으며, 동일한 가격으로 제공됩니다. 특히 빠른 모드(Fast mode)의 비용이 3배 저렴해졌고, 클로드 코드(Claude Code) 내 대규모 작업을 수행하는 '동적 워크플로우' 등 다양한 신규 기능이 함께 도입되었습니다.

클로드 오푸스 4.8 앤스로픽 에이전트
GB
Google AI Blog 2일 전
IMP 9

구글 I/O 2026 주요 발표 12선 요약

구글 I/O 2026에서는 텍스트, 이미지, 영상 등을 통합 입력받아 고품질 영상을 생성하는 'Gemini Omni'와 복잡한 에이전트 및 코딩 작업에 최적화된 'Gemini 3.5 Flash' 모델이 공개되었습니다. 또한 사용자의 질문에 맞춰 실시간으로 맞춤형 웹 앱을 구동하는 'Antigravity' 기반의 검색 경험과 웹을 지능적으로 모니터링하는 '정보 에이전트'가 도입되어, AI가 일상적인 검색을 넘어 실질적인 작업을 대신 수행하는 에이전트 시대의 본격적인 막을 알렸습니다.

Gemini Omni Gemini 3.5 Flash 에이전트
TD
The Decoder 3일 전
IMP 7

일레븐랩스 뮤직 v2, 오페라에서 헤비메탈까지 자연스러운 장르 전환

일레븐랩스(ElevenLabs)가 업그레이드된 AI 음악 생성 모델인 Music v2를 발표했습니다. 이 모덜은 한 곡 내에서 오페라와 헤비메탈 같이 전혀 다른 장르를 전환하거나 빠른 랩, 효과음 삽입 등을 수행하면서도 음악적 일관성을 완벽하게 유지하는 것이 특징입니다. 특히 특정 구간만 재생성하는 '인페인팅(Inpainting)' 기능과 다국어 지원이 강화되어 음악가, 개발자, 콘텐츠 제작자 모두가 상업적으로 활용할 수 있는 실용성이 크게 높아졌습니다.

음악 생성 AI 일레븐랩스 오디오 생성
TC
TechCrunch AI 3일 전
IMP 8

일레븐랩스, 곡 중간에 장르 바꾸는 새 음악 생성 AI 공개

음성 AI 기업 일레븐랩스(ElevenLabs)가 곡 중간에도 장르를 자유롭게 전환할 수 있는 새로운 음악 생성 모델 'Music v2'를 출시했습니다. 이 모델은 복잡한 보컬과 작곡을 처리하고, 프롬프트를 통해 곡의 일부분만 수정하는 등 세밀한 편집 기능을 제공합니다. 저작권 논란을 피하기 위해 정식 라이선스 데이터로 학습되어 상업적 이용이 자유로우며, 구글, 스테빌리티 AI 등과 함께 치열해지는 AI 음악 시장 경쟁에 본격적으로 돌입했습니다.

ai-음악 일레븐랩스 음악-생성-모델
MP
MarkTechPost 4일 전
IMP 7

EAGLE 3.1: LLM 추론 시 어텐션 드리프트 해결

EAGLE팀, vLLM, TorchSpec가 협력하여 실제 서비스 환경에서 발생하는 추측 디코딩(Speculative Decoding)의 불안정성을 해결하는 EAGLE 3.1을 공개했습니다. 이번 업데이트는 대규모 언어 모델(LLM) 추론 시 발생하는 '어텐션 드리프트(Attention Drift)' 문제를 수정하여 모델의 안정성과 성능을 크게 향상시킵니다. 실무자들에게 LLM의 빠르고 안정적인 상용 배포를 가능하게 하는 핵심적인 기술 발전으로 평가받습니다.

대규모 언어 모델 추론 최적화 추측 디코딩
MP
MarkTechPost 4일 전
IMP 8

스테이빌리티 AI, 오디오 생성 모델 '스테이블 오디오 3' 공개

스테이빌리티 AI가 악기 및 효과음 생성에 특화된 잠재 확산(Latent Diffusion) 모델인 스테이블 오디오 3(Stable Audio 3)를 공개했습니다. 소형 및 중형 모델의 가중치가 오픈소스로 공개되었으며, 중형 모델은 8GB VRAM을 탑재한 일반 소비자용 GPU에서도 구동될 만큼 가볍고 효율적입니다. 특히 5초 길이의 오디오 생성 벤치마크에서 기존 모든 오픈소스 모델을 뛰어넘는 최고 수준의 성능을 기록한 점이 가장 큰 의의입니다.

음성 생성 오픈소스 Stability AI
LL
r/LocalLLaMA 4일 전
IMP 8

클라우드 AI, 커스텀 파인튜닝 기능 공개

클라우드(Claude) AI가 사용자가 직접 모델을 파인튜닝(Fine-tuning)할 수 있는 기능을 발표했습니다. 이를 통해 기업은 자사 데이터에 맞춰 AI를 최적화하고 성능을 극대화할 수 있게 되었습니다. 특히 API(응용 프로그래밍 인터페이스)를 통해 손쉽게 적용이 가능하여 실무적인 활용도가 매우 높습니다.

인공지능 클라우드 파인튜닝
LL
r/LocalLLaMA 6일 전
IMP 8

엘론 머스크, 내년 0.5T Grok 모델 공개 예고

일론 머스크가 내년에 0.5조(0.5T) 파라미터 규모의 Grok 모델을 공개할 계획이라고 밝혔습니다. 이와 함께 현재 Grok-3가 오픈소스로 공개되며 업계의 큰 주목을 받고 있습니다. 거대 언어 모델(LLM)의 성능 향상과 오픈소스 생태계 확장에 중요한 이정표가 될 것으로 보입니다.

Grok 오픈소스 인공지능 모델
LL
r/LocalLLaMA 6일 전
IMP 6

V100 환경에서 Qwen3.6 27B 초당 1,000토큰 생성 달성

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델을 구동하여 최대 초당 1,000토큰(tps)의 생성 속도를 달성하는 실험 결과가 공유되었습니다. 다중 사용자 동시 처리(배치 128) 시에는 엄청난 속도를 보여주며, 단일 사용자 기준으로는 MTP(다중 토큰 예측) 없이도 초당 80토큰의 생성 속도와 초당 3,000토큰의 처리 속도를 기록했습니다. 이는 구형 GPU인 V100으로도 대규모 모델을 상당히 쾌적하게 구동할 수 있음을 보여주는 의미 있는 벤치마크입니다.

오픈소스 모델 벤치마크 GPU 인퍼런스
MP
MarkTechPost 6일 전
IMP 8

스텝펀, 역할극 특화 RLHF 적용한 'StepAudio 2.5 실시간' 공개

중국 상하이 기반 AI 연구소 스텝펀(StepFun)이 오디오 입력부터 출력까지 단일 시스템으로 처리하는 엔드투엔드 실시간 음성 대형 언어 모델(LLM) 'StepAudio 2.5 Realtime'을 공개했습니다. 이 모델은 백만 단위의 페르소나 데이터 증강과 역할극 특화 RLHF(인간 피드백 기반 강화학습)를 적용하여 대화 중 캐릭터 붕괴(OOC) 현상을 방지하고 안정적인 연기력을 유지하는 것이 특징입니다. 특히 사용자의 말투, 감정, 속도 등 비언어적(Paralinguistic) 요소를 이해하고 이에 맞춰 감정적인 반응을 생성하여 5가지 벤치마크 평가에서 모두 1위를 차지했습니다.

음성 AI 모델 엔드투엔드 LLM RLHF
GP
r/ChatGPT 6일 전
IMP 2

와, 감사해요 챗GPT! 이 자세가 정말 큰 도움이 돼요 😅

Reddit 사용자가 허리 통증과 좌골신경통(sciatica pain)을 호소하자, 챗GPT가 이를 완화하는 데 도움이 되는 신체 자세를 추천하여 화제가 되었습니다. 이 사례는 AI 모델이 단순한 정보 검색을 넘어 일상적인 신체 건강 관리에도 유용한 어드바이저 역할을 톱톡히 하고 있음을 보여줍니다. 실무자 관점에서 생성형 AI의 활용 범위가 사용자의 실생활 문제 해결로 더욱 확장되는 긍정적인 지표로 볼 수 있습니다.

chatgpt 생성형ai 헬스케어
TD
The Decoder 6일 전
IMP 8

AI 도구, 모델 선택 '기본값'으로 두면 안 되는 이유

마이크로소프트 코파일럿(Copilot)과 구글 제미나이(Gemini) 등의 AI 도구를 기본 설정(자동 모델 선택)으로 사용할 경우, 실제 데이터를 분석하는 대신 학습 과정에서 내재된 편견과 고정관념에 기반해 거짓 결과를 생성하는 치명적인 문제가 발견되었습니다. 실험 결과, 동일한 텍스트 데이터에 국가명 라벨만 다르게 붙였을 뿐인데 AI가 국가별 특성을 전혀 다르게 요약하고 심지어 존재하지 않는 차이를 허위 수치로 제시했습니다. 데이터 분석 등 정확성이 요구되는 작업에서는 기본 모델 대신 스스로 논리적 추론이 가능한 '추론(Reasoning) 모델'로 수동 전환할 수 있는 사용자의 도구 활용 능력이 필수적입니다.

AI 모델 선택 데이터 분석 AI 환각 현상
OA
r/OpenAI 7일 전
IMP 8

오픈AI, '전략적 통찰력' 갖춘 안전 연구원 연봉 4억 5천 채용

오픈AI가 AI가 스스로를 개선하는 '재귀적 자기 개선' 시대를 대비할 안전 연구원을 최대 44만 5천 달러(약 6억 원)의 연봉으로 채용하고 있습니다. 최근 코딩 능력을 포함한 AI의 급격한 발전으로 인해 AI가 인간의 개입 없이 스스로를 발전시킬 위험성이 현실화되면서, 최고 수준의 기술력과 더불어 미래를 내다보는 전략적 판단력을 갖춘 인재에 대한 수요가 커지고 있습니다.

안전 채용 재귀적 자기 개선
TD
The Decoder 8일 전
IMP 9

앤스로픽: AI 취약점 발견 속도가 패치 속도 앞질렀다

앤스로픽의 최신 AI 모델인 '클로드 미토스 프리뷰(Claude Mythos Preview)'가 약 50개 파트너사와 협력하여 단 한 달 만에 핵심 시스템 소프트웨어에서 1만 건 이상의 심각한 보안 취약점을 발견했습니다. AI의 버그 탐지 속도가 기업의 패치 및 검증 속도를 크게 앞지르면서 심각한 보안 격차와 위험이 발생하고 있습니다. 이에 따라 오픈소스 개발자들은 패치를 설계할 시간이 필요하다며 AI의 취약점 공개 속도 조절을 요청하고 있습니다.

AI 보안 취약점 탐지 앤스로픽
HN
Hacker News 8일 전
IMP 7

AI 모델 스펙·가격·기능 통합 오픈소스 DB 공개

전 세계 AI 모델의 스펙, 가격, 기능 정보를 한곳에 모은 오픈소스 프로젝트가 공개되었습니다. API와 TOML 형식의 파일 구조를 통해 데이터에 접근할 수 있으며, 커뮤니티 기여를 통해 최신 정보가 지속적으로 갱신됩니다. 주요 내용에는 모델의 토큰당 비용, 컨텍스트 제한, 지원 모달리티(Modality) 등의 세부 설정값과 로고 추가 방법 등이 포함되어 있습니다.

오픈소스 AI 모델 데이터베이스
MP
MarkTechPost 9일 전
IMP 8

마이크로소프트, 오픈AI·구글 능가하는 웹 브라우저 에이전트 'Fara 1.5' 공개

마이크로소프트 리서치가 4B, 9B, 27B 크기의 웹 브라우저 컴퓨터 사용 에이전트 모델군인 Fara 1.5를 공개했습니다. Fara 1.5-27B 모델은 Online-Mind2Web 벤치마크에서 72%의 점수를 기록하며 오픈AI의 Operator, 구글의 Gemini 2.5 Computer Use 등 기존 최고 수준 모델들을 뛰어넘는 성능을 입증했습니다. 또한, 제한된 데이터를 활용해 에이전트를 훈련시키는 합성 데이터 파이프라인인 FaraGen1.5도 함께 발표되었습니다.

에이전트 마이크로소프트 오픈소스
MP
MarkTechPost 9일 전
IMP 8

알리바바, 100만 토큰 컨텍스트 추론 모델 Qwen3.7-Max 발표

알리바바 클라우드 서밋 2026에서 멀티스텝 에이전트 및 복잡한 코딩 작업에 최적화된 최신 폐쇄형 추론 모델 Qwen3.7-Max가 공개되었습니다. 이 모델은 100만 토큰의 컨텍스트 윈도우를 지원하며, 과학적 추론과 코딩 벤치마크에서 전작 대비 큰 성능 향상을 보였습니다.

에이전트 AI 추론 모델 Qwen3.7-Max