메뉴

#AI 모델

MP
MarkTechPost 13시간 전
IMP 8

2026년 최고의 TTS 모델 벤치마크 비교

2026년 텍스트 음성 변환(TTS) 기술이 급격히 발전함에 따라, 주요 상업 및 오픈소스 TTS 모델들의 성능을 종합적으로 비교한 가이드가 공개되었습니다. 이 글은 엔지니어들이 실무에 적합한 모델을 선택할 수 있도록 음질, 지연 시간, 비용, 언어 지원 및 라이선스를 기준으로 모델들을 순위화하여 평가합니다. 관련 엔지니어에게 최신 TTS 모델의 동향과 기술적 장단점을 파악하는 데 매우 중요한 자료입니다.

TTS 벤치마크 AI 모델
TC
TechCrunch AI 2일 전
IMP 8

앤스로픽, '동적 워크플로우' 탑재한 오푸스 4.8 발표

앤스로픽이 최신 고성능 AI 모델인 오푸스 4.8을 발표했습니다. 불과 41일 만의 빠른 업그레이드로, 불확실한 데이터 처리 능력을 개선하고 대규모 코딩 작업을 자동화하는 '동적 워크플로우(Dynamic Workflows)' 기능을 새롭게 선보였습니다. 또한, 사이버 보안 우려로 보류 중이던 최고 성능 모델인 '미토스(Mythos)'도 몇 주 내에 공개될 예정입니다.

앤스로픽 클로드 오푸스 에이전트
HN
Hacker News 8일 전
IMP 7

AI 모델 스펙·가격·기능 통합 오픈소스 DB 공개

전 세계 AI 모델의 스펙, 가격, 기능 정보를 한곳에 모은 오픈소스 프로젝트가 공개되었습니다. API와 TOML 형식의 파일 구조를 통해 데이터에 접근할 수 있으며, 커뮤니티 기여를 통해 최신 정보가 지속적으로 갱신됩니다. 주요 내용에는 모델의 토큰당 비용, 컨텍스트 제한, 지원 모달리티(Modality) 등의 세부 설정값과 로고 추가 방법 등이 포함되어 있습니다.

오픈소스 AI 모델 데이터베이스
HN
Hacker News 11일 전
IMP 9

구글 제미나이 3.5, 에이전트 행동 수행 능력 강화

구글 딥마인드가 최신 AI 모델 패밀리인 제미나이 3.5를 공개하며, 첫 모델로 고성능 에이전트 및 코딩 작업에 특화된 3.5 Flash를 출시했습니다. 이번 모델은 기존 대비 4배 빠른 속도를 제공하면서도 복잡한 다단계 에이전트 워크플로와 멀티모달 이해도에서 최고 수준의 성능을 기록하는 것이 핵심입니다. 또한 '안티그래비티(Antigravity)' 플랫폼과 결합하여 개발 및 엔터프라이즈 환경에서 실질적인 업무 자동화 및 문제 해결을 대규모로 수행할 수 있습니다.

제미나이 3.5 에이전트 코딩 AI
SG
r/singularity 11일 전
IMP 7

Gemini 3.5 Flash, 이전 버전 대비 30배 폭등

구글의 경량 모델인 Gemini 3.5 Flash의 사용 단가가 기존 1.5 Flash 모델에 비해 최대 30배, 직전 버전보다도 3배나 급증했습니다. 이로 인해 가성비가 좋았던 Flash 모델이 플래그십(최상급) 모델과 맞먹는 수준으로 비싸졌다는 비판이 제기되고 있습니다. 특히 상위 모델인 3.5 Pro의 가격도 동일한 수준으로 책정될 경우, 업계 최고가인 Claude Opus 3보다 더 비싸질 수 있다는 우려가 나오고 있습니다.

구글 젬미니 가격 정책
LL
r/LocalLLaMA 13일 전
IMP 5

새로운 AI 모델 언제 출시되나?

최근 주요 AI 모델 출시가 마무리되면서 사용자들은 다음 릴리즈 일정에 대한 공허함을 느끼고 있습니다. 과거 패턴에 따르면 5월 말부터 6월 초 사이에 새로운 모델이 나올 것으로 예상되지만, 오픈 웨이트(open weights) 모델의 출시 주기에 변화가 예상됩니다. 향후 AI 모델 공개 생태계의 흐름을 파악하는 데 중요한 포인트입니다.

AI 모델 출시 일정 오픈웨이트
TD
The Decoder 14일 전
IMP 7

AI 모델 4개, 6개월간 라디오 방송국 자율 운영 결과

AI 스타트업 안돈 랩스(Andon Labs)는 주요 AI 모델 4개(Claude, GPT, Gemini, Grok)에 동일한 조건으로 라디오 방송국을 6개월간 자율 운영하게 하는 실험을 진행했습니다. 그 결과 각 모델은 완전히 다른 성격과 장애 현상을 보였으며, 전반적인 경제적 수익은 $45에 그쳤습니다. 이 실험은 인간의 통제 없이 장기간 운영될 때 AI 모델이 어떻게 돌발 행동을 하거나 오류에 빠지는지 보여주는 중요한 사례입니다.

AI 모델 장기 자율 실행 할루시네이션
TD
The Decoder 15일 전
IMP 8

AI 모델, 전문가 모듈 12.5%만으로도 최고 성능 근접 달성

앨런 AI 연구소와 UC 버클리 연구진이 개발한 'EMO' 모델은 문서 경계를 활용해 전문가(Expert)들이 특정 도메인(의료, 정치 등)을 전문적으로 학습하도록 유도합니다. 실험 결과, 전체 전문가 모듈의 12.5%만 남기고 제거해도 성능 하락이 약 3% 포인트에 그쳐 기존 MoE 모델들의 한계를 뛰어넘는 효율성을 입증했습니다. 이를 통해 스토리지 절약 및 특정 작업에 맞춘 모델의 유연한 배포가 가능해져 산업계에 큰 의미를 갖습니다.

AI 모델 MoE 아키텍처 EMO
TC
TechCrunch AI 17일 전
IMP 8

어댑테이션, AI 스스로 학습하게 돕는 '오토사이언티스트' 출시

AI 연구소 어댑테이션(Adaption)은 AI 모델이 스스로 데이터와 모델을 동시에 최적화해 특정 기능을 빠르게 학습할 수 있도록 돕는 신작 '오토사이언티스트(AutoScientist)'를 출시했습니다. 이 도구는 기존의 복잡하고 수동적인 미세조정(fine-tuning) 과정을 자동화하여, 소수의 빅테크 연구소 바깥에서도 최고 수준의 프론티어 AI 모델을 쉽게 훈련할 수 있게 해줍니다. 어댑테이션 측은 출시 후 30일간 이 도구를 무료로 공개하며 AI 자가 학습 및 혁신의 확산을 자신하고 있습니다.

파인튜닝 (Fine-tuning) 자가학습 (Self-training) AI 모델
SG
r/singularity 27일 전
IMP 7

구글 I/O 유출: 제미나이 '옴니' 및 3.2/3.5

온라인 커뮤니티(X(옛 트위터) 등)를 통해 구글의 차기 개발자 행사인 '구글 I/O'에서 발표될 핵심 AI 모델 관련 정보가 유출되었습니다. 이번 유출의 핵심은 멀티모달 통합 기능을 강화한 '제미나이 옴니(Gemini Omni)'와 차세대 버전인 '제미나이 3.2 및 3.5'에 대한 내용입니다. 실무자들에게는 향후 구글의 생태계에 도입될 AI 모델의 성능 도약과 통합 작업 환경의 변화를 조기에 파악할 수 있다는 점에서 중요한 소식입니다.

구글 제미나이 AI 모델
MP
MarkTechPost 28일 전
IMP 8

토크나이제이션 드리프트와 해결 방법

데이터나 파이프라인에 변경이 없는데도 AI 모델의 성능이 갑자기 저하되는 핵심 원인 중 하나는 바로 '토큰화(TOKENIZATION)' 과정에서 발생하는 미세한 차이입니다. 입력 텍스트의 공백, 줄바꿈, 구두점 등 사소한 서식 변화가 모델이 처리하는 토큰 ID(TOKEN ID)를 변경시켜 예기치 않은 결과를 초래할 수 있습니다. 따라서 실무자는 이러한 토크나이제이션 드리프트(TOKENIZATION DRIFT) 현상을 이해하고 토큰화 전처리 과정을 엄격하게 관리해야 모델의 안정성을 유지할 수 있습니다.

토크나이제이션 AI 모델 데이터 전처리
LL
r/LocalLLaMA 32일 전
IMP 7

미스트랄 미디움 모델 곧 공개

미스트랄(Mistral)의 소형 모델 버전명이 'Mistral-Small-4-119B-2603'로 확인되었습니다. 곧 출시될 미스트랄 미디움 모델은 128B(1,280억) 개의 매개변수를 탑재할 것으로 예상됩니다. 이 모델이 완전 연결(Dense) 구조를 채택할지, 아니면 소형 모델보다 덜 희소한 MoE(Mixture of Experts) 구조를 적용할지가 업계의 주요 관심사입니다.

미스트랄 LLM AI 모델
LL
r/LocalLLaMA 32일 전
IMP 7

미스트랄 내일 신규 모델·도구 공개 예고

유럽 AI 기업 미스트랄이 '바이브(Vibe)'로 추정되는 신규 모델 또는 도구를 내일 공식적으로 공개할 것을 예고했습니다. 이번 공개는 AI 모델의 업그레이드일 수도 있고, 완전히 새로운 개발 도구의 출시일 수도 있어 실무자들의 관심이 집중되고 있습니다. 관련 소식은 미스트랄 공식 계정의 트윗을 통해 확인할 수 있습니다.

미스트랄 AI 모델 신규 공개
LL
r/LocalLLaMA 36일 전
IMP 7

DeepSeek-V4 Flash 대규모 코드 테스트, 정확도 압도적

Reddit 사용자가 DeepSeek-V4 Flash 모델을 대규모 코드 변경 작업에 테스트한 결과, 복잡한 도구(Tool) 호출과 문맥 유지 능력에서 매우 뛰어난 정확도를 보였다고 평가했습니다. 100여 회의 도구 호출 동안 단 한 건의 오류도 없었으며, 오픈웨이트(Open-weights) 모델 중 드문 안정성을 입증했습니다. 다만 토큰 생성 속도가 느리고 추론에 시간이 오래 걸린다는 단점이 있습니다.

DeepSeek 오픈소스 코드 생성
TD
The Decoder 43일 전
IMP 7

구글 딥마인드, 로봇 계획·인지 능력 강화

구글 딥마인드가 로봇의 고수준 인지 및 작업 계획을 돕는 'Gemini Robotics-ER 1.6'을 공개했습니다. 이 모델은 구글 검색이나 비전-언어-액션(VLA) 모델을 연동하여 작은 계기판의 숫자까지 정밀하게 판독하는 등 복잡한 환경에서의 추론 능력을 대폭 향상시켰습니다. 보스턴 다이내믹스의 Spot 로봇에 적용되어 실제 시스템 검사에 활용될 만큼 높은 실용성을 입증했다는 점이 핵심입니다.

로봇공학 구글 딥마인드 AI 모델
TD
The Decoder 47일 전
IMP 8

구글, 울트라 구독자에 Veo 3.1 라이트 무료 제공

구글이 AI 프리미엄 울트라(Ultra) 구독자를 대상으로 'Veo 3.1 Lite' 하위 우선순위 모델을 추가 크레딧 비용 없이 제공한다고 발표했습니다. 기존 'Veo 3.1 Fast' 대비 절반 이하의 비용과 동일한 속도를 자랑하는 이 옵션은 올 5월 10일부터 정식 적용되어, 구독자들이 크레딧 소모 없이 자유롭게 아이디어를 테스트할 수 있게 해줍니다. 오픈AI 소라(Sora)의 지연 속 공백 속에서 구글이 서방 AI 비디오 시장을 확고히 장악하고 있다는 점을 보여주는 중요한 전략입니다.

구글 비디오 생성 Veo 3.1
WR
Wired AI 50일 전
IMP 8

푸시 알림, FBI의 감청으로부터 안전하지 않다

FBI가 암호화된 메신저 Signal의 메시지 내용을 아이폰의 푸시 알림 기록을 통해 확보한 사실이 밝혀져, 모바일 알림 시스템의 취약성이 부각되었습니다. 또한, AI 기업 Anthropic이 주요 글로벌 기술·금융사들과 함께 고도화된 AI 모델의 해킹 및 사이버보안 역량을 평가하고 방어 체계를 강화하는 '프로젝트 글래스윙'을 발표했습니다. 본문은 이 밖에도 이란의 인터넷 검열, 동남아 산업형 보이스피싱 단속 등 최근 글로벌 보안 및 개인정보 보호 관련 주요 이슈를 다루고 있습니다.

사이버 보안 개인정보 보호 해킹
WR
Wired AI 52일 전
IMP 8

메타 신모델 발표, 빅테크 AI 경쟁 합류

메타가 새로운 폐쇄형 다중모달 AI 모델 '뮤즈 스파크(Muse Spark)'를 발표했습니다. 이 모델은 최고 수준의 성능을 자랑하며, 특히 의료 조언 및 코딩에 특화되어 있습니다. 이는 최근 막대한 자본과 인재 영입을 통해 AI 경쟁력을 회복하려는 저커버그의 전략적 행보로 평가됩니다.

메타 AI 모델 뮤즈 스파크
HN
Hacker News 52일 전
IMP 8

178개 AI 모델 글쓰기 지문 분석

43개 프롬프트에 걸쳐 3,095개의 표준화된 AI 응답을 분석해 어휘, 문장 구조 등 32차원의 문체 지문(fingerprint)을 추출한 연구 결과입니다. 이를 통해 90% 이상의 유사도를 보이는 9개의 복제 클러스터를 발견했으며, 저렴한 Gemini 모델이 고가의 Claude 모델과 78% 유사한 문체를 보이는 등 주요 AI 모델 간의 놀라운 문체적 유사성과 각 사업자별 고유의 특징을 정량화하여 입증했다는 점에서 중요합니다.

AI 모델 문체 분석 스틸로메트리
SG
r/singularity 53일 전
IMP 6

안스로픽 'Mythos' 논문의 미친 그래프

안스로픽(Anthropic)이 공개한 'Mythos' 프리뷰 기사의 내용과 놀라운 성능 수치를 보여주는 그래프가 공유되었습니다. 해당 자료는 최신 AI 모델의 획기적인 성능 향상을 시각적으로 증명하며 업계 관계자들 사이에서 큰 화제가 되고 있습니다. 아래 링크를 통해 기술적 세부 사항과 원본 그래프를 직접 확인할 수 있습니다.

안스로픽 Mythos AI 모델
HN
Hacker News 53일 전
IMP 5

클로드 미토스(Clude Mythos) 프리뷰 모델

허커뉴스(Hacker News)에 안스로픽(Anthropic)의 새로운 AI 모델로 보이는 '클로드 미토스 프리뷰(Claude Mythos Preview)'의 시스템 카드 문서가 공유되었습니다. 원본 링크가 PDF 파일 형태의 시스템 로그 및 깨진 바이너리 코드로 인코딩되어 있어 현재로서는 구체적인 기술적 세부 사항을 파악할 수 없습니다. AI 실무자들에게는 새로운 모델 출시 또는 테스트의 전조일 수 있으므로 향후 원본 문서의 복구 및 정식 공개 여부에 주목할 필요가 있습니다.

안스로픽 클로드 시스템 카드
TD
The Decoder 53일 전
IMP 7

메타, 신규 AI 모델 일부 오픈소스로 공개

메타(Meta)가 개발 중인 새로운 AI 모델의 일부를 오픈소스로 공개할 계획입니다. 액시오스(Axios)의 보도에 따르면, 메타는 최신 AI 기술의 일부 버전을 오픈소스 커뮤니티에 제공하여 기술 접근성을 높이고 생태계를 확장하려는 전략을 취하고 있습니다. 이번 결정은 메타가 AI 개발 과정에서의 투명성을 강화하고, 전 세계 개발자 및 실무자들과 협력하여 혁신을 가속화하겠다는 의지를 보여줍니다.

메타 인공지능 오픈소스
LL
r/LocalLLaMA 56일 전
IMP 6

젬마 4 31B, 푸드트럭 벤치마크서 주요 최첨단 모델들 제치고 3위

구글의 오픈소스 모델인 Gemma 4 31B가 '푸드트럭 벤치마크(FoodTruck Bench)'에서 GLM 5, Qwen 3.5 397B 및 모든 Claude Sonnet 모델을 제치고 놀라운 3위를 차지했습니다. 해당 벤치마크의 저자는 아니지만 재미있어서 공유한 이번 결과는, Gemma 4가 이전 모델들이 실패했던 장기적(long-horizon) 에이전트 작업을 더 우수하게 처리함을 시사합니다.

젬마 4 오픈소스 벤치마크
HN
Hacker News 59일 전
IMP 6

스텝펀 3.5 플래시, 오픈클로우 300회 테스트서 최고 가성비 입증

오픈클로우 아레나(OpenClaw Arena)에서 진행된 300회의 실전 테스트 결과, 스텝펀 3.5 플래시(StepFun 3.5 Flash) 모델이 최고의 가성비를 입증했습니다. 이 테스트는 최고 수준의 AI 모델들이 실제 작업과 에이전트 환경에서 어떤 성능을 발휘하는지 비교하는 벤치마크입니다. 실무자 관점에서 이 모델은 비용 효율성과 성능의 균형을 가장 잘 맞춘 선택지로 평가받고 있습니다.

스텝펀 오픈클로우 가성비