#데이터셋

콜랩에서 구축하는 안정적인 페이블 5 트레이스 워크플로우

이 튜토리얼은 Hugging Face의 'Fable 5 Traces' 데이터셋을 활용하여 구글 콜랩(Google Colab) 환경에서 안정적인 AI 워크플로우를 구축하는 방법을 다룹니다. 불안정한 외부 의존성을 피하고 JSONL 파일을 수동으로 파싱하여 도구 호출(Tool Call) 정규화, 데이터 구조 감사, 민감 정보 제거 등의 작업을 수행합니다. 또한 안전한 형태의 데이터셋을 내보내고 순수 파이썬 기반의 나이브 베이즈(Naive Bayes) 베이스라인 모델을 학습시키는 과정까지 실무에 바로 적용할 수 있는 노하우를 제공합니다.

데이터 전처리 구글 콜랩 도구 호출

MarkTechPost • 32일 전

IMP 7

엔비디아 오픈소스 데이터로 코딩 AI 미세조정하기

이 글은 엔비디아의 Open-SWE-Traces 데이터셋을 활용하여 소프트웨어 개발 에이전트(Agent) 모델을 미세조정(SFT)하기 위한 고품질 학습 데이터를 구축하는 과정을 설명합니다. 허깅페이스 스트리밍을 통해 효율적으로 데이터를 처리하고, 도구 사용량과 패치 분석 등을 거쳐 성공적인 작업 기록만을 선별합니다. 이를 통해 실제 코드를 수정하고 도구를 다루는 능력이 뛰어난 코딩 AI 모델을 효과적으로 훈련시킬 수 있다는 점에서 실무적 가치가 높습니다.

미세조정 데이터셋 소프트웨어 엔지니어링

Hacker News • 43일 전

IMP 8

기계학습 연구와 선(禪)의 기술

훌륭한 AI 연구자가 되기 위해서는 논문을 읽고 직접 모델을 구축하는 과정을 병행하는 규칙적인 수행이 필요합니다. 최신 유행을 쫓기보다는 교차 엔트로피나 SVD 같은 기본 개념을 깊이 이해하고, 단순한 벤치마크 점수 향상이 아닌 새로운 가능성을 시험할 수 있는 문제에 집중해야 합니다. 또한 기존의 작은 규모의 경험에 얽매이지 않고 '초심(Shoshin)'으로 돌아가 확장성(Scaling) 중심의 현대 AI 트렌드를 유연하게 받아들이는 태도가 중요합니다.

ai-연구 선-zen 기본기

The Decoder • 45일 전

IMP 8

단일 텍스트 명령으로 모든 이미지 속 객체 수를 세는 AI 'Count Anything'

중국 칭화대 등 연구진이 메타(Meta)의 비전 모델(SAM3)을 기반으로 텍스트 프롬프트 하나만으로 위성 사진, 의료 스캔, 일상 사진 등 모든 이미지 내 객체의 수를 정확히 세고 표시하는 새로운 AI 모델 'Count Anything'을 발표했습니다. 이 시스템은 큰 객체는 박스로, 작고 밀집된 객체는 점으로 표시한 뒤 병합해 중복 계산을 방지하는 하이브리드 방식을 사용하여 기존 경쟁 모델들을 크게 압도하는 성능을 보여줍니다. 텍스트 기반 객체 카운팅을 위해 구축된 역대 최대 규모의 데이터셋을 학습한 이 모델은 의료, 농업, 도시 계획 등 다양한 실무 분야에서 활용도가 높을 것으로 기대됩니다.

객체 탐지 비전 AI 멀티모달

MarkTechPost • 49일 전

IMP 6

NVIDIA 코드 데이터셋 파이프라인 구축 실습

이번 튜토리얼에서는 대규모 코드 사전학습 연구를 위해 NVIDIA의 'Nemotron-Pretraining-Code-v3' 데이터셋 메타데이터를 활용하는 파이프라인을 구축합니다. 데이터를 직접 다운로드하지 않고 스트리밍(Streaming) 방식으로 불러와 언어별 분포와 저장소 구조를 분석하며, 실제 깃허브 소스 코드를 가져와 토큰(Token) 규모를 추정하는 전체 과정을 다룹니다.

데이터셋 nvidia 코드-사전학습

MarkTechPost • 56일 전

IMP 7

TinyFish, 평문으로 실시간 데이터셋 구축하는 오픈소스 멀티 에이전트 공개

TinyFish가 한 문장의 일상 언어 설명만으로 실시간 웹을 탐색하여 구조화된 데이터 테이블을 자동 구축하는 오픈소스 멀티 에이전트 시스템인 BigSet을 출시했습니다. 오케스트레이터(Orchestrator)와 병렬 서브 에이전트(Sub-agents)가 협력하여 실시간 데이터를 수집 및 구조화하며, 이 과정이 모두 자동화된 것이 특징입니다. 데이터 수집 및 파싱에 소요되던 실무자들의 반복 작업을 크게 줄여주어 생산성 향상에 기여할 수 있는 중요한 도구입니다.

오픈소스 멀티 에이전트 데이터셋

MarkTechPost • 60일 전

IMP 8

파이썬으로 170만 건 AI 에이전트 데이터셋 구축하기

에이전트 상호작용 기록(Trace) 170만 건을 포함한 역대 최대 규모의 오픈소스 데이터셋인 'AgentTrove'를 활용하는 파이썬 실전 튜토리얼을 소개합니다. 이 튜토리얼은 대용량 데이터를 전체 다운로드 없이 스트리밍하고, 성공적인 기록만 추출해 고품질 SFT(Supervised Fine-Tuning) 데이터셋으로 변환하는 방법을 다룹니다. AI 에이전트의 파인튜닝을 위한 대규모 학습 데이터를 효율적으로 구축하려는 실무자들에게 매우 유용한 가이드입니다.

데이터셋 에이전트 파인튜닝

Hacker News • 68일 전

IMP 6

AI(LLM)를 위한 안내문: Anna's Archive의 메시지

인류 역사상 가장 큰 규모의 진정한 오픈 소스 도서관을 표방하는 'Anna's Archive'가 LLM(대형 언어 모델)을 향한 독특한 공개 메시지를 발표했습니다. 이들은 웹 스크래핑으로 인한 서버 과부하를 막기 위해 캡챠(CAPTCHA)를 유지하는 대신, 메타데이터와 전체 파일을 토렌트 및 API 형태로 대규모로 제공하여 AI 개발자들이 합법적이고 편리하게 데이터에 접근할 수 있도록 안내하고 있습니다. 또한, AI 모델이 이 데이터를 학습하는 데 도움을 받았다면 기업 수준의 후원을 통해 빠른 SFTP 접근 권한을 얻거나 모네로(XMR)로 기부하여 인류의 지식 보존에 동참할 것을 권유하고 있습니다.

오픈소스 데이터셋 LLM

Hacker News • 111일 전

IMP 8

178개 AI 모델 글쓰기 지문 분석

43개 프롬프트에 걸쳐 3,095개의 표준화된 AI 응답을 분석해 어휘, 문장 구조 등 32차원의 문체 지문(fingerprint)을 추출한 연구 결과입니다. 이를 통해 90% 이상의 유사도를 보이는 9개의 복제 클러스터를 발견했으며, 저렴한 Gemini 모델이 고가의 Claude 모델과 78% 유사한 문체를 보이는 등 주요 AI 모델 간의 놀라운 문체적 유사성과 각 사업자별 고유의 특징을 정량화하여 입증했다는 점에서 중요합니다.

AI 모델 문체 분석 스틸로메트리