메뉴
HN
Hacker News 21일 전

제미나이 API 파일 검색, 멀티모달 완벽 지원

IMP
8/10
핵심 요약

구글 딥마인드가 제미나이(Gemini) API의 파일 검색(File Search) 도구에 멀티모달 데이터 처리, 커스텀 메타데이터, 페이지 수준의 출처 인용 기능 등 세 가지 주요 업데이트를 도입했습니다. 이를 통해 개발자들은 텍스트와 이미지를 동시에 이해하는 정확하고 투명한 RAG(검색 증강 생성) 시스템을 구축할 수 있게 되었습니다. 이번 업데이트는 대규모 비정형 데이터를 다루는 실무자들에게 검색 정확도와 결과의 신뢰성을 획기적으로 높여준다는 점에서 중요합니다.

번역된 본문

제미나이 API 파일 검색, 멀티모달 완벽 지원: 효율적이고 검증 가능한 RAG 구축 2026년 5월 5일

오늘 저희는 제미나이(Gemini) API의 파일 검색(File Search) 도구에 세 가지 주요 업데이트를 소개합니다. 바로 멀티모달(Multimodal) 지원, 커스텀 메타데이터(Custom Metadata), 그리고 페이지 수준의 출처 인용(Page-level Citations)입니다. 이러한 기능은 개발자가 비정형 데이터에 구조를 부여하여 효율적이고 검증 가능한 RAG(검색 증강 생성) 시스템을 구축할 수 있도록 도와줍니다.

— Ivan Solovyev, Google DeepMind 프로덕트 매니저 — Kriti Dwivedi, 소프트웨어 엔지니어

오늘, 저희는 제미나이 API의 파일 검색 도구를 더욱 확장합니다. 이제 여러분은 멀티모달 데이터와 커스텀 메타데이터를 활용하여 RAG 시스템을 구축할 수 있습니다. 또한 근거의 투명성과 신뢰도를 높이기 위해 페이지 출처 인용 기능도 도입했습니다.

주말 프로젝트 프로토타입을 제작하든, 수천 명의 사용자를 위한 프로덕션 애플리케이션을 확장하든 상관없습니다. 이제 여러분의 RAG 시스템은 텍스트와 시각적 데이터를 기본적으로 처리하고 더 효율적으로 구성할 수 있습니다.

애플리케이션에 사진 기억 능력 부여하기 이제 파일 검색은 이미지와 텍스트를 함께 처리합니다. 제미나이 임베딩 2(Gemini Embedding 2) 모델이 지원하는 이 도구는 원본 이미지 데이터를 이해하여 AI 에이전트에 문맥적 인식 능력을 제공합니다.

특정 시각 자료를 찾으려는 크리에이티브 에이전시를 생각해 보십시오. 더 이상 키워드나 파일 이름에 의존할 필요가 없습니다. 이제 애플리케이션이 자연어로 작성된 기획안에 담긴 특정 감정적 톤이나 시각적 스타일과 일치하는 이미지를 전체 아카이브에서 검색할 수 있습니다.

커스텀 메타데이터로 노이즈 필터링하기 데이터베이스에 파일을 마구잡이로 집어넣는 것은 쉽습니다. 하지만 대규모 데이터에서 정확히 필요한 파일을 찾는 것이 진짜 도전 과제입니다. 커스텀 메타데이터 기능을 사용하면 비정형 데이터에 '부서: 법무팀(department: Legal)' 또는 '상태: 최종 완료(status: Final)'와 같은 키-값(Key-value) 레이블을 직접 붙일 수 있습니다.

쿼리(질문) 시점에 메타데이터 필터를 적용하면, 애플리케이션이 요청 범위를 필요한 데이터 조각으로만 좁힐 수 있습니다. 이는 관련 없는 문서로 인한 노이즈를 크게 줄여주어 RAG 워크플로우의 속도와 정확도를 모두 향상시킵니다.

페이지 출처 인용으로 근거 보여주기 애플리케이션이 방대한 PDF 문서에서 답변을 가져올 때, 사용자는 그 답변이 정확히 어디서 왔는지 확인할 필요가 있습니다. 이제 파일 검색은 모델의 응답을 원본 출처에 직접 연결합니다. 색인된 모든 정보에 대해 정확한 페이지 번호를 캡처합니다.

이러한 세분화된 수준의 기능을 통해 사용자를 올바른 위치로 바로 안내할 수 있으며, 이는 사용자의 신뢰를 구축하고 엄격한 팩트체크에 즉각적으로 활용할 수 있는 매우 유용한 도구가 됩니다.

파일 검색 시작하기 저희는 여러분의 아이디어를 실현할 데이터를 최대한 쉽게 저장하고 검색할 수 있도록 만들고자 합니다. 파일 검색 도구가 무거운 인프라 작업을 알아서 처리하므로, 여러분은 제품 구축에 집중하실 수 있습니다. 파일을 업로드하고 그 안에서 검색하는 과정은 매우 간단합니다.

파일 검색을 활용하여 구축하는 방법에 대해 자세히 알아보려면 개발자 가이드 및 제미나이 API 문서에서 더 많은 코드 스니펫을 살펴보시기 바랍니다.

원문 보기
원문 보기 (영어)
Gemini API File Search is now multimodal: build efficient, verifiable RAG May 05, 2026 · Share x.com Facebook LinkedIn Mail Copy link We’re introducing three major updates to the Gemini API File Search tool: multimodal support, custom metadata and page-level citations. These features help developers bring structure to unstructured data for efficient, verifiable RAG. Ivan Solovyev Product Manager, Google DeepMind Kriti Dwivedi Software Engineer Share x.com Facebook LinkedIn Mail Copy link Your browser does not support the audio element. Listen to article This content is generated by Google AI. Generative AI is experimental [[duration]] minutes Voice Speed Voice Speed 0.75X 1X 1.5X 2X Today, we are expanding the Gemini API’s File Search tool. You can now build retrieval-augmented generation (RAG) systems with multimodal data and custom metadata. We’re also introducing page citations to improve grounding and transparency. Whether you are prototyping a weekend project or scaling a production application for thousands of users, your RAG systems can now natively process and better organize your text and visual data. Give your apps a photographic memory File Search now processes images and text together. Powered by the Gemini Embedding 2 model, the tool understands native image data, providing your agents contextual awareness. Think of a creative agency trying to dig up a specific visual asset. Instead of relying on keywords or filenames, your app can search an entire archive for an image matching a specific emotional tone or visual style described in a natural language brief. See how developers are already using it: Filter the noise with custom metadata Dumping files into a database is easy. Finding the right one at scale is the real challenge. Custom metadata allows you to attach key-value labels to your unstructured data — things like department: Legal or status: Final . By applying metadata filters at query time, your application can scope requests to the data slice required. This significantly reduces noise from irrelevant documents, increasing both the speed and accuracy of your RAG workflows. Show your work with page citations When your application pulls an answer from a massive PDF, users need to verify exactly where that answer came from. File Search now ties the model’s response directly to the original source. It captures the page number for every piece of indexed information. This level of granularity allows you to point users directly to the right spot, which helps build trust and makes your tool immediately useful for rigorous fact-checking. Get started with File Search We want to make it as easy as possible to store and retrieve the data that makes your ideas work. The File Search tool handles the heavy infrastructure so you can focus on building the product. Uploading files and searching across them is simple: Explore more code snippets in our developer guide and Gemini API documentation to learn how to build with File Search. POSTED IN: