바이트댄스, 30억 파라미터로 만능 통합 모델 'Lance' 오픈소스 공개
바이트댄스가 단 30억(3B) 개의 파라미터만으로 이미지 및 비디오의 이해, 생성, 편집을 모두 지원하는 오픈소스 경량 통합 멀티모달 모델 'Lance'를 공개했습니다. 이 모델은 128개의 A100 GPU 환경에서 처음부터(From scratch) 학습되었음에도 불구하고, 기존 벤치마크에서 강력한 성능을 입증하며 뛰어난 효율성을 보여줍니다. 이는 자원이 제한된 환경에서도 고성능 멀티모달 AI를 구현할 수 있다는 것을 증명하는 의미 있는 연구 성과입니다.
Lance: 멀티태스크 시너지를 통한 통합 멀티모달 모델링 Fengyi Fu *, Mengqi Huang *,✉ , Shaojin Wu * , Yunsheng Jiang * , Yufei Huo , Jianzhu Guo ✉,§ Hao Li, Yinghang Song, Fei Ding, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang (바이트댄스)
- 공동 제1저자 ✉ 교신저자 § 프로젝트 리드 영어 | 중국어
🌟 하이라이트 Lance는 단일 프레임워크 내에서 이미지 및 비디오 이해, 생성, 편집을 지원하는 경량 네이티브 통합 멀티모달 모델입니다.
3B(30억) 규모의 고효율성. 단 30억 개의 활성 파라미터(Active parameters)만으로도 Lance는 이미지 생성, 이미지 편집 및 비디오 생성 벤치마크에서 뛰어난 성능을 발휘합니다.
백지상태에서 학습(Trained from scratch). Lance는 단계적 멀티태스크 레시피를 사용하여 구축되었으며, 128개의 A100 GPU 예산 환경 내에서 완전히 처음부터 학습되었습니다.
🎨 데모 텍스트-비디오 생성(Text-to-Video) 비디오 편집(Video Editing) 멀티턴 일관성 편집(Multi-turn Consistency Editing) 지능형 비디오 생성(Intelligent Video Generation)
비디오 이해(Video Understanding) 질문: 테이블 위에서 사람이 물건을 몇 번 던졌나요? 선택지: (A) 3 (B) 2 (C) 4 응답: (A) 3
질문: 사람이 반복적인 동작을 수행합니다. 사람은 몇 가지의 서로 다른 반복 동작을 했나요? 선택지: (A) 2 (B) 3 (C) 4 응답: (A) 2
질문: 비디오에서 보랏색 구슬은 어느 방향으로 움직이나요? 선택지: (A) 아래쪽 및 오른쪽 (B) 위쪽 및 왼쪽 (C) 위쪽 및 오른쪽 (D) 물체는 정지해 있음 응답: (A) 아래쪽 및 오른쪽
질문: 비디오에 표시된 비현실적인 현상은 무엇인가요? 선택지: (A) 남자가 휴대폰으로 시간을 조작할 수 있음 (B) 남자가 휴대폰 화면을 통해 물체를 잡음 (C) 초콜릿이 다른 물체로 변형됨 (D) 가시적인 추진 수단이 비행을 가능하게 함 응답: (B) 남자가 휴대폰 화면을 통해 물체를 잡음
질문: 이 비디오에 나타난 요리 과정에 대해 간략히 설명해 주세요. 응답: 토마토 퓨레를 추가하고 닭고기 조각과 함께 잘 섞습니다.
질문: 주요 순간을 포착하여 주어진 비디오에 대해 자세히 설명해 주세요. 응답: 햇살이 비치는 초원에서 작은 거북이 등껍질 무늬의 나비가 보랏빛 꽃 위에 앉아 있습니다. 검은색과 노란색 줄무늬가 있는 벌이 같은 꽃에 내려앉습니다. 나비는 부드럽게 날갯짓을 하고, 벌은 꿀을 모으며 바쁘게 움직입니다. 꽃은 미풍에 살짝 흔들립니다. 이윽고 나비가 날아오르고 벌이 따라가며 둘 다 다음 꽃으로 향합니다. 이 장면은 초원의 녹색 배경과 대비되는 나비와 벌의 색채와 함께, 자연 환경에서의 곤충 상호작용을 생생하게 보여줍니다. 비디오는 이 평화로운 순간을 짧은 6초의 시간 동안 담아냅니다.
텍스트-이미지 생성(Text-to-Image Generation) 이미지 편집(Image Editing)
이미지 이해(Image Understanding) 질문: 가장 큰 조각의 크기가 나머지 모든 조각의 합보다 큰가요? 응답: 네, 파이 차트에서 가장 큰 조각은 파란색 조각으로, 이는 가장 인구가 많은 조각입니다.
질문: 국경 보안을 강화하기를 원하는 응답자의 비율은 몇 %인가요? 응답: 29%
질문: 이 차의 번호판은 무엇인가요? 응답: 이 차의 번호판은 BX62 BFY입니다.
질문: 자체 시장 조사 데이터에 따르면, 1998년에 프로모션 회의 및 행사에 지출된 총 금액은 얼마인가요? 응답: 자체 시장 조사 데이터에 따르면, 1998년에 프로모션 회의 및 행사에 지출된 총 금액은 약 13억 달러였습니다.
질문: 이탈리아 로마에 있는 콜로세움의 외관은 어떻게 생겼나요? 응답: 이탈리아 로마의 콜로세움은 석재와 콘크리트로 만들어진 웅장한 고대 원형 경기장입니다. 크고 아치형으로 된 개구부와 반원형 모양이 특징입니다. 콜로세움은 부분적으로 복원되었으며 원래의 색상은 바래었지만, 기둥과 반원형 아치와 같은 건축적 세부 사항은 여전히 볼 수 있습니다. 이미지의 조명은 콜로세움의 웅장함과 역사적 중요성을 돋보이게 하여 저녁 하늘을 배경으로 이를 돋보이게 만듭니다.
질문: 지구에서 본 개기일식은 어떻게 보이나요? 응답: 개기일식은 어두운...