Hacker News • 71일 전

이미지 복원을 위한 FFT와 트랜스포머의 융합 (2024)

IMP

7/10

핵심 요약

ECCV 2024에 발표된 이 연구는 고속 푸리에 변환(FFT) 메커니즘을 트랜스포머 아키텍처에 결합한 'SFHformer'라는 효율적인 이미지 복원 프레임워크를 제안합니다. 이 모델은 주파수 및 공간 도메인을 동시에 활용하여 10가지 이미지 복원 태스크(비/안개 제거, 노이즈 제거, 초해상화 등)에서 기존 최고 수준(SOTA) 모델을 능가하는 성능을 보여주며, 성능과 연산량 및 파라미터 사이의 우수한 균형을 달성하는 것이 중요한 핵심입니다.

번역된 본문

[이미지 복원을 위한 고속 푸리에 변환과 트랜스포머의 만남] (ECCV 2024) 공식 구현 코드. 저자: Xingyu Jiang, Xiuhui Zhang, Ning Gao, Yue Deng * 중국 베이징 베이항대학교(Beihang University) 우주항공학과

소식 우리의 연구에 관심을 가져주셔서 감사합니다. 앞으로도 코드를 계속 최적화할 예정입니다. 다른 질문이 있으시면 이슈(Issues)에 자유롭게 남겨주시면 최선을 다해 답변해 드리겠습니다!

2025년 5월 20일: SFHformer의 확장 연구인 SWFormer: "Image Restoration via Multi-domain Learning"가 https://arxiv.org/pdf/2505.05504 에서 확인 가능합니다. Github 코드: https://github.com/deng-ai-lab/SWFormer . 2025년 4월 11일: 시각적 결과(Vidual result) 섹션에서 데이터셋의 시각화 결과 일부를 공개했습니다. 2025년 3월 27일: Dehazing 폴더에 테스트 코드와 함께 ITS 및 OTS의 사전 학습 가중치를 공개했습니다. 2024년 10월 17일: 학습 코드가 공개되었으며 논문은 이곳에서 확인하실 수 있습니다! 2024년 7월 25일: ECCV 2024 논문 채택

초록 (Abstract): 자연 이미지는 악화된 대기 조건이나 특정한 열화 메커니즘으로 인해 다양한 품질 저하 현상을 겪을 수 있습니다. 이러한 다양성 때문에 다양한 복원 작업을 위한 범용 프레임워크를 설계하는 것은 매우 까다롭습니다. 기존의 이미지 복원 방법들은 제한된 복원 사전 지식(prior) 하에서 네트워크 아키텍처를 수정하는 데 집중할 뿐, 서로 다른 열화 현상 간의 공통점을 탐구하는 데는 소홀했습니다. 본 연구에서는 먼저 주파수(frequency) 관점에서 다양한 열화 현상을 사전 지식으로서 분석합니다. 이를 바탕으로 고속 푸리에 변환(Fast Fourier Transform) 메커니즘을 트랜스포머(Transformer) 아키텍처에 통합한 효율적인 이미지 복원 프레임워크인 'SFHformer'를 제안합니다. 구체적으로, 다중 스케일 수용장(receptive field) 모델링을 위해 공간 도메인과 주파수 도메인이 각각 지역적(local) 모델링과 전역적(global) 모델링에 집중하는 이중 도메인 하이브리드 구조를 설계했습니다. 또한, 풍부한 주파수 영역 특징을 추출하기 위해 각 주파수 성분에 대한 고유한 위치 코딩(positional coding)과 주파수 동적 합성곱(frequency dynamic convolution)을 설계했습니다. 비/안개 제거, 흐림 제거, 눈 제거, 노이즈 제거, 초해상화, 수중/저조도 이미지 향상 등 10가지 복원 태스크에 대한 31개 복원 데이터셋에서 수행된 광범위한 실험은 우리의 SFHformer가 최첨단(SOTA) 접근 방식을 능가하며 성능, 파라미터 크기 및 계산 비용 간의 우수한 균형을 달성했음을 입증합니다.

소개 (Introduction) 네트워크 아키텍처

결과 (Results) 실험은 이미지 안개 제거(dehazing), 비 제거(deraining), 눈 제거(desnowing), 노이즈 제거(denoising), 초해상화(super-resolution), 단일 이미지 모션 블러 제거(motion deblurring), 디포커스 블러 제거(defocus deblurring), 빗방울 제거(raindrop removal), 저조도 이미지 향상(low-light enhancement), 수중 이미지 향상(underwater enhancement)을 포함한 다양한 이미지 복원 작업에 대해 수행되었습니다.

이미지 안개 제거 (클릭하여 펼치기) 이미지 비 제거 (클릭하여 펼치기) 이미지 눈 제거 (클릭하여 펼치기) 이미지 초해상화 (클릭하여 펼치기) 이미지 빗방울 제거 (클릭하여 펼치기) 단일 이미지 모션 블러 제거 (클릭하여 펼치기) 디포커스 블러 제거 (클릭하여 펼치기) 이미지 노이즈 제거 (클릭하여 펼치기) 수중 이미지 향상 (클릭하여 펼치기) 저조도 이미지 향상 (클릭하여 펼치기)

데이터셋 준비 (Prepare Datasets) 비 제거 데이터셋: Rain200L/Rain200H DDN-Data DID-Data 학습 DID-Data 테스트 SPA-Data 빗방울 안개 제거 데이터셋: ITS OTS O-HAZE NH-HAZE DENSE-HAZE SOTS 저조도 향상 데이터셋: LOLv1 LOLv2 FiveK 모션 블러 제거 데이터셋: Motion Blur(GoPro/HIDE/RealBlur-R/RealBlur-J) 디포커스 블러 제거 데이터셋: DPDD 눈 제거 데이터셋: CSD SRRS Snow100K 수중 향상 데이터셋: UIEB LSUI 노이즈 제거 데이터셋: SIDD 초해상화 데이터셋: DIV2K Set5 Set14 B100 Urban100 Manga109

사전 학습된 모델 (Pretrained model) 안개 제거 데이터셋: ITS OTS 저조도 향상 데이터셋: LOLv2-r LOLv2-s 모션 블러 제거 데이터셋: GoPro

시각적 결과 (Visual Results) 안개 제거 데이터셋 SOTS-indoor SOTS-outdoor O-HAZE NH-HAZE DENSE-HAZE 바이두 클라우드 다운로드 (8sj6) 다운로드 (awnk) 다운로드 (pfem) 다운로드 (e72s) 다운로드 (r7p4) 저조도 데이터셋 LOLv2-real LOLv2-syn 바이두 클라우드 다운로드 (jq

원문 보기

원문 보기 (영어)

[When Fast Fourier Transform Meets Transformer for Image Restoration] (ECCV 2024) Official implementation. Authors Xingyu Jiang, Xiuhui Zhang, Ning Gao, Yue Deng * School of Astronautics, Beihang University, Beijing, China News Thanks for your interest in our work, we will continue to optimize our code. If you have any other questions, please feel free to raise them in the issues, and I will try my best to address them! May 20, 2025: Our extension work SWFormer: "Image Restoration via Multi-domain Learning" of SFHformer is available at https://arxiv.org/pdf/2505.05504 . Github Code: https://github.com/deng-ai-lab/SWFormer . Apr 11, 2025: We release some visualizations of the dataset in the Visual result section. Mar 27, 2025: We release the pre-training weights of ITS and OTS with the test code in the dehazing folder. Oct 17, 2024: The train code is now open and our paper is available here ! Jul 25, 2024: Paper accepted at ECCV 2024. Abstract: Natural images can suffer from various degradation phenomena caused by adverse atmospheric conditions or unique degradation mechanism. Such diversity makes it challenging to design a universal framework for kinds of restoration tasks. Instead of exploring the commonality across different degradation phenomena, existing image restoration methods focus on the modification of network architecture under limited restoration priors. In this work, we first review various degradation phenomena from a frequency perspective as prior. Based on this, we propose an efficient image restoration framework, dubbed SFHformer, which incorporates the Fast Fourier Transform mechanism into Transformer architecture. Specifically, we design a dual domain hybrid structure for multi-scale receptive fields modeling, in which the spatial domain and the frequency domain focuses on local modeling and global modeling, respectively. Moreover, we design unique positional coding and frequency dynamic convolution for each frequency component to extract rich frequency-domain features. Extensive experiments on thirty-one restoration datasets for a range of ten restoration tasks such as deraining, dehazing, deblurring, desnowing, denoising, super-resolution and underwater/low-light enhancement, demonstrate that our SFHformer surpasses the state-of-the-art approaches and achieves a favorable trade-off between performance, parameter size and computational cost. Introduction Network Architecture Results Experiments are performed for different image restoration tasks including, image dehazing, image deraining, image desnowing, image denoising, image super-resolution, single-image motion deblurring, defocus deblurring, image raindrop removal, low-light image enhancement and underwater image enhancement. Image Dehazing (click to expand) Image Deraining (click to expand) Image Desnowing (click to expand) Image Super-resolution (click to expand) Image Raindrop Removal (click to expand) Single-Image Motion Deblurring (click to expand) Defocus Deblurring (click to expand) Image Denoising (click to expand) Underwater Image Enhancement (click to expand) Low-light Image Enhancement (click to expand) Prepare Datasets Deraining Datasets: Rain200L/Rain200H DDN-Data DID-Data Train DID-Data Test SPA-Data Raindrop Dehazing Datasets: ITS OTS O-HAZE NH-HAZE DENSE-HAZE SOTS Low-light Enhancement Datasets: LOLv1 LOLv2 FiveK Motion Deblur Datasets: Motion Blur(GoPro/HIDE/RealBlur-R/RealBlur-J) Defocus Deblur Datasets: DPDD Desnowing Datasets: CSD SRRS Snow100K Underwater Enhancement Datasets: UIEB LSUI Denoise Datasets: SIDD Super-resolution Datasets: DIV2K Set5 Set14 B100 Urban100 Manga109 Pretrained model Dehazing Datasets: ITS OTS Low-light Enhancement Datasets: LOLv2-r LOLv2-s Motion Deblur Datasets: GoPro Visual Results Dehazing Dataset SOTS-indoor SOTS-outdoor O-HAZE NH-HAZE DENSE-HAZE Baidu NetDisk Download (8sj6) Download (awnk) Download (pfem) Download (e72s) Download (r7p4) Low-light Dataset LOLv2-real LOLV2-syn Baidu NetDisk Download (jqgh) Download (wy8i) Underwater Dataset UIEB LSUI Baidu NetDisk Download (7hxd) Download (jd7m) Motion Deblurring Dataset GoPro Baidu NetDisk Download (z9uv) Desnowing Dataset SRRS Baidu NetDisk Download (5899) Raindrop Dataset RainDrop Baidu NetDisk Download (4nay) Deraining Dataset SPA-Data Baidu NetDisk Download (k8s6) Supplementary Material For more details, see the supplementary material here ! References Here is the BibTeX citation for the paper: @inproceedings{jiang2024fast, title={When Fast Fourier Transform Meets Transformer for Image Restoration}, author={Jiang, Xingyu and Zhang, Xiuhui and Gao, Ning and Deng, Yue}, booktitle={European Conference on Computer Vision}, pages={381--402}, year={2024}, organization={Springer} } Other Acknowledgment Part of our code is based on the Dehazeformer and Restormer . Thanks for their awesome work. Contact If your submitted issue has not been noticed or there are further questions, please contact jxy33zrhd@buaa.edu.cn .

이미지 복원 비전 트랜스포머 푸리에 변환 컴퓨터 비전 오픈소스