Sound-Guided Semantic Image Manipulation

30 November 2021

Papers citing "Sound-Guided Semantic Image Manipulation"

37 / 37 papers shown

Audio-Guided Visual Editing with Complex Multi-Modal Prompts

174

28 Aug 2025

DualResolution Residual Architecture with Artifact Suppression for Melanocytic Lesion Segmentation

Vikram Singh

Kabir Malhotra

Rohan Desai

Ananya Shankaracharya

Priyadarshini Chatterjee

Krishnan Menon Iyer

MedIm

392

09 Aug 2025

VesselRW: Weakly Supervised Subcutaneous Vessel Segmentation via Learned Random Walk Propagation

Ayaan Nooruddin Siddiqui

Mahnoor Zaidi

Ayesha Nazneen Shahbaz

Priyadarshini Chatterjee

Krishnan Menon Iyer

309

09 Aug 2025

Edge Detection for Organ Boundaries via Top Down Refinement and SubPixel Upsampling

345

09 Aug 2025

Deeply Dual Supervised learning for melanoma recognition

Rujosh Polma

Krishnan Menon Iyer

278

04 Aug 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

235

14 Jul 2025

MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment

530

13 Mar 2025

Language-Guided Joint Audio-Visual Editing via One-Shot AdaptationAsian Conference on Computer Vision (ACCV), 2024

Chenliang Xu

421

09 Oct 2024

Self-Supervised Audio-Visual Soundscape StylizationEuropean Conference on Computer Vision (ECCV), 2024

Tingle Li

Renhao Wang

Po-Yao Huang

Andrew Owens

Gopala Anumanchipalli

DiffM SSL

381

22 Sep 2024

EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos

Aashish Rai

Srinath Sridhar

DiffM

213

30 Jul 2024

NeuroBind: Towards Unified Multimodal Representations for Neural Signals

...

331

19 Jul 2024

Espresso: Robust Concept Filtering in Text-to-Image Models

614

30 Apr 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

387

17 Mar 2024

Binding Touch to Everything: Learning Unified Multimodal Tactile Representations

Ziyang Chen

...

327

124

31 Jan 2024

Cross-modal Cognitive Consensus guided Audio-Visual SegmentationIEEE transactions on multimedia (IEEE TMM), 2023

Zhaofeng Shi

Qingbo Wu

Fanman Meng

Linfeng Xu

Hongliang Li

VOS

517

10 Oct 2023

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable DiffusionIEEE International Conference on Computer Vision (ICCV), 2023

200

08 Sep 2023

Generating Realistic Images from In-the-wild SoundsIEEE International Conference on Computer Vision (ICCV), 2023

360

05 Sep 2023

Align, Adapt and Inject: Sound-guided Unified Image Generation

Yu Qiao

Ping Luo

DiffM

404

20 Jun 2023

Conditional Generation of Audio from Video via Foley AnalogiesComputer Vision and Pattern Recognition (CVPR), 2023

Ziyang Chen

251

17 Apr 2023

Soundini: Sound-Guided Diffusion for Natural Video Editing

Feng Yang

233

13 Apr 2023

VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEsIEEE International Conference on Computer Vision (ICCV), 2023

538

12 Apr 2023

Sound to Visual Scene Generation by Audio-to-Visual Latent AlignmentComputer Vision and Pattern Recognition (CVPR), 2023

364

30 Mar 2023

GlueGen: Plug and Play Multi-modal Encoders for X-to-image GenerationIEEE International Conference on Computer Vision (ICCV), 2023

Ran Xu

444

17 Mar 2023

Chat with the Environment: Interactive Multimodal Perception Using Large Language ModelsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

Xufeng Zhao

Mengdi Li

C. Weber

Muhammad Burhan Hafez

S. Wermter

LLMAG LM&Ro LRM

427

14 Mar 2023

CoralStyleCLIP: Co-optimized Region and Layer Selection for Image EditingComputer Vision and Pattern Recognition (CVPR), 2023

200

09 Mar 2023

Cross-modal Face- and Voice-style Transfer

303

27 Feb 2023

CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled VideosInternational Conference on Learning Representations (ICLR), 2022

Taylor Berg-Kirkpatrick

VLM CLIP

309

14 Dec 2022

Fighting Malicious Media Data: A Survey on Tampering Detection and Deepfake DetectionProceedings of the IEEE (Proc. IEEE), 2022

Zuxuan Wu

234

12 Dec 2022

Touch and Go: Learning from Human-Collected Vision and TouchNeural Information Processing Systems (NeurIPS), 2022

369

105

22 Nov 2022

LISA: Localized Image Stylization with Audio via Implicit Neural Representation

194

21 Nov 2022

GAN-based Facial Attribute ManipulationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

307

23 Oct 2022

Robust Sound-Guided Image ManipulationNeural Networks (NN), 2022

382

30 Aug 2022

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

332

20 Aug 2022

Learning Visual Styles from Audio-Visual AssociationsEuropean Conference on Computer Vision (ECCV), 2022

Hang Zhao

239

10 May 2022

Sound-Guided Semantic Video GenerationEuropean Conference on Computer Vision (ECCV), 2022

447

20 Apr 2022

Audio-to-Image Cross-Modal GenerationIEEE International Joint Conference on Neural Network (IJCNN), 2021

Maciej Żelaszczyk

Jacek Mańdziuk

DiffM

228

27 Sep 2021

GAN Inversion: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Yujiu Yang

Ming-Hsuan Yang

1.1K

617

14 Jan 2021