Multimodal Learning for Embryo Viability Prediction in Clinical IVFInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Junsik Kim

Zhiyi Shi

Davin Jeong

Johannes Knittel

...

231

21 Oct 2024

SEA: State-Exchange Attention for High-Fidelity Physics Based TransformersNeural Information Processing Systems (NeurIPS), 2024

Parsa Esmati

Amirhossein Dadashzadeh

Vahid Goodarzi

Nicolas Larrosa

Nicolo Grilli

320

20 Oct 2024

A Theoretical Survey on Foundation Models

Shi Fu

Yuzhu Chen

Yingjie Wang

Dacheng Tao

287

15 Oct 2024

Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

Kunhao Fu

287

12 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

218

12 Oct 2024

nach0-pc: Multi-task Language Model with Molecular Point Cloud EncoderAAAI Conference on Artificial Intelligence (AAAI), 2024

238

11 Oct 2024

Exploring Efficient Foundational Multi-modal Models for Video Summarization

Karan Samel

Apoorva Beedu

Nitish Sontakke

Irfan Essa

132

09 Oct 2024

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge AugmentationNeural Information Processing Systems (NeurIPS), 2024

399

30 Sep 2024

MECD: Unlocking Multi-Event Causal Discovery in Video ReasoningNeural Information Processing Systems (NeurIPS), 2024

Yihang Chen

...

Yang Zhang

Yingxue Wang

Hui Lin

Weiyao Lin

VGen CML

408

26 Sep 2024

A Diagonal Structured State Space Model on Loihi 2 for Efficient Streaming Sequence ProcessingNeuro Inspired Computational Elements Workshop (NICE), 2024

Sumit Bam Shrestha

219

23 Sep 2024

Mamba-ST: State Space Model for Efficient Style TransferIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Leonardo Rossi

Massimo Bertozzi

218

16 Sep 2024

Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation

Qilong Zhangli

Di Liu

Abhishek Aich

Dimitris Metaxas

S. Schulter

203

15 Sep 2024

PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics

Jingmin Sun

Zecheng Zhang

244

15 Sep 2024

What to align in multimodal contrastive learning?International Conference on Learning Representations (ICLR), 2024

333

11 Sep 2024

T3M: Text Guided 3D Human Motion Synthesis from Speech

Wenshuo Peng

Kaipeng Zhang

Sai Qian Zhang

164

23 Aug 2024

VideoQA in the Era of LLMs: An Empirical StudyInternational Journal of Computer Vision (IJCV), 2024

...

344

08 Aug 2024

AdapMTL: Adaptive Pruning Framework for Multitask Learning ModelACM Multimedia (MM), 2024

226

07 Aug 2024

Dual-path Collaborative Generation Network for Emotional Video CaptioningACM Multimedia (MM), 2024

255

06 Aug 2024

Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge GraphInternational Conference on Information and Knowledge Management (CIKM), 2024

Zhao Kaichen

Song Yaoxian

Zhao Haiquan

Liu Haoyu

Li Tiefeng

Li Zhixu

218

05 Aug 2024

FlexAttention for Efficient High-Resolution Vision-Language ModelsEuropean Conference on Computer Vision (ECCV), 2024

Chuang Gan

259

29 Jul 2024

MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and BilibiliACM Multimedia (MM), 2024

261

28 Jul 2024

Ego-VPA: Egocentric Video Understanding with Parameter-efficient AdaptationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

492

28 Jul 2024

LoFormer: Local Frequency Transformer for Image Deblurring

194

24 Jul 2024

Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval

290

23 Jul 2024

Causal Understanding For Video Question Answering

Bhanu Prakash Reddy Guda

Tanmay Kulkarni

Adithya Sampath

Swarnashree Mysore Sathyendra

CML

275

23 Jul 2024