v1v2 (latest)

Object Referring in Videos with Language and Human Gaze

4 January 2018

Luc Van Gool

Papers citing "Object Referring in Videos with Language and Human Gaze"

50 / 50 papers shown

Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views

Anna Deichler

Jonas Beskow

VGen

151

26 Oct 2025

RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba

...

133

18 Oct 2025

Multimodal Human-Intent Modeling for Contextual Robot-to-Human Handovers of Arbitrary Objects

118

05 Aug 2025

RefAV: Towards Planning-Centric Scenario Mining

Cainan Davidson

Deva Ramanan

Neehar Peri

407

27 May 2025

ChatBEV: A Visual Language Model that Understands BEV Maps

409

18 Mar 2025

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation

Qiong Cao

216

17 Oct 2024

SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

363

14 Oct 2024

Look Hear: Gaze Prediction for Speech-directed Human AttentionEuropean Conference on Computer Vision (ECCV), 2024

Sounak Mondal

Seoyoung Ahn

Zhibo Yang

Niranjan Balasubramanian

Dimitris Samaras

G. Zelinsky

Minh Hoai

409

28 Jul 2024

Bootstrapping Referring Multi-Object Tracking

382

07 Jun 2024

MLS-Track: Multilevel Semantic Interaction in RMOT

211

18 Apr 2024

Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation

Swati Jindal

Mohit Yadav

Roberto Manduchi

165

08 Apr 2024

Towards Weakly Supervised Text-to-Audio Grounding

Kai Yu

356

05 Jan 2024

A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future OutlookIEEE Transactions on Intelligent Vehicles (TIV), 2024

472

02 Jan 2024

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Xinpeng Ding

Jinahua Han

Hang Xu

Xiaodan Liang

Wei Zhang

Xiaomeng Li

304

02 Jan 2024

Voila-A: Aligning Vision-Language Models with User's Gaze Attention

262

22 Dec 2023

Prospective Role of Foundation Models in Advancing Autonomous Vehicles

...

319

08 Dec 2023

Towards Knowledge-driven Autonomous Driving

Licheng Wen

...

Yu Qiao

414

07 Dec 2023

Multi-Modal Gaze Following in Conversational ScenariosIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

194

09 Nov 2023

Video Referring Expression Comprehension via Transformer with Content-conditioned Query

267

25 Oct 2023

Vision Language Models in Autonomous Driving: A Survey and OutlookIEEE Transactions on Intelligent Vehicles (TIV), 2023

304

130

22 Oct 2023

Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous DrivingIEEE International Conference on Robotics and Automation (ICRA), 2023

Krishna Murthy Jatavallabhula

K. M. Krishna

290

109

03 Oct 2023

Language Prompt for Autonomous DrivingAAAI Conference on Artificial Intelligence (AAAI), 2023

Cheng-zhong Xu

478

127

08 Sep 2023

Look, Remember and Reason: Grounded reasoning in videos with language modelsInternational Conference on Learning Representations (ICLR), 2023

Apratim Bhattacharyya

470

30 Jun 2023

Referring Multi-Object TrackingComputer Vision and Pattern Recognition (CVPR), 2023

Xiangyu Zhang

240

118

06 Mar 2023

Video Referring Expression Comprehension via Transformer with Content-aware Query

270

06 Oct 2022

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video GroundingNeural Information Processing Systems (NeurIPS), 2022

245

27 Sep 2022

Correspondence Matters for Video Referring Expression ComprehensionACM Multimedia (ACM MM), 2022

311

21 Jul 2022

Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video GroundingInternational Conference on Information Photonics (ICIP), 2022

Zeyu Xiong

Daizong Liu

Technology

02 Jul 2022

Where and What: Driver Attention-based Object Detection

Yao Rong

Naemi-Rebecca Kassautzki

Wolfgang Fuhl

Enkelejda Kasneci

228

26 Apr 2022

Do Transformer Models Show Similar Attention Patterns to Task-Specific Human Gaze?Annual Meeting of the Association for Computational Linguistics (ACL), 2022

205

25 Apr 2022

TubeDETR: Spatio-Temporal Video Grounding with TransformersComputer Vision and Pattern Recognition (CVPR), 2022

341

121

30 Mar 2022

End-to-End Modeling via Information Tree for One-Shot Natural Language Spatial Video GroundingAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Zhou Zhao

...

Peng Wang

292

15 Mar 2022

RadioTransformer: A Cascaded Global-Focal Transformer for Visual Attention-guided Disease ClassificationEuropean Conference on Computer Vision (ECCV), 2022

200

23 Feb 2022

Leveraging Human Selective Attention for Medical Image Analysis with Limited Training Data

Yifei Huang

Yoichi Sato

181

02 Dec 2021

Neural Variational Learning for Grounded Language AcquisitionIEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), 2021

213

20 Jul 2021

Giving Commands to a Self-Driving Car: How to Deal with Uncertain Situations?Engineering applications of artificial intelligence (EAAI), 2021

Thierry Deruyttere

Victor Milewski

Marie-Francine Moens

200

08 Jun 2021

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

214

09 Nov 2020

Commands 4 Autonomous Vehicles (C4AV) Workshop Summary

Luc Van Gool

Matthew Blaschko

Tinne Tuytelaars

Marie-Francine Moens

227

18 Sep 2020

Towards End-to-end Video-based Eye-TrackingEuropean Conference on Computer Vision (ECCV), 2020

Seonwook Park

Emre Aksan

Xucong Zhang

Otmar Hilliges

174

26 Jul 2020

Visual Relation Grounding in VideosEuropean Conference on Computer Vision (ECCV), 2020

262

17 Jul 2020

Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form SentencesComputer Vision and Pattern Recognition (CVPR), 2020

Zhou Zhao

Lianli Gao

253

148

19 Jan 2020

Talk2Nav: Long-Range Vision-and-Language Navigation with Dual Attention and Spatial Memory

251

04 Oct 2019

Talk2Car: Taking Control of Your Self-Driving CarConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

Luc Van Gool

194

166

24 Sep 2019

Searching for Ambiguous Objects in Videos using Relational Referring ExpressionsBritish Machine Vision Conference (BMVC), 2019

286

03 Aug 2019

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and MethodsJournal of Artificial Intelligence Research (JAIR), 2019

416

142

22 Jul 2019

Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in VideoAnnual Meeting of the Association for Computational Linguistics (ACL), 2019

268

111

06 Jun 2019

Learning Accurate, Comfortable and Human-like Driving

Simon Hecker

Dengxin Dai

Luc Van Gool

118

26 Mar 2019

Generating Easy-to-Understand Referring Expressions for Target Identifications

220

29 Nov 2018

TVQA: Localized, Compositional Video Question Answering

440

720

05 Sep 2018

Video Object Segmentation with Language Referring Expressions

Anna Khoreva

Anna Rohrbach

Bernt Schiele

VOS

261

242

21 Mar 2018