v1v2 (latest)

Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression

25 February 2019

Silvio Savarese

Papers citing "Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression"

50 / 1,203 papers shown

Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization

568

12 Sep 2024

Sam2Rad: A Segmentation Model for Medical Images with Learnable Prompts

236

10 Sep 2024

Vision-Driven 2D Supervised Fine-Tuning Framework for Bird's Eye View Perception

Jianqiang Wang

Keqiang Li

246

09 Sep 2024

Introducing Gating and Context into Temporal Action Detection

Francois Bremond

244

06 Sep 2024

UAV (Unmanned Aerial Vehicles): Diverse Applications of UAV Datasets in Segmentation, Classification, Detection, and Tracking

Md. Mahfuzur Rahman

Kishor Datta Gupta

220

05 Sep 2024

A Modern Take on Visual Relationship Reasoning for Grasp PlanningIEEE Robotics and Automation Letters (RA-L), 2024

Paolo Rabino

Tatiana Tommasi

169

03 Sep 2024

TrackSSM: A General Motion Predictor by State-Space Model

Wenyu Liu

530

31 Aug 2024

Unintentional Security Flaws in Code: Automated Defense via Root Cause Analysis

Nafis Tanveer Islam

Mazal Bethany

Dylan Manuel

Murtuza Jadliwala

Peyman Najafirad

240

30 Aug 2024

Hybrid Classification-Regression Adaptive Loss for Dense Object Detection

257

30 Aug 2024

UTrack: Multi-Object Tracking with Uncertain Detections

Edgardo Solano-Carrillo

Ángel Bueno Rodríguez

Jannis Stoppe

VOT

321

30 Aug 2024

ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual GroundingACM Multimedia (MM), 2024

Minghang Zheng

Jiahua Zhang

Qingchao Chen

Yuxin Peng

Yang Liu

ObjD

297

29 Aug 2024

PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View

185

29 Aug 2024

FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text SpottingInternational Conference on Pattern Recognition (ICPR), 2024

276

27 Aug 2024

FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement

Fengshun Wang

Qiurui Wang

Yuting Wang

162

25 Aug 2024

MCTR: Multi Camera Tracking Transformer

Alexandru Niculescu-Mizil

Deep Patel

Iain Melvin

398

23 Aug 2024

CatFree3D: Category-agnostic 3D Object Detection with DiffusionInternational Conference on 3D Vision (3DV), 2024

Wenjing Bian

Zirui Wang

Andrea Vedaldi

315

22 Aug 2024

BihoT: A Large-Scale Dataset and Benchmark for Hyperspectral Camouflaged Object TrackingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

413

22 Aug 2024

GSLAMOT: A Tracklet and Query Graph-based Simultaneous Locating, Mapping, and Multiple Object Tracking SystemACM Multimedia (MM), 2024

Yongcai Wang

Zhe Huang

201

17 Aug 2024

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing CommunityAAAI Conference on Artificial Intelligence (AAAI), 2024

Luc Van Gool

Xiaomeng Huang

ObjD

492

17 Aug 2024

Language-Driven Interactive Shadow DetectionACM Multimedia (MM), 2024

Hongqiu Wang

Wei Wang

Haipeng Zhou

Huihui Xu

Shaozhi Wu

Lei Zhu

234

16 Aug 2024

RTAT: A Robust Two-stage Association Tracker for Multi-Object TrackingInternational Conference on Pattern Recognition (ICPR), 2024

211

14 Aug 2024

Unified-IoU: For High-Quality Object Detection

222

13 Aug 2024

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic SurgeryInformation Fusion (Inf. Fusion), 2024

Long Bai

Guankun Wang

Mobarakol Islam

Lalithkumar Seenivasan

An-Chi Wang

Hongliang Ren

252

09 Aug 2024

JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling

Seok Hwan Lee

Taein Son

Soo Won Seo

Jisong Kim

Jun Won Choi

327

07 Aug 2024

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and SynopsesACM Multimedia (MM), 2024

372

03 Aug 2024

Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization

Vinaya Sree Katamneni

A. Rattani

346

02 Aug 2024

An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual GroundingEuropean Conference on Computer Vision (ECCV), 2024

Wei Chen

Mahdieh Hatamian

Yu Wu

241

02 Aug 2024

Synthetic dual image generation for reduction of labeling efforts in semantic segmentation of micrographs with a customized metric function

Matias Oscar Volman Stern

191

01 Aug 2024

Classification Matters: Improving Video Action Detection with Class-Specific AttentionEuropean Conference on Computer Vision (ECCV), 2024

384

29 Jul 2024

Look Hear: Gaze Prediction for Speech-directed Human AttentionEuropean Conference on Computer Vision (ECCV), 2024

Sounak Mondal

Seoyoung Ahn

Zhibo Yang

Niranjan Balasubramanian

Dimitris Samaras

G. Zelinsky

Minh Hoai

407

28 Jul 2024

PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects

229

23 Jul 2024

Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval

344

21 Jul 2024

PolyR-CNN: R-CNN for end-to-end polygonal building outline extraction

192

20 Jul 2024

Bucketed Ranking-based Losses for Efficient Training of Object Detectors

286

19 Jul 2024

Improving Representation of High-frequency Components for Medical Visual Foundation Models

Chao Huang

Xin Gao

MedIm

550

19 Jul 2024

Temporally Grounding Instructional Diagrams in Unconstrained Videos

Yizhak Ben-Shabat

294

16 Jul 2024

When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset

Yi Zhang

Wang Zeng

Sheng Jin

Chao Qian

Ping Luo

Wentao Liu

264

14 Jul 2024

Plain-Det: A Plain Multi-Dataset Object Detector

238

14 Jul 2024

MutDet: Mutually Optimizing Pre-training for Remote Sensing Object Detection

Ziyue Huang

Yongchao Feng

Qingjie Liu

Yunhong Wang

ViT

321

13 Jul 2024

Visual Multi-Object Tracking with Re-Identification and Occlusion Handling using Labeled Random Finite Sets

L. Ma

Tran Thien Dat Nguyen

Changbeom Shim

Du Yong Kim

Namkoo Ha

Moongu Jeon

VOT

224

11 Jul 2024

Bayesian Detector Combination for Object Detection with Crowdsourced Annotations

197

10 Jul 2024

Cross Domain Object Detection via Multi-Granularity Confidence Alignment based Mean Teacher

221

10 Jul 2024

ActionVOS: Actions as Prompts for Video Object Segmentation

212

10 Jul 2024

Described Spatial-Temporal Video Detection

You Qin

278

08 Jul 2024

Towards Reflected Object Detection: A Benchmark

230

08 Jul 2024

Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis

Wengang Zhou

268

07 Jul 2024

Multi-branch Collaborative Learning Network for 3D Visual Grounding

Zhekai Lin

266

07 Jul 2024

Learning Motion Blur Robust Vision Transformers for Real-Time UAV Tracking

273

07 Jul 2024

POSTURE: Pose Guided Unsupervised Domain Adaptation for Human Body Part Segmentation

Dripta S. Raychaudhuri

Hannah Dela Cruz

Amit K. Roy-Chowdhury

368

04 Jul 2024

ACTRESS: Active Retraining for Semi-supervised Visual Grounding

Weitai Kang

Mengxue Qu

Yunchao Wei

Yan Yan

326

03 Jul 2024