v1v2 (latest)

HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models

16 September 2024

V. Bhat

Prashanth Krishnamurthy

Ramesh Karri

Farshad Khorrami

ArXiv (abs)PDF HTML

Papers citing "HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models"

23 / 73 papers shown

End-to-end Trainable Deep Neural Network for Robotic Grasp Detection and Semantic Segmentation from RGB

Stefan Ainetter

Friedrich Fraundorfer

298

151

12 Jul 2021

Cross-Modal Progressive Comprehension for Referring SegmentationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

252

164

15 May 2021

Encoder Fusion Network with Co-Attention Embedding for Referring Image SegmentationComputer Vision and Pattern Recognition (CVPR), 2021

Huchuan Lu

236

200

05 May 2021

TransVG: End-to-End Visual Grounding with TransformersIEEE International Conference on Computer Vision (ICCV), 2021

646

442

17 Apr 2021

A Joint Network for Grasp Detection Conditioned on Natural Language CommandsIEEE International Conference on Robotics and Automation (ICRA), 2021

Yiye Chen

Ruinian Xu

Yunzhi Lin

Patricio A. Vela

204

01 Apr 2021

Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD ImagesComputer Vision and Pattern Recognition (CVPR), 2021

287

14 Mar 2021

RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD ImagesIEEE International Conference on Robotics and Automation (ICRA), 2021

191

127

03 Mar 2021

Learning Transferable Visual Models From Natural Language SupervisionInternational Conference on Machine Learning (ICML), 2021

...

2.0K

42,087

26 Feb 2021

A Recurrent Vision-and-Language BERT for NavigationComputer Vision and Pattern Recognition (CVPR), 2020

Yicong Hong

Qi Wu

Yuankai Qi

Cristian Rodriguez-Opazo

Stephen Gould

LM&Ro

326

385

26 Nov 2020

ACRONYM: A Large-Scale Grasp Dataset Based on SimulationIEEE International Conference on Robotics and Automation (ICRA), 2020

Clemens Eppner

Arsalan Mousavian

Dieter Fox

309

245

18 Nov 2020

Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous Robotic Manipulation

E. G. Ribeiro

R. Q. Mendes

V. Grassi

216

13 Oct 2020

GSNet: Joint Vehicle Pose and Shape Reconstruction with Geometrical and Scene-aware SupervisionEuropean Conference on Computer Vision (ECCV), 2020

151

26 Jul 2020

ScanRefer: 3D Object Localization in RGB-D Scans using Natural LanguageEuropean Conference on Computer Vision (ECCV), 2019

Dave Zhenyu Chen

Angel X. Chang

Matthias Nießner

3DPC

436

507

18 Dec 2019

Grasping in the Wild:Learning 6DoF Closed-Loop Grasping from Low-Cost DemonstrationsIEEE Robotics and Automation Letters (RA-L), 2019

Shuran Song

Andy Zeng

Johnny Lee

Thomas Funkhouser

341

258

09 Dec 2019

Interactive Visual Grounding of Referring Expressions for Human-Robot Interaction

Mohit Shridhar

David Hsu

160

154

11 Jun 2018

Jacquard: A Large Scale Dataset for Robotic Grasp Detection

Amaury Depierre

Emmanuel Dellandrea

Liming Chen

334

370

30 Mar 2018

MAttNet: Modular Attention Network for Referring Expression Comprehension

527

913

24 Jan 2018

FiLM: Visual Reasoning with a General Conditioning Layer

Aaron Courville

FAtt AIMat OffRL AI4CE

786

2,953

22 Sep 2017

Modulating early visual processing by language

Olivier Pietquin

Aaron Courville

550

518

02 Jul 2017

Modeling Context Between Objects for Referring Expression Understanding

Varun K. Nagaraja

Vlad I. Morariu

Larry S. Davis

305

231

01 Aug 2016

Modeling Context in Referring Expressions

576

1,529

31 Jul 2016

Natural Language Object Retrieval

347

570

13 Nov 2015

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Juan C. Caicedo

Anjali Narayan-Chen

Svetlana Lazebnik

619

2,388

19 May 2015