Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2011.10972
Cited By

Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning

Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning

22 November 2020

Weixia Zhang

Chao Ma

Qi Wu

ArXiv (abs)PDF HTML

Papers citing "Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning"

21 / 21 papers shown

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation

196

5

0

18 Oct 2025

Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network

Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network

252

1

0

02 Aug 2025

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object
Tracking and Segmentation

Temporal-Enhanced Multimodal Transformer for Referring Multi-Object Tracking and Segmentation

Changcheng Xiao

Qiong Cao

258

6

0

17 Oct 2024

Cognition Transferring and Decoupling for Text-supervised Egocentric
Semantic Segmentation

Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation

Hongliang Li

357

5

0

02 Oct 2024

Aligning Cyber Space with Physical World: A Comprehensive Survey on
Embodied AI

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

Xiaodan Liang

Liang Lin

LM&Ro SyDa AI4CE

806

257

0

09 Jul 2024

PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision
Transformer

PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer

Hanbin Zhao

Chao Zhang

Yu-Gang Jiang

227

7

0

04 Jul 2024

EAVL: Explicitly Align Vision and Language for Referring Image
Segmentation

EAVL: Explicitly Align Vision and Language for Referring Image Segmentation

383

2

0

18 Aug 2023

PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation

PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language NavigationEngineering applications of artificial intelligence (Eng. Appl. Artif. Intell.), 2023

260

15

0

19 May 2023

Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning

Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning

256

30

0

17 Dec 2022

Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models

Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models

Yang Liu

327

65

0

04 Nov 2022

Unsupervised Visual Odometry and Action Integration for PointGoal
Navigation in Indoor Environment

Unsupervised Visual Odometry and Action Integration for PointGoal Navigation in Indoor Environment

338

11

0

02 Oct 2022

Monocular Camera-based Complex Obstacle Avoidance via Efficient Deep
Reinforcement Learning

Monocular Camera-based Complex Obstacle Avoidance via Efficient Deep Reinforcement Learning

Xin Yang

182

25

0

01 Sep 2022

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative GroundingACM Multimedia (ACM MM), 2022

Junshi Huang

280

16

0

11 Aug 2022

Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future
Directions

Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future DirectionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Qi Wu

440

170

0

22 Mar 2022

Self-Training Vision Language BERTs with a Unified Conditional Model

Self-Training Vision Language BERTs with a Unified Conditional Model

Fayao Liu

Guosheng Lin

440

18

0

06 Jan 2022

MDFM: Multi-Decision Fusing Model for Few-Shot Learning

MDFM: Multi-Decision Fusing Model for Few-Shot Learning

586

35

0

01 Dec 2021

Agent-Centric Relation Graph for Object Visual Navigation

Agent-Centric Relation Graph for Object Visual Navigation

583

29

0

29 Nov 2021

Vision-Language Navigation: A Survey and Taxonomy

Vision-Language Navigation: A Survey and Taxonomy

440

60

0

26 Aug 2021

CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double
Back-Translation for Vision-and-Language Navigation

CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language NavigationIEEE Robotics and Automation Letters (RA-L), 2021

Hisashi Kawai

302

15

0

01 Mar 2021

Meta-Generating Deep Attentive Metric for Few-shot Classification

Meta-Generating Deep Attentive Metric for Few-shot Classification

Lei Zhang

317

36

0

03 Dec 2020

Multimodal Attention Networks for Low-Level Vision-and-Language
Navigation

Multimodal Attention Networks for Low-Level Vision-and-Language NavigationComputer Vision and Image Understanding (CVIU), 2019

Lorenzo Baraldi

Marcella Cornia

382

35

0

27 Nov 2019

Page 1 of 1