Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2407.01851
Cited By

Meerkat: Audio-Visual Large Language Model for Grounding in Space and
Time

v1v2 (latest)

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

1 July 2024

Sanjoy Chowdhury

Subhrajyoti Dasgupta

Mohamed Elhoseiny

Dinesh Manocha

ArXiv (abs)PDF HTML

Papers citing "Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time"

12 / 12 papers shown

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

...

Danda Pani Paudel

715

4

0

29 Oct 2025

TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

Faegheh Sardari

197

0

0

04 Sep 2025

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

Sanjoy Chowdhury

Mohamed Elmoghany

Yohan Abeysinghe

Mohamed Elhoseiny

361

5

0

08 Jun 2025

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

339

7

0

05 Jun 2025

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

MLLM OffRL VLM LRM

347

12

0

07 May 2025

Aligned Better, Listen Better for Audio-Visual Large Language Models

Aligned Better, Listen Better for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025

324

8

0

02 Apr 2025

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

Sanjoy Chowdhury

Mohamed Elhoseiny

435

6

0

29 Mar 2025

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit CooperationComputer Vision and Pattern Recognition (CVPR), 2025

266

11

0

17 Mar 2025

DAVE: Diagnostic benchmark for Audio Visual Evaluation

DAVE: Diagnostic benchmark for Audio Visual Evaluation

Gorjan Radevski

Teodora Popordanoska

Matthew B. Blaschko

Tinne Tuytelaars

264

0

0

12 Mar 2025

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

Dimitra Emmanouilidou

462

2

0

12 Mar 2025

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

912

317

0

07 Jul 2023

Valley: Video Assistant with Large Language model Enhanced abilitY

Valley: Video Assistant with Large Language model Enhanced abilitY

516

253

0

12 Jun 2023