Title
RGB-D Based Action Recognition with Light-weight 3D Convolutional Networks Haokui Zhang Ying Li Peng Wang Yu Liu Chunhua Shen 3DPC 19 9 0 24 Nov 2018
Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles Dahun Kim Donghyeon Cho In So Kweon SSL 31 343 0 24 Nov 2018
Learning from Multiview Correlations in Open-Domain Videos Nils Holzenberger Shruti Palaskar Pranava Madhyastha Florian Metze R. Arora SSL 19 11 0 21 Nov 2018
MAC: Mining Activity Concepts for Language-based Temporal Localization Runzhou Ge J. Gao Kan Chen Ram Nevatia 30 177 0 21 Nov 2018
TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin Chuang Gan Song Han 47 1,672 0 20 Nov 2018
Multi-Task Learning of Generalizable Representations for Video Action Recognition Zhiyu Yao Yunbo Wang Mingsheng Long Jianmin Wang Philip S Yu Jiaguang Sun 19 3 0 20 Nov 2018
Segregated Temporal Assembly Recurrent Networks for Weakly Supervised Multiple Action Detection Yunlu Xu Chengwei Zhang Zhanzhan Cheng Jianwen Xie Yi Niu Shiliang Pu Fei Wu 38 80 0 19 Nov 2018
Recurrent Convolutions for Causal 3D CNNs Gurkirt Singh Fabio Cuzzolin 3DPC 19 0 0 17 Nov 2018
Natural Environment Benchmarks for Reinforcement Learning Amy Zhang Yuxin Wu Joelle Pineau OffRL OOD 20 69 0 14 Nov 2018
Skeleton-Based Action Recognition with Synchronous Local and Non-local Spatio-temporal Learning and Frequency Attention Guyue Hu Bo Cui Shan Yu 19 40 0 10 Nov 2018
Identify, locate and separate: Audio-visual object extraction in large video collections using weak supervision Sanjeel Parekh A. Ozerov S. Essid Ngoc Q. K. Duong P. Pérez G. Richard 28 16 0 09 Nov 2018
Cross and Learn: Cross-Modal Self-Supervision Nawid Sayed Biagio Brattoli Bjorn Ommer SSL 33 78 0 09 Nov 2018
Multimodal Grounding for Sequence-to-Sequence Speech Recognition Ozan Caglayan Ramon Sanabria Shruti Palaskar Loïc Barrault Florian Metze 29 25 0 09 Nov 2018
BAR: Bayesian Activity Recognition using variational inference R. Krishnan Mahesh Subedar S. Bhatnagar BDL UQCV 19 20 0 08 Nov 2018
Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning Yoonchang Sung Jiawei Wu Da Zhang Yu-Chuan Su Pratap Tokekar 32 38 0 07 Nov 2018
Toward Driving Scene Understanding: A Dataset for Learning Driver Behavior and Causal Reasoning Vasili Ramanishka Yi-Ting Chen Teruhisa Misu Kate Saenko 30 277 0 06 Nov 2018
Leveraging Random Label Memorization for Unsupervised Pre-Training Vinaychandran Pondenkandath Michele Alberti Sammer Puran Rolf Ingold Marcus Liwicki NoLa 22 14 0 05 Nov 2018
StNet: Local and Global Spatial-Temporal Modeling for Action Recognition Dongliang He Zhichao Zhou Chuang Gan Fu Li Xiao-Chang Liu Yandong Li Limin Wang Shilei Wen 36 133 0 05 Nov 2018
Random Temporal Skipping for Multirate Video Analysis Yi Zhu Shawn D. Newsam 14 14 0 30 Oct 2018
GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild Lianghua Huang Xin Zhao Kaiqi Huang 51 1,325 0 29 Oct 2018
$A^2$ -Nets: Double Attention Networks Yunpeng Chen Yannis Kalantidis Jianshu Li Shuicheng Yan Jiashi Feng 35 529 0 27 Oct 2018
Fine-grained Video Categorization with Redundancy Reduction Attention Chen Zhu Xiao Tan Feng Zhou Xiao-Chang Liu Kaiyu Yue Errui Ding Yi Ma 39 46 0 26 Oct 2018
Cross-Modal and Hierarchical Modeling of Video and Text Bowen Zhang Hexiang Hu Fei Sha BDL AI4TS 23 188 0 16 Oct 2018
CSI-Net: Unified Human Body Characterization and Pose Recognition Fei-Yue Wang Jinsong Han Shiyuan Zhang Xuming He Dong Huang CVBM 19 13 0 07 Oct 2018
Deep Generative Video Compression Jun Han Salvator Lombardo Christopher Schroers Stephan Mandt VGen 32 58 0 05 Oct 2018
Representation Flow for Action Recognition A. Piergiovanni Michael S. Ryoo 30 146 0 02 Oct 2018
Non-local NetVLAD Encoding for Video Classification Yongyi Tang Xing Zhang Jingwen Wang Shaoxiang Chen Lin Ma Yu-Gang Jiang 19 41 0 29 Sep 2018
Using phase instead of optical flow for action recognition Omar Hommos S. Pintea Pascal Mettes Jan van Gemert 47 13 0 10 Sep 2018
Optimizing deep video representation to match brain activity Hugo Richard Ana Luísa Pinho B. Thirion Guillaume Charpiat 8 5 0 07 Sep 2018
Targeted Nonlinear Adversarial Perturbations in Images and Videos R. Rey-de-Castro H. Rabitz AAML 19 10 0 27 Aug 2018
Predicting Action Tubes Gurkirt Singh Suman Saha Fabio Cuzzolin ViT 27 22 0 23 Aug 2018
Video Jigsaw: Unsupervised Learning of Spatiotemporal Context for Video Action Recognition Unaiza Ahsan Rishi Madhok Irfan Essa SSL 16 106 0 22 Aug 2018
Deep Adaptive Temporal Pooling for Activity Recognition Sibo Song Ngai-man Cheung V. Chandrasekhar Bappaditya Mandal 16 16 0 22 Aug 2018
Temporal Sequence Distillation: Towards Few-Frame Action Recognition in Videos Zhaoyang Zhang Zhanghui Kuang Ping Luo Xue Jiang Wayne Zhang 19 12 0 15 Aug 2018
Fast Video Shot Transition Localization with Deep Structured Models Shitao Tang Xue Jiang Zhanghui Kuang Yimin Chen Wayne Zhang 27 45 0 13 Aug 2018
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Guohao Li Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 42 65 0 11 Aug 2018
Video Re-localization Yang Feng Lin Ma Wen Liu Tong Zhang Jiebo Luo 21 71 0 05 Aug 2018
A Short Note about Kinetics-600 João Carreira Eric Noland Andras Banki-Horvath Chloe Hillier Andrew Zisserman 18 517 0 03 Aug 2018
Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification Yang Du Chunfen Yuan Bing Li Lili Zhao Yangxi Li Weiming Hu 81 79 0 03 Aug 2018
TraMNet - Transition Matrix Network for Efficient Action Tube Proposals Gurkirt Singh Suman Saha Fabio Cuzzolin 30 10 0 01 Aug 2018
Analyzing Human-Human Interactions: A Survey Alexandros Stergiou R. Poppe 32 14 0 31 Jul 2018
Multi-Fiber Networks for Video Recognition Yunpeng Chen Yannis Kalantidis Jianshu Li Shuicheng Yan Jiashi Feng CVBM 19 216 0 30 Jul 2018
Actor-Centric Relation Network Chen Sun Abhinav Shrivastava Carl Vondrick Kevin Patrick Murphy Rahul Sukthankar Cordelia Schmid 47 220 0 28 Jul 2018
Diagnosing Error in Temporal Action Detectors Humam Alwassel Fabian Caba Heilbron Victor Escorcia Guohao Li 43 106 0 27 Jul 2018
W-TALC: Weakly-supervised Temporal Activity Localization and Classification S. Paul Sourya Roy Amit K. Roy-Chowdhury 30 306 0 27 Jul 2018
A Better Baseline for AVA Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman 18 66 0 26 Jul 2018
Motion Feature Network: Fixed Motion Filter for Action Recognition Myunggi Lee Seungeui Lee S. Son Gyutae Park Nojun Kwak 30 121 0 26 Jul 2018
Few-Shot Adaptation for Multimedia Semantic Indexing Nakamasa Inoue Koichi Shinoda VLM 23 6 0 19 Jul 2018
Video-based Person Re-identification via 3D Convolutional Networks and Non-local Attention Xingyu Liao Lingxiao He Zhouwang Yang Chi Zhang 3DPC 30 72 0 12 Jul 2018
Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization Bruno Korbar Du Tran Lorenzo Torresani 34 473 0 30 Jun 2018