标签: 视频理解 |

简介

视频数据本身就是一种多模态信息，并且是一种很丰富的数据来源，其包含的信息远远多于2D的图片，例如有物体移动的信息，以及长期的时序信息，音频信号等，并且视频数据是一种天生的数据增强，比如在一段视频中一个物体会有各种各样的变化，形变，遮挡，光照变化等，这种改变通常是十分丰富且自由的，远比通过一些图片处理得到的数据增强要自然的多。视频理解领域三巨头就是：Action Recognition、Temporal Action Localization、Spatio-Temporal Action Localization

提示

考虑一下从视频当中设定一些自监督信号

Mr.R2023/10/9大约 20 分钟

简介

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows