视频理解综述性质的记录
简介
视频数据本身就是一种多模态信息,并且是一种很丰富的数据来源,其包含的信息远远多于2D的图片,例如有物体移动的信息,以及长期的时序信息,音频信号等,并且视频数据是一种天生的数据增强,比如在一段视频中一个物体会有各种各样的变化,形变,遮挡,光照变化等,这种改变通常是十分丰富且自由的,远比通过一些图片处理得到的数据增强要自然的多。视频理解领域三巨头就是:Action Recognition、Temporal Action Localization、Spatio-Temporal Action Localization
大约 20 分钟