跳至主要內容
视频对话方向大论文性质的记录

视频对话方向大论文性质的记录

视频对话领域在近几年顶刊上的paper寥寥无几并且在大模型的冲击下许多工作的本质就是换皮,真正有实质意义的工作寥若星辰,本无打算特地做综述性质的报告,但由于开题和毕业论文需要,故留记录

Information-Theoretic Text Hallucination Reduction for Video-grounded Dialogue

论文地址:https://arxiv.org/abs/2212.05765


Mr.R大约 3 分钟码头视频对话
视频理解综述性质的记录

视频理解综述性质的记录

简介

视频数据本身就是一种多模态信息,并且是一种很丰富的数据来源,其包含的信息远远多于2D的图片,例如有物体移动的信息,以及长期的时序信息,音频信号等,并且视频数据是一种天生的数据增强,比如在一段视频中一个物体会有各种各样的变化,形变,遮挡,光照变化等,这种改变通常是十分丰富且自由的,远比通过一些图片处理得到的数据增强要自然的多。视频理解领域三巨头就是:Action Recognition、Temporal Action Localization、Spatio-Temporal Action Localization


Mr.R大约 20 分钟码头视频理解视频对话