GPT-4 发布掀起了视频理解的热潮,而 Qwen2 也在视频评测基准上表现出色。当前的大部分评测基准仍存在一些缺陷,如多注重短视频、对模型的考察局限、问题和画面的时序性关联不强以及对开放性问题的评估不准确等。
为了解决这些问题,浙江大学联合上海人工智能实验室、上海交通大学和香港中文大学提出了 MMBench-Video,这是一个全面的开放性视频理解评测基准。该基准采取全人工标注,历经一次标注和二次质量核验,视频种类丰富且质量高,问答涵盖模型能力全面,更好地考察了模型的时序理解能力。
MMBench-Video 还建立了一个包含 26 个细粒度能力的综合能力谱系,对主流多模态大模型进行了全面的实验分析。结果表明,图文模型在视频理解上表现更优,而视频语言模型在空间和时间理解上存在显著不足,尤其是在处理长视频内容时,其时序推理能力亟待提升。
MMBench-Video 的推出为研究人员和开发者提供了一个强大的评估工具,帮助开源社区深入理解和优化视频语言模型的能力。