当前位置：首页 > 体育 > 正文

中长视频开放问答评测基准 MMBench-Video 发布，全面评估多模态大模型视频理解能力

体育
2024-11-06 19:37:01
11

GPT-4 发布掀起了视频理解的热潮，而 Qwen2 也在视频评测基准上表现出色。当前的大部分评测基准仍存在一些缺陷，如多注重短视频、对模型的考察局限、问题和画面的时序性关联不强以及对开放性问题的评估不准确等。

中长视频开放问答评测基准 MMBench-Video 发布，全面评估多模态大模型视频理解能力

为了解决这些问题，浙江大学联合上海人工智能实验室、上海交通大学和香港中文大学提出了 MMBench-Video，这是一个全面的开放性视频理解评测基准。该基准采取全人工标注，历经一次标注和二次质量核验，视频种类丰富且质量高，问答涵盖模型能力全面，更好地考察了模型的时序理解能力。

MMBench-Video 还建立了一个包含 26 个细粒度能力的综合能力谱系，对主流多模态大模型进行了全面的实验分析。结果表明，图文模型在视频理解上表现更优，而视频语言模型在空间和时间理解上存在显著不足，尤其是在处理长视频内容时，其时序推理能力亟待提升。

MMBench-Video 的推出为研究人员和开发者提供了一个强大的评估工具，帮助开源社区深入理解和优化视频语言模型的能力。

上一篇：以色列指责伊朗无人机袭击暗杀内塔尼亚胡的家

下一篇：朱里恩·图尔解释了阿森纳在夺冠后将如何对待曼城

随机文章