Vidi2: 用于
视频理解和创建的大型多模态模型

演示可视化展示了时空定位和检索能力。

摘要

我们推出了 Vidi，一个大型多模态模型 (LMM) 系列，专为广泛的视频理解和编辑 (VUE) 场景设计。

该项目通过重要的里程碑发展而来：

首次发布 (Vidi 1.0)： 专注于时间检索 (TR)，能够识别输入视频中与给定文本查询相对应的特定时间范围。
第二次发布 (Vidi2)： 发展成为一个全面的基础模型。它在时空定位 (STG) 和时间检索能力方面达到了最先进的性能，同时保持了强大的开放式视频问答性能。

核心能力

时空定位 (Spatio-Temporal Grounding)

输入指示对象的文本查询。Vidi 在视频持续时间内找到片段并在对象周围绘制边界框。

时间检索 (Temporal Retrieval)

使用自然语言在视频内搜索。模型会识别与您的查询相对应的精确时间范围。

视频问答 (VQA)

开放式问答。询问有关视频内容的复杂问题，并获得详细的、与上下文相关的答案。

高亮片段生成 (Highlight Generation)

自动输出一组带标题的高亮片段，总结视频中最重要的部分，无需用户查询。

快速上手与评估

安装

# 克隆仓库

git clone https://github.com/bytedance/vidi

cd vidi

# 运行安装脚本

bash install.sh

推理示例 (7B 模型)

python3 -u inference.py \

--video-path ./example_video.mp4 \

--query "slicing onion" \

--model-path ./checkpoints/Vidi-7B

评估数据

我们发布了时空定位和时间检索的基准。

VUE-STG 基准 VUE-TR-V2 基准

论文 (Vidi2) Vidi1 论文代码在线演示

Vidi2: 用于
视频理解和创建的大型多模态模型

摘要

最新动态

🔥 Vidi2 发布

Vidi1.5-9B 演示

Vidi-7B 演示

首次发布

核心能力

时空定位 (Spatio-Temporal Grounding)

时间检索 (Temporal Retrieval)

视频问答 (VQA)

高亮片段生成 (Highlight Generation)

快速上手与评估

安装

推理示例 (7B 模型)

评估数据

Vidi2: 用于 视频理解和创建的大型多模态模型

摘要

最新动态

🔥 Vidi2 发布

Vidi1.5-9B 演示

Vidi-7B 演示

首次发布

核心能力

时空定位 (Spatio-Temporal Grounding)

时间检索 (Temporal Retrieval)

视频问答 (VQA)

高亮片段生成 (Highlight Generation)

快速上手与评估

安装

推理示例 (7B 模型)

评估数据

Vidi2: 用于
视频理解和创建的大型多模态模型