Vidi2: 用于
视频理解和创建的大型多模态模型

演示可视化展示了时空定位和检索能力。

摘要

我们推出了 Vidi,一个大型多模态模型 (LMM) 系列,专为广泛的视频理解和编辑 (VUE) 场景设计。

该项目通过重要的里程碑发展而来:

  • 首次发布 (Vidi 1.0): 专注于时间检索 (TR),能够识别输入视频中与给定文本查询相对应的特定时间范围。
  • 第二次发布 (Vidi2): 发展成为一个全面的基础模型。它在时空定位 (STG) 和时间检索能力方面达到了最先进的性能,同时保持了强大的开放式视频问答性能。

最新动态

2025-11-25

🔥 Vidi2 发布

技术报告、GitHub 代码和更新的演示现已可用。

2025-08-29

Vidi1.5-9B 演示

发布了全新的用户界面设计。

2025-06-06

Vidi-7B 演示

7B 模型的首次演示发布。

2025-04-21

首次发布

Vidi 技术报告和 VUE-TR 评估基准发布。

核心能力

时空定位 (Spatio-Temporal Grounding)

输入指示对象的文本查询。Vidi 在视频持续时间内找到片段并在对象周围绘制边界框。

时间检索 (Temporal Retrieval)

使用自然语言在视频内搜索。模型会识别与您的查询相对应的精确时间范围。

视频问答 (VQA)

开放式问答。询问有关视频内容的复杂问题,并获得详细的、与上下文相关的答案。

高亮片段生成 (Highlight Generation)

自动输出一组带标题的高亮片段,总结视频中最重要的部分,无需用户查询。

快速上手与评估

安装

# 克隆仓库

git clone https://github.com/bytedance/vidi

cd vidi

# 运行安装脚本

bash install.sh

推理示例 (7B 模型)

python3 -u inference.py \

--video-path ./example_video.mp4 \

--query "slicing onion" \

--model-path ./checkpoints/Vidi-7B

评估数据

我们发布了时空定位和时间检索的基准。