演示可视化展示了时空定位和检索能力。
我们推出了 Vidi,一个大型多模态模型 (LMM) 系列,专为广泛的视频理解和编辑 (VUE) 场景设计。
该项目通过重要的里程碑发展而来:
2025-11-25
技术报告、GitHub 代码和更新的演示现已可用。
2025-08-29
发布了全新的用户界面设计。
2025-06-06
7B 模型的首次演示发布。
2025-04-21
Vidi 技术报告和 VUE-TR 评估基准发布。
输入指示对象的文本查询。Vidi 在视频持续时间内找到片段并在对象周围绘制边界框。
使用自然语言在视频内搜索。模型会识别与您的查询相对应的精确时间范围。
开放式问答。询问有关视频内容的复杂问题,并获得详细的、与上下文相关的答案。
自动输出一组带标题的高亮片段,总结视频中最重要的部分,无需用户查询。
# 克隆仓库
git clone https://github.com/bytedance/vidi
cd vidi
# 运行安装脚本
bash install.sh
python3 -u inference.py \
--video-path ./example_video.mp4 \
--query "slicing onion" \
--model-path ./checkpoints/Vidi-7B