
Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。
Tarsier:字节跳动推出的大规模视频语言模型家族
Tarsier的主要功能特色
- 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。
- 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。
- 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。
- 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。
- 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。
Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。
在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。
论文:https://arxiv.org/abs/2501.07888
Code: https://github.com/bytedance/tarsier
Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K
Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b
数据统计
相关导航

面向学术群体的论文生成器

配音神器Pro
免费抖音励志情感解说配音

Heck.Ai
Heck.ai是一个基于GPT-4o技术的免费多功能AI搜索引擎,无需注册即可使用。支持60种语言,提供AI搜索、内容分析、翻译、文档分析和高质量总结等功能,适用于学术研究、商业分析、跨语言工作和信息查找。通过强大的AI技术,Heck.ai确保为用户提供精准、高效的搜索结果和实时信息获取,成为学术和日常查询的最佳助手。

UniScribe
UniScribe是一款高效的音视频转录和翻译工具,帮助用户更快地从音视频内容中获取信息。基于优化后的 Whisper 模型,UniScribe 能快速将本地音频、视频文件或 YouTube 视频转化为文本,并自动创建摘要,支持多达 98 种语言,还能生成思维导图。

Story Flicks
Story Flicks是一个基于AI大模型的故事短视频生成工具。它允许用户输入一个故事主题,并使用大语言模型生成包含AI生成的图片、故事内容、音频和字幕的故事视频。

声网
声网(Agora) 成立于2013年,由赵斌创立,是一家专注于实时音视频技术的全球领先云服务公司。声网通过提供高质量的实时音视频API服务,通过先进的技术,声网为社交直播、在线教育、企业协作、医疗健康等多行业提供高质量、低延迟的音视频互动解决方案。快速构建多种实时互动场景,如语音通话、视频通话、互动直播等,满足超过200种应用场景需求。Agora为您的应用赋能,实现卓越的互动体验。

馆长
馆长是一款轻量级的知识库 AI 问答助手工具,可以帮助用户高效地管理和查询自己的文档和信息。通过馆长,用户只需输入问题,即可快速获取准确的回答。馆长作为浏览器插件,支持 Chrome 和 Edge 浏览器,随时随地访问和使用知识库。所有数据仅保存在用户设备上,用于 AI 分析,确保隐私和安全性。馆长让知识管理变得更加简单和智能。

VAS视频加字幕
AI一键生成字幕文件
暂无评论...