
Mini-Gemini
Mini-Gemini是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs),由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs),从2B到34B。为了增强视觉token,该框架建议在不增加视觉token数量的情况下,利用额外的视觉编码器进行高分辨率细化。同时,Mini-Gemini还构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,从而扩大当前VLM的操作范围。
-->
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
Step-Video-T2V是由 阶跃星辰 与 吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
其主要特点功能:
Step-Video-T2V 是一款开源模型,用户可以通过其 GitHub 仓库获取代码和模型权重,方便开发者进行二次开发和应用。
Step-Video-T2V:一款开源的多模态文本生成视频模型