V-JEPA创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。010AI开源项目# Transformer模型# 多模态学习# 掩蔽模型
MGIEMGIE 是苹果团队开源的一款 AI 图像编辑工具,它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令,MGIE 便能够自动进行图像编辑,实现用户所需的视觉效果。010AI绘画模型# AI 图像编辑# 创新技术# 多模态学习
VideoPoet强大的AI视频生成工具,它通过大型语言模型架构和多模态输入处理能力,实现了从文本到视频的转换、图像动画生成、视频风格化、视频编辑和音频生成等多种功能。010AI开源项目# AI视频合成# Transformer架构# 图像动画