AI大模型

共 104 篇网址

常用推荐生活休闲读物学习搜索查询设计导航网址大全视频创作导航博客网址大全全国博客网址程序博客教育综合网站学校大全热榜全国分类体育健身行业企业在线设计网络科技医疗健康购物 AI导航站长导航 AI工具导航首页电商平台阅读时光每日推荐影音娱乐其他在线动漫动漫综合文章AI 下载工具软件应用安卓苹果磁力搜索百度网盘阿里云盘小众搜索新媒体导航 PPT工具 [db:父分类]AI提示词其它AI工具 AI绘画生成 AI图像处理 AI大模型浏览器集锦视频下载器解说文案视频工具活动策划直播工具 PDF处理 CG资源字体工具 AI电商工具网址加工图片处理开发者工具远程控制配音工具 AI法律工具 AI数字人 AI论文工具样机素材设计素材影视资源配色参考 AI写作对话设计参考音频素材 3DVR全景营销工具网盘工具创意设计文件传输 AI教育学习设计插件 icon图标创意文案摄影壁纸 H5参考办公商务浏览器插件变声工具求职招聘裂变增长业内资讯设计规范营销大学财经投资效率工具音乐发行创意短片小说文学漫画资源电商运营工具字幕资源团队协同音频处理音频下载社群运营创意工具手游游戏交易平台游戏论坛端游 # 血战轩辕游戏开发软件网页游戏游戏辅助单机游戏前端不显示图片工具（设计师）视频AI 全部榜常用工具音频AI 图片AI 在线漫画礼品代发（电商）美女写真视频资源（新媒体）壁纸下载在线工具（设计师）聊天AI 跨境平台（电商）电商工具（电商）次元美图趣味小程序投放派单（新媒体）动漫资源团队工具（设计师）快捷入口在线小游戏 IT领域动漫美图编程AI 视频制作（新媒体）学术搜索（学术）

排序

发布更新浏览点赞

LTX Video

LTX Video是由 Lightricks公司推出的首个REAL-TIME AI视频生成开源模型。它基于 DiT (Diverse Image Transformer) 架构，能够实时生成高质量的视频。LTX Video 能够以 24 FPS 和 768x512 分辨率生成视频，生成速度比观看速度还要快。

020

AI大模型 # ai视频生成 # LTX Video # 开源视频工具

MusiConGen

MusiConGen是一种基于Transformer的文本到音乐生成模型。它通过引入时间条件机制，显著提升了对音乐节奏和和弦的控制能力。该模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。

020

AI大模型 # AI音乐创作 # MusiConGen # MusiConGen AI音乐生成框架

EduChat

EduChat是一个教育领域的对话大模型，提供开放问答、作文批改、启发式教学和情感支持等教育特色功能，助力实现因材施教、公平公正、富有温度的智能教育。

020

AI大模型 # EduChat # 教育对话大模型 # 教育问答

Aiuni AI

Aiuni AI 是一款基于 Unique3D 开源技术的在线 AI 图片转 3D 模型生成建模工具，它能够在 30 秒内将单张图片转换为高质量的 3D 模型。用户通过简单的图片上传和点击生成，用户即可获得 360 度无死角的 3D 模型，确保每个角度都具有一致性和高质量的细节。

020

AI大模型 # 3D 建模工具 # 3D 模型生成 # Aiuni AI

CodeGemma

CodeGemma是一个由Google基于Gemma模型开发的开源代码模型系列。它专为代码生成和理解而设计，提供了强大的代码自动补全和生成功能。CodeGemma支持多种编程语言，适用于软件开发、编程教育和跨语言开发项目。它的主要功能包括智能代码补全、代码生成、代码理解、多语言支持、代码优化建议以及错误检测与修正，旨在提高开发者的编码效率和软件质量。

020

AI大模型 # AI代码助手 # AI代码生成 # AI代码生成工具

MuseTalk

MuseTalk是由腾讯推出的一个实时的高质量音频驱动唇形同步模型，能够根据输入的音频信号自动调整数字人物的面部图像，使其唇形与音频内容高度同步，支持多种语言，并实现每秒30帧以上的实时处理速度。这意味着观众可以看到数字人物的口型与声音完美匹配的效果。

020

AI大模型 # Lyra实验室MuseTalk # MuseTalk实时同步 # 开源唇形同步模型

讯飞星火大模型

讯飞星火大模型是科大讯飞发布的一个基于深度学习的自然语言处理模型，以中文为核心，具备跨领域多任务上的类人理解和生成能力。注册免费领取1500万Tokens，该模型对标ChatGPT，并在多个领域表现出色。

020

AI大模型 # 人工智能大模型 # 国内大模型公司 # 大语言模型

V-Express

V-Express是由南京大学和腾讯AI实验室共同开发的一项技术，旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号，如声音、姿势、图像参考等来控制视频内容，确保即使是弱信号也能有效地影响最终生成的视频，使视频生成更加逼真和多样化。

020

AI大模型 # AI视频合成 # V-Express视频生成 # 动态视频生成工具

Hallo

Hallo是一个百度开源的AI对口型人脸视频生成框架，用户只需提供一段音频和所选人像，它利用人工智能技术，让图片中的人物能够根据语音的变化做出相应的面部表情和嘴唇动作。

020

AI大模型 # ai对口型人脸视频生成框架 # Hallo人脸视频生成技术

MagicVideo-V2

MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像（Text-to-Image, T2I）模型、图像到视频（Image-to-Video, I2V）模型、视频到视频（Video to Video, V2V）模型和视频帧插值（Video Frame Interpolation, VFI）模块，以实现从文字描述到高分辨率、流畅且具有高度美学的视频的自动化生成。

020

AI大模型 # ai视频生成 # AI视频生成器 # AI视频生成工具

MotionGen

MotionGen 是由元象科技推出的创新 3D 动作生成模型。通过结合大模型、物理仿真和强化学习等前沿算法，简化 3D 动画制作过程。用户只需输入简单的文本指令，即可快速生成逼真、流畅且复杂的 3D 动作。无论是动画、游戏、电影还是虚拟现实行业，MotionGen 都能显著提高创作效率，降低制作成本。

020

AI大模型 # 3D 动画制作工具 # 3D动作生成模型 # MotionGen 3D 动作生成

盘古大模型

盘古大模型 3.0 是一个面向行业的AI大模型系列，包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型，可以为用户提供知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力。

020

AI大模型 # AI模型训练 # AI预测模型 # 千亿参数AI模型

ReHiFace-S

ReHiFace-S是由硅基智能推出的开源实时高保真换脸算法，专注于实时视频中的高保真换脸技术。该算法支持零样本推理、超分辨率和色彩转换，适用于NVIDIA GTX 1080Ti及以上显卡。ReHiFace-S不仅提供高精度的面部特征和表情还原，还支持ONNX和实时摄像头模式，极大地简化了大规模数字人生成的过程。

020

AI大模型 # ReHiFace-S开源项目 # 实时换脸算法 # 硅基智能换脸

PixArt-Σ

PIXART-Σ是华为推出的图像生成模型，由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构，专用于生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像，相较于前身PixArt-α，它提供了更高的图像保真度和与文本提示更好的对齐。

010

AI大模型 # 4K分辨率图像生成 # 4K图像生成 # Diffusion Transformer

Codex大模型

Codex大模型是一个基于GPT技术的强大编程语言模型，具备自动生成代码、文档、测试用例等功能。它能够理解和处理复杂的编程问题，提高开发效率，是编程领域的重要创新。

010

AI大模型 # AI代码生成工具 # AI代码辅助工具 # 编程大模型

Evidently Al

Evidently Al 是一个开源的机器学习模型监测和测试平台，它可以帮助您分析和改进您的模型性能。它可以让您轻松地创建交互式的可视化报告，展示您的模型在验证和预测期间的表现，以及数据漂移的情况。您可以使用 Evidently 这个开源 Python 库来生成 Evidently Al 大模型所需的 JSON 配置文件，然后在 Evidently Al 大模型的网站上上传和查看您的报告。

010

AI大模型 # Evidently Al 机器学习模型优化 # Evidently Al 模型监控工具

AnimateZero

AnimateZero是腾讯AI团队发布的一款AI视频生成模型，通过改进预训练的视频扩散模型(Video Diffusion Models)，能够更精确地控制视频的外观和运动，实现从静态图像到动态视频的无缝转换。

010

AI大模型 # AI视频生成模型 # AnimateZero # AnimateZero动画生成器

Magic Clothing

Magic Clothing是一个专注于控制性的服装驱动图像合成的项目，它是OOTDiffusion模型的一个分支版本，旨在通过服装来控制图像的生成。

010

AI大模型 # Garment-Driven Image Synthesis # Magic Clothing # 控制性服装驱动图像合成

CogVideo

CogVideo是目前最大的通用领域文本到视频生成预训练模型，含94亿参数。CogVideo将预训练文本到图像生成模型（CogView2）有效地利用到文本到视频生成模型，并使用了多帧率分层训练策略。用于文本到视频的生成。它是基于Transformer架构的，旨在通过理解和转换文本描述来生成相应的视频内容。CogVideo能够处理大量的文本-视频对数据，并通过学习这些数据的模式来生成与文本描述相匹配的视频。

010

AI大模型 # CogVideo # 文本到视频生成预训练模型 # 文本生成视频大模型

Mini-Gemini

Mini-Gemini是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs），由中国香港中文大学和 SmartMore 的研究人员共同推出。Mini-Gemini支持一系列密集和MoE大型语言模型（LLMs），从2B到34B。为了增强视觉token，该框架建议在不增加视觉token数量的情况下，利用额外的视觉编码器进行高分辨率细化。同时，Mini-Gemini还构建了一个高质量的数据集，以促进精确的图像理解和基于推理的生成，从而扩大当前VLM的操作范围。

010

AI大模型 # Mini-Gemini # Mini-Gemini框架 # 多模态视觉语言模型

MuseV

MuseV是一个由腾讯音乐娱乐旗下的天琴实验室推出的基于SD扩散模型的高保真虚拟人视频生成框架。支持文生视频、图生视频、视频生视频等多种生成方式，能够保持角色一致性，且不受视频长度限制。这意味着用户可以通过MuseV轻松地将文本、图像或现有视频转换成高质量的虚拟人视频，无需担心角色形象的不统一或视频时长的限制。

010

AI大模型 # ai数字人视频 # AI数字人视频生成 # MuseV

CatVTON

CatVTON是一款基于扩散模型的虚拟试穿技术工具，旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿，该方法有效地降低了模型复杂度和计算成本，同时保持了高质量的虚拟试衣效果，特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

010

AI大模型 # AI虚拟试衣 # AI虚拟试衣工具 # CatVTON

Tora

Tora 是阿里团队推出的一个视频生成模型，能够根据轨迹、图像、文本或其组合，快速生成精确运动控制的视频。它支持多种输入方式，如轨迹、文本和图像，并能生成高分辨率、运动可控的视频。

010

AI大模型 # AI视频生成工具 # 文本驱动视频生成 # 生成式AI视频工具

NineF AI

NineF AI 是一站式免费主流 AI 大模型集成平台，集成了 GPT、Claude、Llama 等全球顶尖 AI 模型，提供多角度智能解答，助您提升工作效率和决策准确性。界面简洁直观，支持图片和文档上传，满足各类创作和研究需求，是激发创新灵感的理想人工智能助手。

010

AI大模型 # AI 大模型集成平台 # NineF AI

UniVG

UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态，如文本和图像，并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法，以提高生成视频的质量和保留原始内容。

010

AI大模型 # UniVG视频生成 # UniVG视频生成系统 # 多模态视频生成

言犀

言犀是京东自营智能人机交互平台，助力企业服务数智化转型。以AI技术驱动，从文字、语音到多模态交互，从对话智能到情感智能，聚焦体验、效率与转化，旨在打造新一代智能人机交互平台，面向不同行业和客户场景助力企业服务和营销实现数智化转型升级。

010

AI大模型 # 智能人机交互平台 # 言犀

PixelDance

PixelDance是由字节跳动开发的一款高动态视频生成模型，它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令（针对视频片段的首尾帧）和文本指令，使得生成的视频不仅视觉上丰富，而且动作细节丰富，能够展现出高度的动态性。

010

AI大模型 # AI视频生成模型 # PixelDance # PixelDance视频生成模型

Qwen2

Qwen2是由阿里云通义千问团队开源的新一代大语言模型。这个系列包括了不同规模的解码器语言模型，从0.5B到72B不等，涵盖了中文和英文以及其他27种语言的高质量数据。Qwen2的设计旨在提高模型在自然语言理解、代码编写、数学解题和多语言处理方面的能力。

010

AI大模型 # Qwen2大语言模型

Google Gemini

Google Gemini是由谷歌推出的一款人工智能多模态大模型，于2023年12月6日发布。这个模型具有强大的功能，能够同时识别文本、图像、音频、视频和代码五种类型的信息。它还能理解并生成主流编程语言的高质量代码，如Python、Java、C++，并且进行了全面的安全性评估。

010

AI大模型 # Gemini编程语言生成 # Google Bard Gemini # Google DeepMind Gemini

琴乐大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频，能够直接生成立体声音频或多轨乐谱。

010

AI大模型 # AI音乐创作大模型 # AI音乐创作工具 # 腾讯琴乐大模型

Grok-1

Grok-1是马斯克旗下AI创企xAI发布的一款开源AI大模型。它是一个混合专家（Mixture-of-Experts，MOE）大模型，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿，是迄今参数量最大的开源大语言模型。旨在用作聊天机器人背后的引擎，用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。

010

AI大模型 # Grok-1 # Grok-1人工智能 # Grok-1参数量最大的开源模型

FunAudioLLM

FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型（LLMs）之间的自然语音交互的框架。其核心包括两个创新模型：SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测，支持超过 50 种语言，并具有极低的延迟。CosyVoice 则专注于自然语音生成，支持多语言、音色和情绪控制，能够进行零样本语音生成、跨语言语音克隆和指令遵循。

010

AI大模型 # ai音频生成模型 # CosyVoice大模型 # FunAudioLLM

Moonvalley.ai

Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画，涵盖各种不同的风格，包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示，即可创造电影级的视觉效果。该模型主打高清、16:9电影画质，视频质量比大多数其他一代AI视频工具要好得多。

010

AI大模型 # AI 视频生成工具 # Moonvalley.ai # Moonvalley.ai AI视频转换工具

FaceChain

FaceChain 是一款基于深度学习的工具，专注于生成个人数字形象。用户只需上传一张照片，FaceChain 即可在 10 秒内生成多种风格的个人写真。该工具支持自定义风格模型训练，兼容 ControlNet 和 LoRA 模型，广泛应用于虚拟现实、游戏设计和数字营销等领域。通过 FaceChain，用户可以轻松创建高度真实且可控的个人画像。

010

AI大模型 # AI写真工具 # FaceChain # 在线AI写真工具

Magi

Magi 的模型是一个可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色，实现了全自动的剧本生成功能。

010

AI大模型 # Magi # Magi模型 # 漫画转录成文字

RMBG-2.0

RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型，通过先进的卷积神经网络（CNN）实现高精度的前景与背景分离。该模型在经过精心挑选的数据集（包括一般图像、电子商务、游戏和广告内容）上进行了训练，专为大规模企业内容创建的商业用例设计，其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

010

AI大模型 # BRIA AI RMBG-2.0 # RMBG-2.0 # 开源背景移除模型

InstructAvatar

InstructAvatar是一个先进的AI框架，它使用自然语言界面来控制2D头像的情绪和面部动作。这个系统允许用户通过文本指令来精细控制头像的表情和运动，从而生成具有情感表现力的视频。

010

AI大模型 # 2D头像动作同步 # AI动态头像设计 # AI头像互动

讯飞开放平台

讯飞开放平台，一个领先的人工智能技术与生态服务平台，致力于为开发者与企业提供全面的智能交互能力。我们不仅提供语音、图像、自然语言识别等核心交互技术，还拥有丰富的行业解决方案与SaaS产品，助力您轻松构建各类智能应用。

010

AI大模型 # android讯飞语音 # 科大讯飞语音技术 # 讯飞开放平台

MoonShot AI

MoonShot AI（又名“月之暗面AI”）是一家致力于人工智能技术创新的公司，专注于开发和优化大型AI模型。我们的先进人工智能预测技术正改变未来。从股市分析到疫苗研发，我们的大模型技术提供了前所未有的准确性和速度。

010

AI大模型 # MoonShot AI

快手可图大模型KOLORS

可图大模型KOLORS是一款快手自研的文生图大模型，支持文生图和图生图两类功能，已上线20余种AI图像玩法。

010

AI大模型 # AI形象定制 # AI文生图工具 # 快手KOLORS教程

Boximator

Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动，从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说，Boximator可以通过文本精准控制生成视频中人物或物体的动作，能生成包含多个角色以及特定类型运动的复杂场景，并能精确生成物体和背景的细节。

010

AI大模型 # AI动画生成器 # AI视频生成工具 # AI视频编辑工具

悟道大模型

悟道大模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目，不仅具备强大的语言理解和生成能力，还能进行逻辑推理、代码分析、图像生成等多种任务，支持多种类型的文本内容生成，如小说、歌词、诗歌、对联等。

010

AI大模型 # 人工智能大模型 # 基础模型研究中心 # 大模型

书生通用大模型

书生通用大模型是由上海人工智能实验室发布的大型预训练模型。它包括多个基础模型，如书生·多模态、书生·浦语和书生·天际等。这些模型旨在支持科研创新和产业应用，提供一个全链条开源的研发与应用平台。

010

AI大模型 # 书生通用大模型

M2UGen

M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型，它具备音乐生成、理解和编辑的能力。具体来说，M2UGen可以接收文字、图片、视频或音频作为输入，然后生成与之相匹配的音乐。例如，给它一段文字，如诗句或故事，它能够创作出与文字内容相应的音乐；对于图片，它能创作出匹配的音乐，让图片仿佛“动起来”；对于视频，它可以根据视频内容创作出合适的背景音乐。

010

AI大模型 # M2UGen # M2UGen音乐生成模型 # 图像到音乐转换

沃研Turbo大模型

沃研Turbo是由沃恩智慧公司专为大学生打造的科研大模型。它集成了多项科研辅助功能，包括期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐和AI降重。通过多模态AIGC技术，沃研Turbo能够快速响应科研需求，提升科研效率。用户只需在网页上上传论文、文本或链接，即可享受便捷的科研辅助服务。沃研Turbo致力于简化科研过程，帮助大学生在学术道路上取得更大成就。

010

AI大模型 # 沃研Turbo大模型 # 沃研Turbo科研大模型 # 科研大模型

Etna模型

Etna大模型是七火山科技推出的一个文生视频的AIGC模型，它能够根据简短的文本描述生成相应的视频内容。七火山科技发布的Etna文生视频模型支持生成视频时长达到8~15秒，每秒可达60帧，分辨率最高可达4K（3840*2160），画面细腻逼真。

010

AI大模型 # AI视频创作 # Etna大模型 # Etna模型

灵境矩阵

灵境矩阵是百度推出的一个基于文心大模型的智能体（Agent）平台。它支持开发者根据自己的行业领域和应用场景，选择不同的开发方式来构建产品，以适应大模型时代的需求。开发者可以通过低成本的prompt编排方式来开发智能体，同时平台还提供了流量分发路径，帮助开发者完成商业闭环。

010

AI大模型 # ai灵境 # AI灵境平台 # 一言官方智能体开发平台

甲骨文AI协同平台-殷契文渊

殷契文渊是一个甲骨文AI协同平台，它提供了丰富的甲骨文资料库，包括图片、释文、研究论文等。利用人工智能技术，帮助用户更高效地进行甲骨文的自动识别和解读。

010

AI大模型 # AI甲骨文字识别 # 殷契文渊 # 殷契文渊 AI协同平台

SeamlessM4T

SeamlessM4T是Meta推出的一款多语言和多任务模型，能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言，可以将语音转录为文本，再进行翻译，甚至可以将翻译后的文本转化为语音。

010

AI大模型 # SeamlessM4T模型 # 多模态翻译 # 多语言翻译模型

Ferret-UI

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态AI大语言模型。它专为增强对移动端用户界面（UI）屏幕的理解而设计，具备引用、定位和推理功能。这个模型能够理解手机屏幕上的内容并执行任务，专注于移动端和用户交互。

010

AI大模型 # Ferret-UI # 多模态AI大语言模型 # 智能UI交互助手

SDXL-Lightning

SDXL-Lightning是一款由字节跳动开发的开源免费的文生图开放模型，能根据文本快速生成相应的高分辨率图像。该模型能够在极短的时间内生成高质量和高分辨率的图像，是目前最快的文生图模型之一。

010

AI大模型 # SDXL-Lightning # SDXL-Lightning模型 # 图像生成工具

EMO

EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说，EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件（例如说话、唱歌的声音），EMO就能够根据音频内容生成一个生动的视频，视频中的人物会展现出丰富的面部表情和多变的头部动作，仿佛照片中的人物正在唱你所制定的语言或歌曲。

010

AI大模型 # AI肖像视频生成工具 # Emote Portrait Alive # 单张照片生成视频

DDColor

DDColor是阿里达摩院研究的一种基于深度学习的图像上色模型，它可以自动将黑白或灰度图像着色，使图像更加生动逼真。它使用了双解码器技术，能够同时考虑色彩分布和像素级详细信息，实现高度真实的图像上色效果。它还利用多尺度视觉特征和颜色损失来提高着色的语义合理性和颜色丰富性。

010

AI大模型 # ai怎么给图像上色 # 图像着色工具 # 灰度图像上色

Gen-3 Alpha

Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入（如文本描述、图像或视频片段）创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

010

AI大模型 # AI视频创作工具 # AI视频生成模型 # AI视频编辑控制

PuLID

PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术，通过对比对齐和快速采样方法，能够在无需调整模型的情况下轻松生成个性化写真。该技术能够保持高身份(ID)保真度，同时最大限度地减少对原始图像风格和背景的干扰，支持用户通过文本提示轻松编辑图像，生成逼真且个性化的图像结果。

010

AI大模型 # PuLID # 高保真图像生成

CrewAI

CrewAI是一个创新的框架，专为角色扮演中的AI代理提供自动化设置。它通过促进AI代理之间的合作，使得这些代理能够共同解决复杂问题。CrewAI的核心特征包括角色定制代理、自动任务委派、任务管理灵活性和流程导向。它既可以使用OpenAI的API，也可以通过Ollama使用本地的大模型来运行程序。

010

AI大模型 # AI自动化代理 # CrewAI # 多角色agent框架

Hyper-SD

Hyper-SD 是字节跳动推出的一种先进图像生成框架，结合了轨迹分段一致性蒸馏（TSCD）和人类反馈学习（RLHF），显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD，用户可以在 1 到 8 步的推理过程中生成高质量的图像，极大地提高了生成速度和效率。

010

AI大模型 # Hyper-SD # Hyper-SD 图像生成 # 字节跳动 Hyper-SD

Animate Anyone

DreaMoving是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。

010

AI大模型 # AI动画生成器 # AI动画生成工具 # AI驱动的角色动画

神力霓裳

神力霓裳是阿里大文娱发布的自研影视妆造大模型。这个模型可以根据要求快速生成影视级的各朝代服饰造型，辅助造型师进行创意设计。它主要服务于古装剧，包含造型设计、妆发设计和纹样设计三大功能。

010

AI大模型 # 古装剧服饰设计 # 影视妆造大模型 # 影视造型设计工具

ReSyncer

ReSyncer 是由清华大学、百度和南洋理工大学 S-Lab 实验室联合开发的多功能 AI 框架，专注于视频合成技术。它能够生成与音频高度同步的逼真口型视频，支持个性化调整、视频驱动口型同步、说话风格迁移和人脸交换。ReSyncer 在创建虚拟主持人、电影配音和多语言内容制作等领域具有广泛应用前景。

010

AI大模型 # ReSyncer # 人脸交换技术 # 视频口型同步

GPT智库

GPT 智库是一款强大的人工智能大模型综合应用，提供互联网境外访问绿色通道、汇聚了全球顶尖的人工智能大模型和学术资源。它具备智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能，为科研院所、新闻媒体、高校和政府部门提供安全、合规、可控的全球一流人工智能服务。

010

AI大模型 # GPT智库 # 大模型应用平台

孟子生成式大模型

孟子生成式大模型（孟子 GPT）是由澜舟科技研发的一款功能强大的生成式可控大语言模型。它能够通过多轮对话，帮助用户在特定场景中完成各种工作任务，包括内容生成、语言理解、知识问答、推理、代码理解和生成、金融任务等。

010

AI大模型 # AI语言模型平台 # 孟子 GPT # 孟子生成式大模型

商量拟人大模型

商量拟人大模型是商汤科技推出的一款AI拟人大模型，它支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能，可实现行业领先的角色对话、人设及剧情推动能力。该模型广泛应用于情感陪伴、影视/动漫/网文IP角色、明星/网红/艺人AI分身、语言角色扮演游戏等拟人对话场景。

010

AI大模型 # AI情感陪伴 # AI拟人大模型 # AI角色扮演游戏

DreamTalk

DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架，能够跨多种说话风格生成高质量的说话头部视频，由清华大学、阿里巴巴和华中科大共同开发。它的主要功能是通过人工智能技术让人物头像能够说话、唱歌，并保持嘴唇的同步以及模仿表情变化。这一框架能够生成高质量的动画，使人物脸部动作看起来非常真实，不仅嘴唇动作逼真，还能展现丰富的表情，使得动画更加生动。

010

AI大模型 # AI说话头生成 # AI面部动画生成 # DreamTalk

Seed-TTS

Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音（TTS）模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征，从而产生质量极高的语音输出。

010

AI大模型 # Seed-TTS语音合成 # 字节跳动文本到语音 # 字节跳动语音大模型

Lumiere

Lumiere是谷歌发布的一个文本到视频扩散模型，于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频，通过训练海量文本和视频数据，可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用，如图像到视频、视频修复和风格化生成。

010

AI大模型 # AI 视频生成 # AI 视频生成工具 # AI视频生成模型

ClotheDreamer

ClotheDreamer 是一种基于 3D 高斯方法的工具，用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法，使得服装和人体模型可以分别优化。

010

AI大模型 # 3D 服装生成 # 3D服装模型 # ClotheDreamer

Outfit Anyone

Outfit Anyone是一种虚拟试穿技术，它可以让用户在照片上穿上任何衣服。它是阿里巴巴集团智能计算研究所开发的一个创新项目，利用先进的人工智能和机器学习技术，提供高质量和细节一致的虚拟试穿效果。它可以适应不同的姿势和身材，甚至可以在动漫角色上试穿服装。

010

AI大模型 # Outfit Anyone AI # 虚拟试穿开源代码 # 虚拟试穿技术

Harmonai

Harmonai是一个开源生成音频工具，让音乐创作更有趣。您可以使用舞蹈扩散模型生成各种风格的音乐，或者使用Harmonai Studio在线制作自己的音乐作品。加入Harmonai，体验AI音乐的魅力。

010

AI大模型 # ai音频模型 # ai音频生成模型 # Harmonai音频工具

Video-LLaVA

Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构，能够处理视频和问题，通过自注意力机制来捕捉二者之间的关联信息，并可以回答有关其内容的问题，它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练，使得它能够理解丰富的视频特征和问题语义，进而在视频问答任务上取得了先进的性能，该技术还可用于标记图像和视频。

010

AI大模型 # AI视频分析 # Video-LLaVA模型 # 视频摘要生成

腾讯混元DiT

腾讯混元DiT是一个基于Diffusion transformer的文本到图像生成模型，也是业内首个中文原生的DiT架构文生图开源模型。该模型具有中英文细粒度理解能力，能够与用户进行多轮对话，根据上下文生成并完善图像。

010

AI大模型 # AI广告创意工具 # 中文原生Diffusion Transformer模型 # 中文文生图模型

火山方舟大模型

火山方舟是一个由火山引擎推出的大模型服务平台，面向企业提供模型精调、评测、推理等全方位的平台服务。集成了国内多个优秀的大模型，如 MiniMax、智谱 AI、复旦 MOSS 等，覆盖了自然语言处理、计算机视觉、语音识别等多个领域。火山方舟旨在为大模型的开发、应用、运营提供一站式的解决方案，降低大模型使用的门槛，推动大模型的产业化和普及。

010

AI大模型 # 大模型服务平台 # 火山方舟 # 火山方舟大模型

Llama 2

Llama 2是Meta AI推出的新一代大型语言模型（LLM），参数规模从70亿到700亿不等。它是为对话场景而优化的，称为Llama 2-Chat，能够在多数基准上超越开源的对话模型，并且在人类评估的有用性和安全性上，可能是闭源模型的合适替代品。

010

AI大模型 # Llama 2 # Llama 2大模型 # Llama 2模型

书生·浦语 InternLM

书生·浦语 InternLM 是由商汤科技与上海AI实验室联合香港中文大学和复旦大学共同开发的新一代大型语言模型。它是在过万亿token数据上训练的多语千亿参数基座模型，具有较高的知识水平，尤其在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀。

010

AI大模型 # 书生·浦语 # 书生·浦语 InternLM # 多语言AI模型

星火大模型

讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。可基于自然文本、语音的方式提供多场景文本生成、语言理解、知识问答、逻辑推理、数学解答、代码生成和多模态7大能力，快速生成文本、图片、代码等内容。

010

AI大模型 # 国内大模型公司 # 星火大模型 # 科大讯飞大语言模型

Idea-2-3D

Idea-2-3D 是一个3D 模型生成框架，能够从多模态输入（如文本、图像和 3D 模型）中生成高质量的 3D 模型。该框架由三个基于大型多模态模型（LMM）的智能代理组成，分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环，Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。

010

AI大模型 # 3D模型生成 # Idea-2-3D # Idea-2-3D生成框架

Face Adapter

Face Adapter 是一种专门为预训练的扩散模型设计的适配器，主要用于面部重演和面部交换任务。它能够实现高精度和高保真度的面部编辑，提供精细的个体识别和属性控制功能。

010

AI大模型 # AI在线换脸器 # AI换脸工具 # AI换脸模型

Yi大模型

Yi大模型是由李开复博士领导的AI公司“零一万物”发布的一款开源的中英双语预训练大模型。这个模型在多个性能指标上取得了国际最佳性能认可，被称为“全球最强开源模型”。Yi-34B模型特别之处在于它拥有全球最长的200K上下文窗口，能够处理40万汉字的超长文本输入，这在语言模型中是非常重要的，因为它对于理解和生成与特定上下文相关的文本至关重要。

010

AI大模型 # Yi大模型 # 中英双语预训练大模型 # 多模态AI模型

腾讯混元3D

腾讯混元3D，全称为 Hunyuan3D-1.0，是腾讯推出的首个同时支持文生和图生的3D开源模型，专门解决现有3D生成模型在生成速度和泛化能力方面的不足。该模型采用了基于Diffusion 技术的架构，能够同时支持文本生成和图像生成3D资产。

010

AI大模型 # 3D开源模型 # Hunyuan3D-1.0 # 快速3D资产生成

Adobe Firefly Image2

Adobe Firefly Image 2 是Adobe推出的一款生成式人工智能模型，建立在Firefly图像模型的基础上，专为设计师和创作者提供更强大、更智能的图像生成能力。它通过简单的文字描述，可以生成高质量的图像、文字效果和鲜艳的调色板。

010

AI大模型 # Adobe Firefly Image 2 # AI 图像生成 # ai绘画一键生成绘画

HoloDreamer

HoloDreamer是一款文本驱动的3D场景生成框架，通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成，该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化，然后利用3D高斯散射（3D-GS）技术快速重建3D场景，从而实现视角一致和完全封闭的3D场景生成。HoloDreamer在虚拟现实、游戏和影视行业中有广泛应用，为这些领域提供了新的解决方案。

010

AI大模型 # 3D场景生成 # 3D场景生成工具 # AI生成3D

天壤小白大模型

天壤小白是基于语言大模型的AI应用开放平台，无需代码开发，即可快速、灵活地搭建个性化的AI应用。通过提示词工程、语义搜索、向量数据库等各类AI工具组件，破解幻觉难题，为开发者和企业提供一站式的大模型应用服务。覆盖知识管理、市场销售、客户服务、内容生成、辅助决策、多语言翻译等多个场景。

010

AI大模型 # AI助手 # Embedding # SQL生成

Aidge

Aidge基于阿里巴巴国际数字商业集团的大语言模型和多模态大模型，结合对全球商业的深度洞察，为客户提供全面的国际电商AI云服务。Aidge 聚焦商业场景，让客户的全球经营效果更好，成本更低。Aidge 作为国际电商领域专业前沿且经验丰富的AI服务提供方，拥有极强的多语言能力、本地化能力和营销设计能力，帮助企业客户降低语言和文化门槛，解决中小企业难以获得设计、营销、服务和人才等问题。

010

AI大模型 # Aidge # 全球电商运营 # 国际电商AI解决方案

华知大模型

华知大模型是由同方知网与华为合作开发的中华知识大模型。它是一个专注于知识服务与科研行业的全栈自主可控的大模型，旨在覆盖政企文教等多个行业场景，并提供30多项通用能力体系。华知大模型的核心特色能力包括智能写作、学术搜问、AI伴读、标准智能问答、机构业务知识智能问答以及图书馆读者智能服务系统等。

010

AI大模型 # AI伴读工具 # 中华知识大模型 # 华知大模型

Segment Anything

Segment Anything是一个基于深度学习的图像分割模型，它可以根据用户的输入提示（如点或框）生成高质量的物体遮罩。它可以用于为图像中的任何物体生成遮罩，无论是常见的物体（如人、车、猫等），还是罕见的物体（如火箭、恐龙、魔法棒等）。它的特点是具有强大的零样本性能，即它可以在没有见过的类别上进行分割，而不需要额外的训练数据。它的另一个优点是具有快速的推理速度，即它可以在几秒钟内处理一张图像，而不需要显卡或云计算资源。

010

AI大模型 # 图像分割模型 # 图像分割模型SAM # 图像分割模型有哪些

文心千帆

文心千帆是百度智能云推出的产业级知识增强大模型，包括基础大模型、任务大模型、行业大模型，以及丰富的工具与平台，支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习，效率更高，效果更好，具备知识增强、检索增强和对话增强的技术特色。

010

AI大模型 # 大模型平台 # 文心千帆 # 文心千帆大模型平台

IMYAI智能助手

IMYAI智能助手是一款功能强大、简单易用的AI服务平台,集成了GPT4、Claude、Midjourney、Stable Diffusion等先进技术。无论您是需要写作灵感、绘画创意,还是寻求办公助理、生活规划,IMYAI都能提供专业、高效的解决方案。

010

AI大模型 # IMYAI智能助手 # 多模态AI大语言模型 # 多模态AI模型

Mistral AI

Mistral AI 是一家来自法国的人工智能服务商，专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和谷歌竞争，为企业开发生成式人工智能基础设施。

010

AI大模型 # Mistral AI # 新媒派

Imagen 3

Imagen 3是Google DeepMind开发的最新文生图大模型。它能够根据文本提示生成高质量、高分辨率的图像，具有更好的细节和丰富的光照效果。这个模型支持多种视觉风格，从照片般逼真到油画质感，甚至黏土动画场景。Imagen 3还改进了对自然语言提示的理解，简化了生成所需图像的过程，并采用了最新的安全和责任技术，包括隐私保护和内容安全。

010

AI大模型 # Imagen 3 图像生成工具 # Imagen 3 文生图模型 # Imagen 3文本到图像

魔搭ModelScope社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

010

AI大模型 # AI模型社区 # AI训练模型 # 机器学习模型

心辰Lingo语音大模型

心辰Lingo语音大模型是由西湖心辰（杭州）科技有限公司开发的端到端语音大模型。该模型具备原生语音理解、多种语音风格表达、语音模态超级压缩、实时打断和控制、深度情感理解等功能，能够以超拟人化的方式进行互动。这个模型不仅能快速响应复杂指令，还能深度理解用户的情感和意图。

010

AI大模型 # 心辰Lingo语音大模型 # 语音AI解决方案 # 语音生成模型

SEED-Story

SEED-Story是一个腾讯开源的基于大型语言模型（MLLM）的多模态长篇故事生成模型，它能够根据用户提供的图片和文本生成连贯的叙事文本和风格一致的图片。无论是小说创作、剧本编写还是视觉故事，SEED-Story都能提供高质量、多模态的内容，助力创意产业的发展。

010

AI大模型 # AI故事生成器 # 叙事文本图片生成 # 多模态故事生成

妙笔

妙笔是阿里巴巴最新开源的中文文生图模型，它与经典的Stable Diffusion 1.5版本结构相同，兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作，生成的图像效果逼真。例如，输入“枯藤老树昏鸦，小桥流水人家。水墨画。”，妙笔能够理解诗句中的意境并生成相应的图像。

010

AI大模型 # AI绘图工具 # 中文文本转图像 # 中文文生图模型

百度智能云客悦

百度智能云客悦是百度推出的智能客服平台。其旗下的智能外呼平台是一款集合NLP（自然语言处理）、ASR（自动语音识别）、TTS（语音合成）等人工智能技术，提供公有云服务并支持同时面向多名用户，自动发起外呼通话的智能化产品。

010

AI大模型 # 智能IVR系统 # 智能外呼平台 # 智能客服平台

BuboGPT

BuboGPT是字节跳动推出的一种先进的大型语言模型（LLM），它具有将文本、图像和音频等多模态输入进行整合的能力，并且具备将回复与视觉对象进行对接的独特功能，可以执行跨模态交互并做到对多模态的细粒度理解。这显示出BuboGPT在对齐或未对齐的任意图像音频数据理解方面有着出色的对话能力。

010

AI大模型 # BuboGPT # BuboGPT大型语言模型 # 多模态大语言模型

GPT-4o mini

GPT-4o Mini 是 OpenAI 最新推出的小型智能模型，专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出，响应速度极快，适用于实时应用场景。

010

AI大模型 # GPT-4o mini # GPT-4o mini模型 # OpenAI 小型模型

知海图AI

知海图AI是知乎与面壁智能合作开发的中文大模型，于2023年4月13日开始内测。它的主要功能是对知乎热榜上的问题回答进行要素抽取、观点梳理和内容聚合，以便用户能够更快、更全面地了解知友们讨论的热点与焦点。知海图AI在特定场景中的表现与GPT-4相当，显示出强大的语言理解和内容总结能力。此外，知海图AI的发布也标志着知乎在大语言模型领域的进一步布局，旨在赋能创作者、讨论场、信息获取等多个业务场景。

010

AI大模型 # 知乎AI应用 # 知乎大模型 # 知海图AI

云雀大模型

云雀大模型是字节跳动公司开发的一款大规模预训练语言模型。该模型采用 Transformer 架构，它能够处理多种自然语言处理任务，如聊天、绘画、写作和学习。云雀大模型利用了大量的数据进行训练，包括文本、图像、视频和音频等，以学习丰富的语言知识和语境信息。此外，它还具有视频内容理解能力，能够识别视频中的对象、场景和情感等关键要素，为多模态任务提供支持。

010

AI大模型 # AI智能体 # 云雀大模型 # 云雀语言模型

VideoCrafter2

VideoCrafter2是腾讯推出的一个先进的视频生成模型，它借助深度学习技术，致力于提高视频的视觉质量、动态效果以及概念组合，能够根据用户提供的文本描述生成高质量、流畅的视频作品。

010

AI大模型 # AI视频生成模型 # VideoCrafter2 # VideoCrafter2 图像到视频转换

AnyText

AnyText是阿里云开源的一种基于扩散的多语言视觉文本生成和编辑模型，它利用了深度学习、自然语言处理、计算机视觉等技术，实现了对图像中文本的检测、识别、生成和编辑。

010

AI大模型 # 文生图模型 # 文生图模型开源 # 视觉文本生成

Veo

Veo 是 Google DeepMind 开发的一种先进的视频生成模型。它能够生成1080p高分辨率、长时长的高质量视频。Veo 支持多种电影和视觉风格，能够准确捕捉文本提示的细微差别，并提供创意控制。这个模型旨在使视频制作更易于访问，并在叙事、教育等领域开启新的可能性。

010

AI大模型 # AI 视频生成工具 # AI视频生成器 # ai视频生成工具有哪些

阿里云百炼

阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。面向企业客户和个人开发者，提供完整的模型服务工具和全链路应用开发套件，预置丰富的能力插件，提供API及SDK等便捷的集成方式，高效完成大模型应用构建。

010

AI大模型 # AI大模型开发平台 # AI应用开发平台 # AI模型部署平台

光语金帆

光语金帆是由无限光年公司推出的金融大模型，结合了顶尖的人工智能技术和人才资源，旨在构建超越客户期望的人工智能生成内容（AIGC）产品组合，推动金融行业生产力和用户交互体验的全面提升，实现金融服务的智能化、公平化和普惠化。

000

AI大模型 # AI财报点评 # 光语金帆 # 智能投研工具

光语大模型

光语大模型是无限光年公司推出的一款结合大语言模型与符号推理的 AI 大模型，融合视觉与语言处理技术，拥有 10 亿视觉模型参数和 130 亿语言模型参数。该模型在金融、医疗等垂直领域表现出色，通过灰盒可信技术确保输出的稳定性和可靠性，有效解决幻觉问题，提升推理精度和可信度。

000

AI大模型 # 光语大模型