
悟道大模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目,旨在以原始创新为基础实现预训练技术的突破,填补以中文为核心预训练大模型的空白,探索通向通用人工智能的实现路径。
悟道大模型包括语言、视觉、跨模态、跨语言等多个领域的大模型系列,如悟道·天鹰、悟道·视界、悟道·天鹰AquilaCode等。
悟道大模型不仅具备强大的语言理解和生成能力,还能进行逻辑推理、代码分析、图像生成等多种任务,支持多种类型的文本内容生成,如小说、歌词、诗歌、对联等。
悟道大模型还构建了开源大模型评测体系和生态,包括FlagEval(天秤)大模型语言评测体系及开放平台,以及FlagOpen(飞智)大模型技术开源体系,为大模型行业发展提供技术支持和服务。
悟道大模型的技术原理
悟道大模型是智源研究院开发的一系列人工智能模型,包括语言、视觉和多模态等领域。悟道大模型的技术原理主要基于 Transformer 模型,通过多层自注意力机制和前向神经网络,能够对输入的文本或图像进行编码,实现信息的提取、语义理解和生成回应。悟道大模型的训练过程包括两个阶段:预训练和微调。预训练是在海量的数据上训练一个通用的模型,微调是在特定的任务上对模型进行调整,提高模型的性能和适应性。悟道大模型还采用了一些创新的技术,如 MoE、Diffusion、OpenPrompt 等,来提升模型的规模、效率和能力。
悟道大模型的性能如何?
1、悟道·文汇是全球最大的万亿级人工智能大模型,它能够实现文生文、图生文以及图文生文等多项任务,超越了OpenAI GPT-3、DALL·E以及Google ALIGN等先进模型。
2、悟道·文澜是目前最大的中文通用图文预训练模型,它利用6.5亿对互联网图文数据进行自监督学习,能够在多个国际公开数据集上取得最佳性能。
3、悟道·视界是视觉大模型系列,它能够完成7种主流视觉任务,已经在深度估计、语义分割等核心视觉任务中性能“大幅超越同类”,相比同类模型具有11%~25%的性能提升,超过了图灵奖得主Geoffrey Hinton团队的Pix2Seqv2,艾伦AI研究所的视觉通用模型Unified-IO和谷歌的UViM。
4、悟道·八卦炉是超大规模深度学习训练系统,它能够支持万亿级参数模型的训练,性能超过1EFLOPS,并且能够训练174万亿个参数模型,这与人脑中的突触数量相当。
悟道大模型的发展历程
1、2020年10月,智源研究院发布了悟道1.0,我国首个超大规模智能模型系统,包括语言、视觉和多模态等领域的模型,总参数规模达到了2600亿,是当时国内最大的智能模型。
2、2021年6月,智源研究院联合多个外部实验室发布了悟道2.0,全球最大的万亿级人工智能大模型,包括语言模型GLM、文生图模型CogView等,总参数规模达到了1.75万亿,是OpenAI发布的GPT-3的10倍。
3、2023年6月,智源研究院发布并全面开源了悟道3.0系列模型,包括语言大模型悟道·天鹰(Aquila)、视觉大模型悟道·视界(EVA)以及一系列多模态模型,总参数规模达到了3.5万亿,是悟道2.0的2倍。悟道3.0系列模型是由智源研究院团队自研完成,采用了更高效的架构设计、更高质量的数据清洗、更创新的技术方法,实现了更优的模型性能和应用能力。
数据统计
相关导航

美图推出的AI视觉大模型,支持AI图像、设计和视频创作

Imagen 3
Imagen 3是Google DeepMind开发的最新文生图大模型。它能够根据文本提示生成高质量、高分辨率的图像,具有更好的细节和丰富的光照效果。这个模型支持多种视觉风格,从照片般逼真到油画质感,甚至黏土动画场景。Imagen 3还改进了对自然语言提示的理解,简化了生成所需图像的过程,并采用了最新的安全和责任技术,包括隐私保护和内容安全。

Mistral AI
Mistral AI 是一家来自法国的人工智能服务商,专注于大型语言模型和生成式人工智能的构建、培训和应用。Mistral AI 的目标是与 OpenAI 和 谷歌 竞争,为企业开发生成式人工智能基础设施。

Step-Video-T2V
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

PengChengStarling
PengChengStarling是由 PengCheng Labs 开发的多语言自动语音识别工具,支持中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。相比 Whisper-Large v3,PengChengStarling 的模型仅占其 20% 大小,但推理速度提高了 7 倍,且流式语音识别效果卓越。PengChengStarling 是开源的,采用 Apache 2.0 许可证,适用于语音助手、翻译工具、字幕生成和语音搜索等多种应用场景。

DreamTalk
DreamTalk 是一个基于扩散的、以音频驱动的表达性说话头部生成框架,能够跨多种说话风格生成高质量的说话头部视频,由清华大学、阿里巴巴和华中科大共同开发。它的主要功能是通过人工智能技术让人物头像能够说话、唱歌,并保持嘴唇的同步以及模仿表情变化。这一框架能够生成高质量的动画,使人物脸部动作看起来非常真实,不仅嘴唇动作逼真,还能展现丰富的表情,使得动画更加生动。

RAGFlow
RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信息。

商量拟人大模型
商量拟人大模型是商汤科技推出的一款AI拟人大模型,它支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力。该模型广泛应用于情感陪伴、影视/动漫/网文IP角色、明星/网红/艺人AI分身、语言角色扮演游戏等拟人对话场景。
暂无评论...