至博文编写为止,当前基于Transformer实现人工智能是最为先进的方案。
Transformer简单介绍:
- 神经网络:是一种模拟人脑神经元结构与信息传递方式的机器学习算法,由输入层、隐藏层、输出层组成,隐藏层层数为1-2层
- 深度学习:多层神经网络,即“隐藏层层数>2,甚至几百”
- 深度学习当前最常见的3种类型:
- 卷积神经网络(CNN)
- 循环神经网络(RNN)
- Transformer:至本博文写作时间为止,最为先进
基于Transformer实现人工智能过程为:
- 模型训练:
Transformer算法 + 巨量样本 -> 模型。当前,业界称前述模型为大模型(Large Model,LM),本文后续都使用该术语 - 模型推理:使用第一步的大模型完成推理
一、大模型分类
基于不同维度,大模型有很多分类,这里介绍常见的3种分类。
1.1、通用/专用
专用:能力限于某个领域。
通用:能力覆盖全领域。
须知:专用和通用是相对的,跟讨论领域有关。
比如:
- 对于医疗大模型:1)讨论范围是全领域,医疗大模型是专用大模型;2)讨论范围是医疗领域,医疗大模型相对儿科大模型是通用大模型
- 对于代码大模型:1)讨论范围是全领域,代码大模型是专用大模型;2)讨论范围是代码领域,代码大模型相对Java代码大模型是通用大模型
- 对于视频大模型:1)讨论范围是全领域,视频大模型是专用大模型;2)讨论范围是视频领域,视频大模型相对动物视频大模型是通用大模型
1.2、应用场景
- 语言处理场景
- 文生图场景
- 文生视频场景
- …
1.3、部署端
分为“本地部署”和“远端部署”两类。
二、大模型能力
大模型具有诸多能力,这里介绍常见的1种能力。
| 能力项 | 含义 | 举例 | 其他 |
|---|---|---|---|
| 单模态/多模态 | 大模型里说的“模态”是指:支持什么类型的输入 单模态:只支持一种类型输入;多模态:支持多种类型输入 |
单模态大模型,比如: - 文本模态:只支持“文本”输入 - 图像模态:只支持“图像”输入 - 音频模态:只支持“音频”输入 - 视频模态:只支持“视频”输入 多模态大模型,比如: - 图文多模态:支持“图像”和“文本”输入 - 图文音多模态:支持“图像”、“文本”和“音频”输入 - 图文音视多模态:支持“图像”、“文本”、“音频”和“视频”输入 |
/ |
三、大模型指标
大模型具有诸多指标,这里介绍常见的1种指标。
在继续之前,先明确模型参数量单位如下:
1 | M = Million = 百万 |
| 指标项 | 含义 | 举例 | 其他 |
|---|---|---|---|
| 模型参数量 | 训练得到的模型参数量 | 微型模型(模型参数量:小于1B) 代表:GPT-2 Small(0.1B)、TinyBERT、DistilBERT(0.1B) 特点:速度极快、体积小、能力弱、仅简单任务 小型模型(模型参数量:1B-7B) 代表:Llama 2-7B、Llama 3-8B、Mistral-7B、Qwen-7B、ChatGLM-6B 特点:开源主力、性价比高、可本地部署、能力够用 中型模型(模型参数量:13B-34B) 代表:Llama 2-13B/34B、Qwen-14B/32B、Yi-34B 特点:性能与成本的黄金平衡点、能力明显强于7B 大型模型(模型参数量:70B-175B) 代表:Llama 2/3-70B、Qwen-72B、DeepSeek-67B、GPT-3(175B) 特点:通用能力强、复杂推理、专业知识好、训练/部署成本高 超大型模型(模型参数量:200B - 万亿级) 代表:GPT-4(~1.8T)、Claude 3 Opus、Gemini Ultra 特点:能力天花板、多模态、长上下文、复杂思维链、训练和部署成本极高 |
/ |