0%

基于Transformer实现人工智能

至博文编写为止,当前基于Transformer实现人工智能是最为先进的方案。

Transformer简单介绍:

  1. 神经网络:是一种模拟人脑神经元结构与信息传递方式的机器学习算法,由输入层、隐藏层、输出层组成,隐藏层层数为1-2层
  2. 深度学习:多层神经网络,即“隐藏层层数>2,甚至几百”
  3. 深度学习当前最常见的3种类型:
    • 卷积神经网络(CNN)
    • 循环神经网络(RNN)
    • Transformer:至本博文写作时间为止,最为先进

基于Transformer实现人工智能过程为:

  1. 模型训练:Transformer算法 + 巨量样本 -> 模型。当前,业界称前述模型为大模型(Large Model,LM),本文后续都使用该术语
  2. 模型推理:使用第一步的大模型完成推理

一、大模型分类

基于不同维度,大模型有很多分类,这里介绍常见的3种分类。

1.1、通用/专用

专用:能力限于某个领域。
通用:能力覆盖全领域。

须知:专用和通用是相对的,跟讨论领域有关。

比如:

  • 对于医疗大模型:1)讨论范围是全领域,医疗大模型是专用大模型;2)讨论范围是医疗领域,医疗大模型相对儿科大模型是通用大模型
  • 对于代码大模型:1)讨论范围是全领域,代码大模型是专用大模型;2)讨论范围是代码领域,代码大模型相对Java代码大模型是通用大模型
  • 对于视频大模型:1)讨论范围是全领域,视频大模型是专用大模型;2)讨论范围是视频领域,视频大模型相对动物视频大模型是通用大模型

1.2、应用场景

  • 语言处理场景
  • 文生图场景
  • 文生视频场景

1.3、部署端

分为“本地部署”和“远端部署”两类。

二、大模型能力

大模型具有诸多能力,这里介绍常见的1种能力。

能力项 含义 举例 其他
单模态/多模态 大模型里说的“模态”是指:支持什么类型的输入
单模态:只支持一种类型输入;多模态:支持多种类型输入
单模态大模型,比如:
- 文本模态:只支持“文本”输入
- 图像模态:只支持“图像”输入
- 音频模态:只支持“音频”输入
- 视频模态:只支持“视频”输入


多模态大模型,比如:
- 图文多模态:支持“图像”和“文本”输入
- 图文音多模态:支持“图像”、“文本”和“音频”输入
- 图文音视多模态:支持“图像”、“文本”、“音频”和“视频”输入
/

三、大模型指标

大模型具有诸多指标,这里介绍常见的1种指标。
在继续之前,先明确模型参数量单位如下:

1
2
3
4
5
6
7
8
9
10
M = Million = 百万
B = Billion = 十亿
T = Trillion = 万亿

比如:
3M = 3 百万参数
7B = 70 亿参数
13B = 130 亿参数
70B = 700 亿参数
1T = 1 万亿参数
指标项 含义 举例 其他
模型参数量 训练得到的模型参数量 微型模型(模型参数量:小于1B)
代表:GPT-2 Small(0.1B)、TinyBERT、DistilBERT(0.1B)
特点:速度极快、体积小、能力弱、仅简单任务

小型模型(模型参数量:1B-7B)
代表:Llama 2-7B、Llama 3-8B、Mistral-7B、Qwen-7B、ChatGLM-6B
特点:开源主力、性价比高、可本地部署、能力够用

中型模型(模型参数量:13B-34B)
代表:Llama 2-13B/34B、Qwen-14B/32B、Yi-34B
特点:性能与成本的黄金平衡点、能力明显强于7B

大型模型(模型参数量:70B-175B)
代表:Llama 2/3-70B、Qwen-72B、DeepSeek-67B、GPT-3(175B)
特点:通用能力强、复杂推理、专业知识好、训练/部署成本高

超大型模型(模型参数量:200B - 万亿级)
代表:GPT-4(~1.8T)、Claude 3 Opus、Gemini Ultra
特点:能力天花板、多模态、长上下文、复杂思维链、训练和部署成本极高
/
您的支持将鼓励我继续分享!