基于Transformer实现人工智能

至博文编写为止，当前基于Transformer实现人工智能是最为先进的方案。

Transformer简单介绍：

基于Transformer实现人工智能过程为：

一、大模型分类

基于不同维度，大模型有很多分类，这里介绍常见的3种分类。

专用：能力限于某个领域。
通用：能力覆盖全领域。

须知：专用和通用是相对的，跟讨论领域有关。

比如：

分为“本地部署”和“远端部署”两类。

大模型具有诸多能力，这里介绍常见的1种能力。

能力项	含义	举例	其他
单模态/多模态	大模型里说的“模态”是指：支持什么类型的输入单模态：只支持一种类型输入；多模态：支持多种类型输入	单模态大模型，比如： - 文本模态：只支持“文本”输入 - 图像模态：只支持“图像”输入 - 音频模态：只支持“音频”输入 - 视频模态：只支持“视频”输入多模态大模型，比如： - 图文多模态：支持“图像”和“文本”输入 - 图文音多模态：支持“图像”、“文本”和“音频”输入 - 图文音视多模态：支持“图像”、“文本”、“音频”和“视频”输入	/

大模型具有诸多指标，这里介绍常见的1种指标。
在继续之前，先明确模型参数量单位如下：

M = Million = 百万
B = Billion = 十亿
T = Trillion = 万亿

比如：
3M = 3 百万参数
7B = 70 亿参数
13B = 130 亿参数
70B = 700 亿参数
1T = 1 万亿参数

指标项	含义	举例	其他
模型参数量	训练得到的模型参数量	微型模型（模型参数量：小于1B）代表：GPT-2 Small(0.1B)、TinyBERT、DistilBERT(0.1B) 特点：速度极快、体积小、能力弱、仅简单任务小型模型（模型参数量：1B-7B）代表：Llama 2-7B、Llama 3-8B、Mistral-7B、Qwen-7B、ChatGLM-6B 特点：开源主力、性价比高、可本地部署、能力够用中型模型（模型参数量：13B-34B）代表：Llama 2-13B/34B、Qwen-14B/32B、Yi-34B 特点：性能与成本的黄金平衡点、能力明显强于7B 大型模型（模型参数量：70B-175B）代表：Llama 2/3-70B、Qwen-72B、DeepSeek-67B、GPT-3(175B) 特点：通用能力强、复杂推理、专业知识好、训练/部署成本高超大型模型（模型参数量：200B - 万亿级）代表：GPT-4(~1.8T)、Claude 3 Opus、Gemini Ultra 特点：能力天花板、多模态、长上下文、复杂思维链、训练和部署成本极高	/