基于Transformer实现大语言模型

本博文的前导博文是《基于Transformer实现人工智能》。

在人工智能领域，长久以来存在一个热门应用场景——语言处理，至本博文编写为止，对于语言处理人工职能最先进的方案是基于Transformer实现的大模型，被称为“大语言模型（Large Language Model，LLM）”，也常被称为“文本大模型”。

基于Transformer实现大语言模型具体过程：

模型训练：Transformer算法 + 巨量语言样本 -> 大语言模型
模型推理：使用第一步的大语言模型完成推理

一、大语言模型模型分类

1.1、通用/专用

当讨论范围是全领域：大语言模型是专用大模型。
当讨论范围是语言处理领域：大语言模型是通用大模型，大语言模型的子模型（比如“编程大语言模型”）是专用大模型。

1.2、应用场景

语言处理场景。

1.3、部署端

本地和远程都有。

二、大语言模型能力

大语言模型能力可细分为两类：

原生能力
扩展能力：大语言模型在不断迭代，除了原生迭代之外，还有AI Agent向迭代。AI Agent向迭代：本质是围绕大语言模型开发迭代AI Agent，这部分新增的能力不属于大语言模型原生能力，属于AI Agent能力，但实际中常将其归属为大语言模型能力

在继续之前，先介绍“Token”概念：大语言模型内部处理的基本单位是Token，故输入给大语言模型的文字（汉字、英文、标点、空格等）必须先经Token转换器获取Token，不同大语言模型的Token转换器不同，相应的，文字与Token的换算比例也不固定，但是工程实践常用以下估算公式：

1 token ≈ 0.75个汉字
1 token ≈ 4个英文字母 ≈ 约0.75个英文单词（因为平均一个英文单词约4个字母）

2.1、原生能力

能力项	含义	举例	其他
语义理解	理解词和句子的含义	1、小明把雨伞借给了小红，她很感谢：理解“她”指代“小红” 2、苹果发布新手机：理解“苹果”是指苹果公司，而不是水果	/
知识查询	复现训练数据中的事实	1、中国首都是北京 2、抖音属于字节跳动	/
格式遵从	按JSON、Markdown等输出	1、把下面发票文本提取信息，严格用JSON格式输出：抬头、金额、开票日期 2、分3点、每点用“1.xxx 2.xxx 3.xxx”格式	须注意与“大语言模型扩展能力格式遵从”的区分：原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换；扩展能力的格式遵从是调用外部格式工具
上下文学习	从例子中即时学会新任务	1、给模型上下文示例： - 景色很美 -> 正面 - 服务太差 -> 负面 - 一般般还行 -> 中性再给新句子：这家店味道很好，模型直接输出：正面 2、给模型上下文示例： - 文本：张三在北京上班 -> 人名：张三，地点：北京 - 文本：李四去上海出差 -> 人名：李四，地点：上海新输入：王五在广州读书，模型直接按照相同格式输出：人名：王五，地点：广州	/
指令跟随	执行多约束的复杂命令	1、用三句话简单介绍发票的作用，每句话不超过15个字 2、把这句话改成书面正式语气：今天天气挺不错的	/
角色扮演	采纳他人视角和知识状态	1、你现在是小学数学老师，给学生讲和差问题，语气温柔通俗 2、你现在是电商售后客服，礼貌回复用户退货咨询	/
自我纠错	检查并修正自己的输出	1、35乘以6等于多少？ - 模型初次输出：205 - 自我检查验算：35×6实际是210，刚才算错 - 自我纠错后输出：正确结果是210，刚才计算失误，已更正 2、中国首都是哪里？ - 模型初次输出：上海 - 自我检查纠错：上海是经济中心，刚才答案错误 - 自我纠错后输出：我国首都是北京	/
注意力缓存	把注意力相关中间结果缓存下来以加速推理	/	须注意与“大语言模型扩展能力上下文缓存”的区分：注意力缓存是Transformer模型的固有机制，属于原生能力；上下文缓存需要进行额外开发实现，属于扩展能力。日常说的命中缓存价格便宜，指的是注意力缓存
混合专家（Mixture of Experts，MoE）	`大模型总参数 = 注意力层参数 + 前馈网络 (FFN) 参数 + 其他少量参数`，其中`前馈网络（FFN）参数`占据绝大部分。 1、前期架构大语言模型，只有一个大FNN，对每个输入Token要激活全部FNN参数，推理成本高 2、MoE架构大语言模型，将大FFN拆成多个独立的子FFN，并称之为“专家”（Expert），然后对每个输入Token，只选Top‑k个专家进行处理，即只激活所选中专家（子FNN）参数，大幅度降低推理成本	/	/
思维链（Chain-of-Thought，CoT）	模型不直接给答案，先内部一步步推理、打草稿、拆解题思路，再输出最终答案，本质是：隐性推理过程显性化为文本，相当于给模型一张 “草稿纸”，用更多Token换更高准确率和可解释性	要求计算：`(17 * 4) + (15 * 3)` 1、`首先，计算 17 * 4` -> `得出 68` 2、`然后，计算 15 * 3` -> `得出 45` 3、`最后，计算 68 + 45` -> `得出 113` 最后基于这个草稿，回答：`最终答案是113`	常说的思考模式就是基于思维链，须注意，思考模式可能进行扩展，此时其属于扩展能力

2.2、扩展能力

能力项	含义	举例	其他
调用外部工具（Function Call）	模型能够调用外部工具，比如“搜索互联网”，“查询数据库”，“运行代码”，“调用API”等	1、调用JSON格式化工具，对输出结果进行JSON格式化 2、联网查询天气	调用JSON格式化工具须注意与“大语言模型原生能力之格式遵从”的区分：原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换；扩展能力的格式遵从是调用外部格式工具
多轮会话一致性	大语言模型在多轮会话中，能够记录历史会话内容，不前后矛盾	/	/
调用权限管理	对调用进行权限管理，比如“基于用户登录”，“基于API_KEY”	/	/
多模态	原只能接受文本输入，扩展支持图像、视频、音频等输入	/	/
会话补全	自动补全会话	/	/
上下文缓存	把固定不变的长文本、前置提示词、知识库内容，提前编码算好存起来，下次直接复用，不用重复计算	一个会话场景（对大语言模型的角色设定为：`你是资深法律顾问，严谨专业，只解答法律问题……（总共3000字）`）： 1、如果未开启上下文缓存功能，每次聊天，大语言模型都要把3000字角色设定从头编码计算一遍，慢且浪费Token 2、如果开启了上下文缓存功能，第一次聊天该功能会把3000字角色设定一次性编码进行缓存，之后所有聊天只需发本次聊天内容，上下文缓存功能会将已缓存的角色设定传递给大语言模型，快且节约Token	须注意与“大语言模型原生能力之注意力缓存”的区分：注意力缓存是Transformer模型的固有机制，属于原生能力；上下文缓存需要进行额外开发实现，属于扩展能力

三、大语言模型指标

指标项	含义	举例	其他
模型参数量	训练得到模型的参数量	各种层级都有，比如： - Qwen3.5-2B：2B模型参数量 - MiMo-V2.5-Pro：1.02T模型参数量 - DeepSeek-V4-Pro：1.6T模型参数量	/
上下文窗口长度	大语言模型一次能读懂并处理的最大总Token数	比如： - 4K上下文：一次能读懂并处理4千Token - 32K上下文：一次能读懂并处理3.2万Token - 128K上下文：一次能读懂并处理12万8千Token	/
最大输出Token	大语言模型最多能一次性给你生成多少Token的内容	/	/
幻觉率	大语言模型一本正经编造不存在的事实、数据、人名、论文、政策的概率	/	/
激活参数量	MoE架构大语言模型，推理时实际激活的参数量	比如： - DeepSeek-MoE：<总参数：1.6T，激活参数：12.8B>，即每次推理只用约1/125的参数，速度快、成本低 - GLM-4.5：<总参数：355B，激活参数：32B>，即每次推理只用不到10%的参数，就能发挥大部分能力

四、市面大语言模型介绍

国内外存在诸多大语言模型，这里介绍国内DeepSeek（属于DeepSeek公司）、Qwen（属于阿里巴巴公司）、MiMo（属于小米公司）和Seed（属于字节跳动）四个品牌下的大语言模型。

关于介绍有两点说明：

时效性：至博文成文时间
简要介绍：一句话定位，详细内容见官网

4.1、DeepSeek[1]

DeepSeek品牌下大语言模型有：DeepSeek V4‑Pro和DeepSeek V4‑Flash。

大语言模型	一句话定位
DeepSeek V4‑Pro	旗舰全能型，主打顶级推理、复杂代码、高阶Agent与科研级能力，追求性能天花板
DeepSeek V4‑Flash	高效性价比型，主打极速响应、低成本、高并发，覆盖80%日常轻量商用场景

4.2、Seed[2]

Seed品牌下大语言模型有：Seed 2.0 Pro、Seed 2.0 Lite、Seed 2.0 Mini和Seed 2.0 Code。

大语言模型	一句话定位
Seed 2.0 Pro	全能力旗舰通用大模型，复杂重度业务首选，成本高、速度偏慢
Seed 2.0 Lite	商用均衡性价比主力，绝大多数商用业务首选，极致复杂推理不如Pro
Seed 2.0 Mini	超低时延轻量化推理，成本优先、高并发轻业务首选，深度思考差、长对话易失忆
Seed 2.0 Code	编程开发专项优化模型，开发编程场景首选，通用闲聊、创意创作、多模态能力薄弱

4.3、Qwen[3]

Qwen品牌下大语言模型有：Qwen3.6-Max、Qwen3.6-Plus和Qwen3.6-Flash。

大语言模型	一句话定位
Qwen3.6-Max	旗舰顶配，极限推理最强，攻坚复杂难题、深度逻辑与高阶创作首选
Qwen3.6-Plus	长文本全能主力，超大上下文容量，海量文档梳理、多轮深度对话优选
Qwen3.6-Flash	极速轻快版本，低延迟低成本，实时交互、高并发轻量化场景首选

4.4、MiMo[4]

MiMo品牌下大语言模型有：MiMo‑V2.5‑Pro和MiMo‑V2.5。

大语言模型	一句话定位
MiMo‑V2.5‑Pro	旗舰纯文本超级Agent，1.02T参数、专攻超长程复杂推理+顶级代码生成+千轮工具调用，性能对标Claude Opus
MiMo‑V2.5	原生全模态全能Agent，310B参数、文本/图像/视频/音频通吃，高性价比、日常多模态与通用任务首选

参考文献

[1]https://api-docs.deepseek.com/zh-cn
[2]https://www.volcengine.com/docs/82379/1330310?lang=zh
[3]https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/text
[4]https://platform.xiaomimimo.com/docs/zh-CN/welcome