本博文的前导博文是《基于Transformer实现人工智能》。
在人工智能领域,长久以来存在一个热门应用场景——语言处理,至本博文编写为止,对于语言处理人工职能最先进的方案是基于Transformer实现的大模型,被称为“大语言模型(Large Language Model,LLM)”,也常被称为“文本大模型”。
基于Transformer实现大语言模型具体过程:
- 模型训练:
Transformer算法 + 巨量语言样本 -> 大语言模型 - 模型推理:使用第一步的大语言模型完成推理
一、大语言模型模型分类
1.1、通用/专用
当讨论范围是全领域:大语言模型是专用大模型。
当讨论范围是语言处理领域:大语言模型是通用大模型,大语言模型的子模型(比如“编程大语言模型”)是专用大模型。
1.2、应用场景
语言处理场景。
1.3、部署端
本地和远程都有。
二、大语言模型能力
大语言模型能力可细分为两类:
- 原生能力
- 扩展能力:大语言模型在不断迭代,除了原生迭代之外,还有AI Agent向迭代。AI Agent向迭代:本质是围绕大语言模型开发迭代AI Agent,这部分新增的能力不属于大语言模型原生能力,属于AI Agent能力,但实际中常将其归属为大语言模型能力
在继续之前,先介绍“Token”概念:大语言模型内部处理的基本单位是Token,故输入给大语言模型的文字(汉字、英文、标点、空格等)必须先经Token转换器获取Token,不同大语言模型的Token转换器不同,相应的,文字与Token的换算比例也不固定,但是工程实践常用以下估算公式:
1 token ≈ 0.75个汉字1 token ≈ 4个英文字母 ≈ 约0.75个英文单词(因为平均一个英文单词约4个字母)
2.1、原生能力
| 能力项 | 含义 | 举例 | 其他 |
|---|---|---|---|
| 语义理解 | 理解词和句子的含义 | 1、小明把雨伞借给了小红,她很感谢:理解“她”指代“小红” 2、苹果发布新手机:理解“苹果”是指苹果公司,而不是水果 |
/ |
| 知识查询 | 复现训练数据中的事实 | 1、中国首都是北京 2、抖音属于字节跳动 |
/ |
| 格式遵从 | 按JSON、Markdown等输出 | 1、把下面发票文本提取信息,严格用JSON格式输出:抬头、金额、开票日期 2、分3点、每点用“1.xxx 2.xxx 3.xxx”格式 |
须注意与“大语言模型扩展能力格式遵从”的区分:原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换;扩展能力的格式遵从是调用外部格式工具 |
| 上下文学习 | 从例子中即时学会新任务 | 1、给模型上下文示例: - 景色很美 -> 正面 - 服务太差 -> 负面 - 一般般还行 -> 中性 再给新句子:这家店味道很好,模型直接输出:正面 2、给模型上下文示例: - 文本:张三在北京上班 -> 人名:张三,地点:北京 - 文本:李四去上海出差 -> 人名:李四,地点:上海 新输入:王五在广州读书,模型直接按照相同格式输出:人名:王五,地点:广州 |
/ |
| 指令跟随 | 执行多约束的复杂命令 | 1、用三句话简单介绍发票的作用,每句话不超过15个字 2、把这句话改成书面正式语气:今天天气挺不错的 |
/ |
| 角色扮演 | 采纳他人视角和知识状态 | 1、你现在是小学数学老师,给学生讲和差问题,语气温柔通俗 2、你现在是电商售后客服,礼貌回复用户退货咨询 |
/ |
| 自我纠错 | 检查并修正自己的输出 | 1、35乘以6等于多少? - 模型初次输出:205 - 自我检查验算:35×6实际是210,刚才算错 - 自我纠错后输出:正确结果是210,刚才计算失误,已更正 2、中国首都是哪里? - 模型初次输出:上海 - 自我检查纠错:上海是经济中心,刚才答案错误 - 自我纠错后输出:我国首都是北京 |
/ |
| 注意力缓存 | 把注意力相关中间结果缓存下来以加速推理 | / | 须注意与“大语言模型扩展能力上下文缓存”的区分:注意力缓存是Transformer模型的固有机制,属于原生能力;上下文缓存需要进行额外开发实现,属于扩展能力。日常说的命中缓存价格便宜,指的是注意力缓存 |
| 混合专家(Mixture of Experts,MoE) | 大模型总参数 = 注意力层参数 + 前馈网络 (FFN) 参数 + 其他少量参数,其中前馈网络(FFN)参数占据绝大部分。1、前期架构大语言模型,只有一个大FNN,对每个输入Token要激活全部FNN参数,推理成本高 2、MoE架构大语言模型,将大FFN拆成多个独立的子FFN,并称之为“专家”(Expert),然后对每个输入Token,只选Top‑k个专家进行处理,即只激活所选中专家(子FNN)参数,大幅度降低推理成本 |
/ | / |
| 思维链(Chain-of-Thought,CoT) | 模型不直接给答案,先内部一步步推理、打草稿、拆解题思路,再输出最终答案,本质是:隐性推理过程显性化为文本,相当于给模型一张 “草稿纸”,用更多Token换更高准确率和可解释性 | 要求计算:(17 * 4) + (15 * 3)1、 首先,计算 17 * 4 -> 得出 682、 然后,计算 15 * 3 -> 得出 453、 最后,计算 68 + 45 -> 得出 113最后基于这个草稿,回答: 最终答案是113 |
常说的思考模式就是基于思维链,须注意,思考模式可能进行扩展,此时其属于扩展能力 |
2.2、扩展能力
| 能力项 | 含义 | 举例 | 其他 |
|---|---|---|---|
| 调用外部工具(Function Call) | 模型能够调用外部工具,比如“搜索互联网”,“查询数据库”,“运行代码”,“调用API”等 | 1、调用JSON格式化工具,对输出结果进行JSON格式化 2、联网查询天气 |
调用JSON格式化工具须注意与“大语言模型原生能力之格式遵从”的区分:原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换;扩展能力的格式遵从是调用外部格式工具 |
| 多轮会话一致性 | 大语言模型在多轮会话中,能够记录历史会话内容,不前后矛盾 | / | / |
| 调用权限管理 | 对调用进行权限管理,比如“基于用户登录”,“基于API_KEY” | / | / |
| 多模态 | 原只能接受文本输入,扩展支持图像、视频、音频等输入 | / | / |
| 会话补全 | 自动补全会话 | / | / |
| 上下文缓存 | 把固定不变的长文本、前置提示词、知识库内容,提前编码算好存起来,下次直接复用,不用重复计算 | 一个会话场景(对大语言模型的角色设定为:你是资深法律顾问,严谨专业,只解答法律问题……(总共3000字)):1、如果未开启上下文缓存功能,每次聊天,大语言模型都要把3000字角色设定从头编码计算一遍,慢且浪费Token 2、如果开启了上下文缓存功能,第一次聊天该功能会把3000字角色设定一次性编码进行缓存,之后所有聊天只需发本次聊天内容,上下文缓存功能会将已缓存的角色设定传递给大语言模型,快且节约Token |
须注意与“大语言模型原生能力之注意力缓存”的区分:注意力缓存是Transformer模型的固有机制,属于原生能力;上下文缓存需要进行额外开发实现,属于扩展能力 |
三、大语言模型指标
| 指标项 | 含义 | 举例 | 其他 |
|---|---|---|---|
| 模型参数量 | 训练得到模型的参数量 | 各种层级都有,比如: - Qwen3.5-2B:2B模型参数量 - MiMo-V2.5-Pro:1.02T模型参数量 - DeepSeek-V4-Pro:1.6T模型参数量 |
/ |
| 上下文窗口长度 | 大语言模型一次能读懂并处理的最大总Token数 | 比如: - 4K上下文:一次能读懂并处理4千Token - 32K上下文:一次能读懂并处理3.2万Token - 128K上下文:一次能读懂并处理12万8千Token |
/ |
| 最大输出Token | 大语言模型最多能一次性给你生成多少Token的内容 | / | / |
| 幻觉率 | 大语言模型一本正经编造不存在的事实、数据、人名、论文、政策的概率 | / | / |
| 激活参数量 | MoE架构大语言模型,推理时实际激活的参数量 | 比如: - DeepSeek-MoE:<总参数:1.6T,激活参数:12.8B>,即每次推理只用约1/125的参数,速度快、成本低 - GLM-4.5:<总参数:355B,激活参数:32B>,即每次推理只用不到10%的参数,就能发挥大部分能力 |
四、市面大语言模型介绍
国内外存在诸多大语言模型,这里介绍国内DeepSeek(属于DeepSeek公司)、Qwen(属于阿里巴巴公司)、MiMo(属于小米公司)和Seed(属于字节跳动)四个品牌下的大语言模型。
关于介绍有两点说明:
- 时效性:至博文成文时间
- 简要介绍:一句话定位,详细内容见官网
4.1、DeepSeek[1]
DeepSeek品牌下大语言模型有:DeepSeek V4‑Pro和DeepSeek V4‑Flash。
| 大语言模型 | 一句话定位 |
|---|---|
| DeepSeek V4‑Pro | 旗舰全能型,主打顶级推理、复杂代码、高阶Agent与科研级能力,追求性能天花板 |
| DeepSeek V4‑Flash | 高效性价比型,主打极速响应、低成本、高并发,覆盖80%日常轻量商用场景 |
4.2、Seed[2]
Seed品牌下大语言模型有:Seed 2.0 Pro、Seed 2.0 Lite、Seed 2.0 Mini和Seed 2.0 Code。
| 大语言模型 | 一句话定位 |
|---|---|
| Seed 2.0 Pro | 全能力旗舰通用大模型,复杂重度业务首选,成本高、速度偏慢 |
| Seed 2.0 Lite | 商用均衡性价比主力,绝大多数商用业务首选,极致复杂推理不如Pro |
| Seed 2.0 Mini | 超低时延轻量化推理,成本优先、高并发轻业务首选,深度思考差、长对话易失忆 |
| Seed 2.0 Code | 编程开发专项优化模型,开发编程场景首选,通用闲聊、创意创作、多模态能力薄弱 |
4.3、Qwen[3]
Qwen品牌下大语言模型有:Qwen3.6-Max、Qwen3.6-Plus和Qwen3.6-Flash。
| 大语言模型 | 一句话定位 |
|---|---|
| Qwen3.6-Max | 旗舰顶配,极限推理最强,攻坚复杂难题、深度逻辑与高阶创作首选 |
| Qwen3.6-Plus | 长文本全能主力,超大上下文容量,海量文档梳理、多轮深度对话优选 |
| Qwen3.6-Flash | 极速轻快版本,低延迟低成本,实时交互、高并发轻量化场景首选 |
4.4、MiMo[4]
MiMo品牌下大语言模型有:MiMo‑V2.5‑Pro和MiMo‑V2.5。
| 大语言模型 | 一句话定位 |
|---|---|
| MiMo‑V2.5‑Pro | 旗舰纯文本超级Agent,1.02T参数、专攻超长程复杂推理+顶级代码生成+千轮工具调用,性能对标Claude Opus |
| MiMo‑V2.5 | 原生全模态全能Agent,310B参数、文本/图像/视频/音频通吃,高性价比、日常多模态与通用任务首选 |
参考文献
[1]https://api-docs.deepseek.com/zh-cn
[2]https://www.volcengine.com/docs/82379/1330310?lang=zh
[3]https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/text
[4]https://platform.xiaomimimo.com/docs/zh-CN/welcome