0%

基于Transformer实现大语言模型

本博文的前导博文是《基于Transformer实现人工智能》

在人工智能领域,长久以来存在一个热门应用场景——语言处理,至本博文编写为止,对于语言处理人工职能最先进的方案是基于Transformer实现的大模型,被称为“大语言模型(Large Language Model,LLM)”,也常被称为“文本大模型”。

基于Transformer实现大语言模型具体过程:

  1. 模型训练:Transformer算法 + 巨量语言样本 -> 大语言模型
  2. 模型推理:使用第一步的大语言模型完成推理

一、大语言模型模型分类

1.1、通用/专用

当讨论范围是全领域:大语言模型是专用大模型。
当讨论范围是语言处理领域:大语言模型是通用大模型,大语言模型的子模型(比如“编程大语言模型”)是专用大模型。

1.2、应用场景

语言处理场景。

1.3、部署端

本地和远程都有。

二、大语言模型能力

大语言模型能力可细分为两类:

  • 原生能力
  • 扩展能力:大语言模型在不断迭代,除了原生迭代之外,还有AI Agent向迭代。AI Agent向迭代:本质是围绕大语言模型开发迭代AI Agent,这部分新增的能力不属于大语言模型原生能力,属于AI Agent能力,但实际中常将其归属为大语言模型能力

在继续之前,先介绍“Token”概念:大语言模型内部处理的基本单位是Token,故输入给大语言模型的文字(汉字、英文、标点、空格等)必须先经Token转换器获取Token,不同大语言模型的Token转换器不同,相应的,文字与Token的换算比例也不固定,但是工程实践常用以下估算公式:

  • 1 token ≈ 0.75个汉字
  • 1 token ≈ 4个英文字母 ≈ 约0.75个英文单词(因为平均一个英文单词约4个字母)

2.1、原生能力

能力项 含义 举例 其他
语义理解 理解词和句子的含义 1、小明把雨伞借给了小红,她很感谢:理解“她”指代“小红”

2、苹果发布新手机:理解“苹果”是指苹果公司,而不是水果
/
知识查询 复现训练数据中的事实 1、中国首都是北京

2、抖音属于字节跳动
/
格式遵从 按JSON、Markdown等输出 1、把下面发票文本提取信息,严格用JSON格式输出:抬头、金额、开票日期

2、分3点、每点用“1.xxx 2.xxx 3.xxx”格式
须注意与“大语言模型扩展能力格式遵从”的区分:原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换;扩展能力的格式遵从是调用外部格式工具
上下文学习 从例子中即时学会新任务 1、给模型上下文示例:
- 景色很美 -> 正面
- 服务太差 -> 负面
- 一般般还行 -> 中性
再给新句子:这家店味道很好,模型直接输出:正面

2、给模型上下文示例:
- 文本:张三在北京上班 -> 人名:张三,地点:北京
- 文本:李四去上海出差 -> 人名:李四,地点:上海
新输入:王五在广州读书,模型直接按照相同格式输出:人名:王五,地点:广州
/
指令跟随 执行多约束的复杂命令 1、用三句话简单介绍发票的作用,每句话不超过15个字

2、把这句话改成书面正式语气:今天天气挺不错的
/
角色扮演 采纳他人视角和知识状态 1、你现在是小学数学老师,给学生讲和差问题,语气温柔通俗

2、你现在是电商售后客服,礼貌回复用户退货咨询
/
自我纠错 检查并修正自己的输出 1、35乘以6等于多少?
- 模型初次输出:205
- 自我检查验算:35×6实际是210,刚才算错
- 自我纠错后输出:正确结果是210,刚才计算失误,已更正

2、中国首都是哪里?
- 模型初次输出:上海
- 自我检查纠错:上海是经济中心,刚才答案错误
- 自我纠错后输出:我国首都是北京
/
注意力缓存 把注意力相关中间结果缓存下来以加速推理 / 须注意与“大语言模型扩展能力上下文缓存”的区分:注意力缓存是Transformer模型的固有机制,属于原生能力;上下文缓存需要进行额外开发实现,属于扩展能力。日常说的命中缓存价格便宜,指的是注意力缓存
混合专家(Mixture of Experts,MoE) 大模型总参数 = 注意力层参数 + 前馈网络 (FFN) 参数 + 其他少量参数,其中前馈网络(FFN)参数占据绝大部分。

1、前期架构大语言模型,只有一个大FNN,对每个输入Token要激活全部FNN参数,推理成本高
2、MoE架构大语言模型,将大FFN拆成多个独立的子FFN,并称之为“专家”(Expert),然后对每个输入Token,只选Top‑k个专家进行处理,即只激活所选中专家(子FNN)参数,大幅度降低推理成本
/ /
思维链(Chain-of-Thought,CoT) 模型不直接给答案,先内部一步步推理、打草稿、拆解题思路,再输出最终答案,本质是:隐性推理过程显性化为文本,相当于给模型一张 “草稿纸”,用更多Token换更高准确率和可解释性 要求计算:(17 * 4) + (15 * 3)
1、首先,计算 17 * 4 -> 得出 68
2、然后,计算 15 * 3 -> 得出 45
3、最后,计算 68 + 45 -> 得出 113
最后基于这个草稿,回答:最终答案是113
常说的思考模式就是基于思维链,须注意,思考模式可能进行扩展,此时其属于扩展能力

2.2、扩展能力

能力项 含义 举例 其他
调用外部工具(Function Call) 模型能够调用外部工具,比如“搜索互联网”,“查询数据库”,“运行代码”,“调用API”等 1、调用JSON格式化工具,对输出结果进行JSON格式化
2、联网查询天气
调用JSON格式化工具须注意与“大语言模型原生能力之格式遵从”的区分:原生能力的格式遵从是大语言模型遵照学习得的格式进行输出转换;扩展能力的格式遵从是调用外部格式工具
多轮会话一致性 大语言模型在多轮会话中,能够记录历史会话内容,不前后矛盾 / /
调用权限管理 对调用进行权限管理,比如“基于用户登录”,“基于API_KEY” / /
多模态 原只能接受文本输入,扩展支持图像、视频、音频等输入 / /
会话补全 自动补全会话 / /
上下文缓存 把固定不变的长文本、前置提示词、知识库内容,提前编码算好存起来,下次直接复用,不用重复计算 一个会话场景(对大语言模型的角色设定为:你是资深法律顾问,严谨专业,只解答法律问题……(总共3000字)):
1、如果未开启上下文缓存功能,每次聊天,大语言模型都要把3000字角色设定从头编码计算一遍,慢且浪费Token
2、如果开启了上下文缓存功能,第一次聊天该功能会把3000字角色设定一次性编码进行缓存,之后所有聊天只需发本次聊天内容,上下文缓存功能会将已缓存的角色设定传递给大语言模型,快且节约Token
须注意与“大语言模型原生能力之注意力缓存”的区分:注意力缓存是Transformer模型的固有机制,属于原生能力;上下文缓存需要进行额外开发实现,属于扩展能力

三、大语言模型指标

指标项 含义 举例 其他
模型参数量 训练得到模型的参数量 各种层级都有,比如:
- Qwen3.5-2B:2B模型参数量
- MiMo-V2.5-Pro:1.02T模型参数量
- DeepSeek-V4-Pro:1.6T模型参数量
/
上下文窗口长度 大语言模型一次能读懂并处理的最大总Token数 比如:
- 4K上下文:一次能读懂并处理4千Token
- 32K上下文:一次能读懂并处理3.2万Token
- 128K上下文:一次能读懂并处理12万8千Token
/
最大输出Token 大语言模型最多能一次性给你生成多少Token的内容 / /
幻觉率 大语言模型一本正经编造不存在的事实、数据、人名、论文、政策的概率 / /
激活参数量 MoE架构大语言模型,推理时实际激活的参数量 比如:
- DeepSeek-MoE:<总参数:1.6T,激活参数:12.8B>,即每次推理只用约1/125的参数,速度快、成本低
- GLM-4.5:<总参数:355B,激活参数:32B>,即每次推理只用不到10%的参数,就能发挥大部分能力

四、市面大语言模型介绍

国内外存在诸多大语言模型,这里介绍国内DeepSeek(属于DeepSeek公司)、Qwen(属于阿里巴巴公司)、MiMo(属于小米公司)和Seed(属于字节跳动)四个品牌下的大语言模型。

关于介绍有两点说明:

  • 时效性:至博文成文时间
  • 简要介绍:一句话定位,详细内容见官网

4.1、DeepSeek[1]

DeepSeek品牌下大语言模型有:DeepSeek V4‑Pro和DeepSeek V4‑Flash。

大语言模型 一句话定位
DeepSeek V4‑Pro 旗舰全能型,主打顶级推理、复杂代码、高阶Agent与科研级能力,追求性能天花板
DeepSeek V4‑Flash 高效性价比型,主打极速响应、低成本、高并发,覆盖80%日常轻量商用场景

4.2、Seed[2]

Seed品牌下大语言模型有:Seed 2.0 Pro、Seed 2.0 Lite、Seed 2.0 Mini和Seed 2.0 Code。

大语言模型 一句话定位
Seed 2.0 Pro 全能力旗舰通用大模型,复杂重度业务首选,成本高、速度偏慢
Seed 2.0 Lite 商用均衡性价比主力,绝大多数商用业务首选,极致复杂推理不如Pro
Seed 2.0 Mini 超低时延轻量化推理,成本优先、高并发轻业务首选,深度思考差、长对话易失忆
Seed 2.0 Code 编程开发专项优化模型,开发编程场景首选,通用闲聊、创意创作、多模态能力薄弱

4.3、Qwen[3]

Qwen品牌下大语言模型有:Qwen3.6-Max、Qwen3.6-Plus和Qwen3.6-Flash。

大语言模型 一句话定位
Qwen3.6-Max 旗舰顶配,极限推理最强,攻坚复杂难题、深度逻辑与高阶创作首选
Qwen3.6-Plus 长文本全能主力,超大上下文容量,海量文档梳理、多轮深度对话优选
Qwen3.6-Flash 极速轻快版本,低延迟低成本,实时交互、高并发轻量化场景首选

4.4、MiMo[4]

MiMo品牌下大语言模型有:MiMo‑V2.5‑Pro和MiMo‑V2.5。

大语言模型 一句话定位
MiMo‑V2.5‑Pro 旗舰纯文本超级Agent,1.02T参数、专攻超长程复杂推理+顶级代码生成+千轮工具调用,性能对标Claude Opus
MiMo‑V2.5 原生全模态全能Agent,310B参数、文本/图像/视频/音频通吃,高性价比、日常多模态与通用任务首选

参考文献

[1]https://api-docs.deepseek.com/zh-cn
[2]https://www.volcengine.com/docs/82379/1330310?lang=zh
[3]https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/text
[4]https://platform.xiaomimimo.com/docs/zh-CN/welcome

您的支持将鼓励我继续分享!