主流大语言模型的技术原理细节-摩杜云开发者社区

主流大语言模型的技术原理细节

ej6Fb1sGOJN2 2023年11月01日 52 0

AI综合

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。
2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3. 大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

作者：spring

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： Teacher Forcing 下一篇： Stable Diffusion基础：ControlNet之重新上色（黑白照片换新颜）

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

第六届·2024 MindSpore 量子计算黑客松热身赛赛题解读

YqbaJkf98QJO 2024年05月17日 73 0 0 AI综合

读天才与算法：人脑与AI的数学思维笔记24_预测性文本生成器

BD8Mqa3Ktdyv 2024年05月17日 44 0 0 AI综合

读人工智能时代与人类未来笔记01_重塑人类社会秩序

BD8Mqa3Ktdyv 2024年05月17日 37 0 0 AI综合

RustDesk 自建服务器部署和使用教程

166Ve614hKdJ 2024年05月17日 44 0 0 AI综合

读人工智能时代与人类未来笔记08_全球网络平台

BD8Mqa3Ktdyv 2024年05月20日 36 0 0 AI综合

用ChatGPT-4生成三体世界中的著名场景

oaRbYQvpZaaT 2024年05月20日 47 0 0 AI综合

全民AI的时代，如何创建一个属于自己的AI机器人

oaRbYQvpZaaT 2024年05月20日 55 0 0 AI综合

PaliGemma 正式发布 — Google 最新发布的前沿开放视觉语言模型

QKcLjRV1cZqV 2024年05月18日 51 0 0 AI综合

读人工智能时代与人类未来笔记06_机器学习的力量

BD8Mqa3Ktdyv 2024年05月18日 68 0 0 AI综合

开源RAG框架汇总

yCJS27XXARYK 2024年05月17日 63 0 0 AI综合

AI已来，我与AI一起用Python编写了一个消消乐小游戏

CCMY6VB0yzoR 2024年05月17日 68 0 0 AI综合

InLine Chat功能优化对标Github Copilot，CodeGeeX带来更高效、更直观的编程体验！

aEHR1Z2tWTaD 2024年05月17日 47 0 0 AI综合

OpenVoiceV2本地部署教程,苹果MacOs部署流程,声音响度统一,文字转语音,TTS

xvI3oTgzRc2D 2024年05月17日 64 0 0 AI综合

读人工智能时代与人类未来笔记07_人工智能往何处去

BD8Mqa3Ktdyv 2024年05月20日 46 0 0 AI综合

读人工智能时代与人类未来笔记03_演变

BD8Mqa3Ktdyv 2024年05月17日 33 0 0 AI综合

Photoshop AI生成式填充工具，PS AI怎么用，怎么注册升级PS AI账号？

En07e7YvOk1U 2024年05月17日 61 0 0 AI综合

读人工智能时代与人类未来笔记02_技术变革

BD8Mqa3Ktdyv 2024年05月17日 48 0 0 AI综合

读天才与算法：人脑与AI的数学思维笔记23_人工智能讲故事

BD8Mqa3Ktdyv 2024年05月17日 61 0 0 AI综合

读天才与算法：人脑与AI的数学思维笔记22_中文房间

BD8Mqa3Ktdyv 2024年05月17日 43 0 0 AI综合

AI 一键生成高清短视频，视频 UP 主们卷起来...

166Ve614hKdJ 2024年05月17日 40 0 0 AI综合

ej6Fb1sGOJN2

作者其他文章更多

分布式亿级流量整体架构设计原则

2023-11-12

.netframework迁移到.netcore方法

2023-11-06

使用try-convert将.NET Framework项目迁移到.NET Core

2023-11-06

架构师必备的37项技能清单

2023-11-02

ChatGPT是如何产生心智的？

2023-11-02

如何保障MySQL和Redis的数据一致性？

2023-11-02

用惨痛教训换来的156条MySQL设计规约

2023-11-02

浅谈MySQL读写分离的坑以及应对的方案

2023-11-02

架构应用总结

2023-11-02

架构设计如何绘图?

2023-11-02

最新推荐更多

聊聊大模型的屏蔽词工程

2024-04-16

深度学习基本概念简介

2024-04-16

读天才与算法：人脑与AI的数学思维笔记01_洛夫莱斯测试

2024-04-16

RAG算法优化+新增代码仓库支持，CodeGeeX的@repo功能效果提升

2024-04-16

机器学习基本概念简介

2024-04-15

GPT连问工具随想

2024-04-15

读所罗门的密码笔记20_更好的自己

2024-04-15

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

2024-04-15

Pytorch DistributedDataParallel（DDP）教程二：快速入门实践篇

2024-04-15

向量数据库之Lancedb学习记录

2024-04-15

读所罗门的密码笔记19_治理模式

2024-04-14

解密prompt系列27. LLM对齐经验之如何降低通用能力损失

2024-04-13

读所罗门的密码笔记18_大宪章

2024-04-13

向量数据库Chroma学习记录

2024-04-13

最全能的AI换脸软件，FaceFusion下载介绍（可直播）

2024-04-13

“大模型驱动的软件研发” 华为云助推企业研发智能化升级

2024-04-12

读所罗门的密码笔记17_网络安全

2024-04-12

基于香橙派AIpro将开源框架模型转换为昇腾模型

2024-04-12

元启发式算法库 MEALPY 初体验-遗传算法为例

2024-04-11

读所罗门的密码笔记16_直通心智

2024-04-11