《大模型技术30讲》塞巴斯蒂安·拉施卡

如何自学 占星术 占星教程网盘 塔罗牌教程百度网盘

《大模型技术30讲》塞巴斯蒂安·拉施卡【文字版_PDF电子书_】

《大模型技术30讲》封面图片

书名:大模型技术30讲
作者:[美]塞巴斯蒂安·拉施卡(SebastianRaschka)
出版社:人民邮电出版社
译者:叶文滔
出版日期:2025-2-27
页数:182
ISBN:9787115659835
7.7
豆瓣评分
孔网购买全网资源sm.nayona.cn

内容简介:

本书采用独特的一问一答式风格,探讨了当今机器学习和人工智能领域中最重要的30 个问题,旨在帮助读者了解最新的技术进展。全书共分为五个部分:神经网络与深度学习、计算机视觉、自然语言处理、生产与部署、预测性能与模型评测。每一章都围绕一个问题展开,不仅针对问题做出了相应的解释,并配有若干图表,还给出了练习供读者检验自身是否已理解所学内容。

本书适合机器学习初学者以及相关从业者和研究人员阅读。

作者简介:

塞巴斯蒂安·拉施卡(Sebastian Raschka)

极具影响力的人工智能专家,GitHub项目LLMs-from-scratch的star数达40.2k。

现在大模型独角兽公司Lightning AI任资深研究工程师。博士毕业于密歇根州立大学,2018~2023年威斯康星大学麦迪逊分校助理教授(终身教职),从事深度学习科研和教学。

除本书外,他还写作了畅销书《从零构建大模型》和《Python机器学习》。

目  录:

第一部分 神经网络与深度学习

第1章 嵌入、潜空间和表征 2

1.1 嵌入 2

1.2 潜空间 4

1.3 表征 4

1.4 练习 5

1.5 参考文献 5

第2章 自监督学习 6

2.1 自监督学习与迁移学习 6

2.2 使用无标签数据 8

2.3 自预测与对比自监督学习 8

2.4 练习 10

2.5 参考文献 10

第3章 小样本学习 12

3.1 数据集与术语 12

3.2 练习 14

第4章 彩票假设 15

4.1 彩票假设的训练流程 15

4.2 实际意义与局限性 16

4.3 练习 17

4.4 参考文献 17

第5章 利用数据来减少过拟合现象 18

5.1 常用方法 18

5.1.1 采集更多数据 18

5.1.2 数据增强 19

5.1.3 预训练 20

5.2 其他方法 20

5.3 练习 21

5.4 参考文献 21

第6章 通过改进模型减少过拟合现象 23

6.1 常用方法 23

6.1.1 正则化 23

6.1.2 选择更小的模型 25

6.1.3 集成方法 26

6.2 其他方法 27

6.3 选择正则化技术 28

6.4 练习 28

6.5 参考文献 28

第7章 多GPU训练模式 30

7.1 训练模式 30

7.1.1 模型并行 30

7.1.2 数据并行 31

7.1.3 张量并行 31

7.1.4 流水线并行 32

7.1.5 序列并行 33

7.2 建议 34

7.3 练习 34

7.4 参考文献 34

第8章 Transformer架构的成功 36

8.1 注意力机制 36

8.2 通过自监督学习进行预训练 37

8.3 大规模参数 38

8.4 轻松并行化 38

8.5 练习 39

8.6 参考文献 39

第9章 生成式AI模型 40

9.1 生成式模型与判别式模型 40

9.2 深度生成式模型的类型 41

9.2.1 能量模型 41

9.2.2 变分自编码器 42

9.2.3 生成对抗网络 43

9.2.4 流模型 43

9.2.5 自回归模型 44

9.2.6 扩散模型 45

9.2.7 一致性模型 46

9.3 建议 47

9.4 练习 47

9.5 参考文献 47

第10章 随机性的由来 48

10.1 模型权重初始化 48

10.2 数据集采样与重排 49

10.3 非确定性算法 49

10.4 不同运行时的算法 50

10.5 硬件与驱动程序 51

10.6 随机性与生成式AI 51

10.7 练习 53

10.8 参考文献 53

第二部分 计算机视觉

第11章 计算参数量 56

11.1 如何计算参数量 56

11.1.1 卷积层 57

11.1.2 全连接层 58

11.2 实际应用 59

11.3 练习 60

第12章 全连接层和卷积层 61

12.1 当卷积核与输入大小相同时 62

12.2 当卷积核大小为1时 63

12.3 建议 63

12.4 练习 63

第13章 ViT架构所需的大型训练集 64

13.1 CNN中的归纳偏置 64

13.2 ViT可以比CNN表现得更好 67

13.3 ViT中的归纳偏置 67

13.4 建议 68

13.5 练习 69

13.6 参考文献 69

第三部分 自然语言处理

第14章 分布假设 72

14.1 Word2vec、BERT和GPT 73

14.2 假设成立吗 74

14.3 练习 75

14.4 参考文献 75

第15章 文本数据增强 76

15.1 同义词替换 76

15.2 词语删除 77

15.3 词语位置交换 77

15.4 句子乱序 77

15.5 噪声注入 78

15.6 回译 78

15.7 合成数据生成 79

15.8 建议 79

15.9 练习 80

15.10 参考文献 80

第16章 自注意力 81

16.1 RNN中的注意力 81

16.2 自注意力机制 83

16.3 练习 84

16.4 参考文献 84

第17章 编码器和解码器风格的

Transformer架构 85

17.1 原始的Transformer 85

17.1.1 编码器 87

17.1.2 解码器 88

17.2 编码器 解码器混合模型 89

17.3 专业术语 89

17.4 当代Transformer模型 90

17.5 练习 91

17.6 参考文献 91

第18章 使用和微调预训练

Transformer 92

18.1 使用Transformer执行分类任务 92

18.2 上下文学习、索引和提示词调优 94

18.3 参数高效的微调方法 97

18.4 基于人类反馈的强化学习 102

18.5 适配预训练语言模型 102

18.6 练习 103

18.7 参考文献 103

第19章 评测生成式大模型 104

19.1 大模型的评测指标 104

19.1.1 困惑度 105

19.1.2 BLEU 106

19.1.3 ROUGE 107

19.1.4 BERTScore 109

19.2 替代指标 110

19.3 练习 110

19.4 参考文献 110

第四部分 生产与部署

第20章 无状态训练与有状态训练 114

20.1 无状态(重)训练 114

20.2 有状态训练 115

20.3 练习 115

第21章 以数据为中心的人工智能 117

21.1 以数据为中心的人工智能与以模型

为中心的人工智能 117

21.2 建议 119

21.3 练习 119

21.4 参考文献 120

第22章 加速推理 121

22.1 并行化 121

22.2 向量化 122

22.3 循环分块 123

22.4 算子融合 123

22.5 量化 124

22.6 练习 125

22.7 参考文献 125

第23章 数据分布偏移 126

23.1 协变量偏移 126

23.2 标签偏移 127

23.3 概念偏移 128

23.4 领域偏移 128

23.5 数据分布偏移的类型 129

23.6 练习 130

23.7 参考文献 130

第五部分 预测性能与模型评测

第24章 泊松回归与序回归 132

第25章 置信区间 134

25.1 定义置信区间 134

25.2 方法 136

25.2.1 方法1:正态近似区间 136

25.2.2 方法2:使用自助法构建

训练集 137

25.2.3 方法3:使用自助抽样法

构建测试集预测结果 139

25.2.4 方法4:使用不同的随机

种子重新训练模型 140

25.3 练习 141

25.4 参考文献 141

第26章 置信区间与共形预测 142

26.1 置信区间和预测区间 142

26.2 预测区间与共形预测 143

26.3 预测区域、预测区间与预测集合 143

26.4 计算共形预测 143

26.5 共形预测示例 145

26.6 共形预测的优点 146

26.7 建议 146

26.8 练习 146

26.9 参考文献 147

第27章 合适的模型度量 148

27.1 标准 148

27.2 均方误差 149

27.3 交叉熵损失 150

27.4 练习 151

第28章 k折交叉验证中的k 152

28.1 选择k值时的权衡考量 153

28.2 确定适当的k值 154

28.3 练习 154

28.4 参考文献 155

第29章 训练集和测试集的不一致性 156

第30章 有限的有标签数据 158

30.1 利用有限的有标签数据提高模型

性能 158

30.1.1 标注更多数据 158

30.1.2 自助抽样数据 158

30.1.3 迁移学习 159

30.1.4 自监督学习 159

30.1.5 主动学习 160

30.1.6 小样本学习 160

30.1.7 元学习 161

30.1.8 弱监督学习 161

30.1.9 半监督学习 162

30.1.10 自训练 163

30.1.11 多任务学习 163

30.1.12 多模态学习 164

30.1.13 归纳偏置 165

30.2 建议 165

30.3 练习 167

30.4 参考文献 167

后记 168

附录 练习答案 169

浏览器不支持脚本!

摘要:《大模型技术30讲》是塞巴斯蒂安·拉施卡围绕大语言模型发展脉络、核心原理与实践应用所展开的一部系统性著作。全书以通俗而严谨的方式,深入解析了大模型从基础神经网络到Transformer架构的发展过程,并结合训练方法、数据处理、模型优化以及实际部署等内容,构建起完整的知识体系。书中不仅关注技术原理的讲解,还强调工程实践与产业应用之间的联系,使读者能够从理论认知逐步走向实际操作。面对人工智能快速发展的时代背景,该书以丰富案例和清晰逻辑展现了大模型技术的演进规律,帮助读者理解语言模型为何能够展现出强大的推理、生成和交互能力。同时,作者还对未来人工智能的发展趋势进行了展望,引导读者思考技术创新、产业变革以及社会影响之间的关系。作为一本兼具学术深度与实践价值的技术读物,《大模型技术30讲》为理解当代人工智能浪潮提供了重要参考。

大模型基础理论解析

《大模型技术30讲》首先从人工智能和机器学习的基础知识切入,为读者搭建理解大模型的理论框架。书中详细介绍了神经网络的发展历程,使读者能够了解深度学习为何成为推动人工智能进步的重要力量。从感知机到多层神经网络,再到深度神经网络的不断演进,技术的发展逻辑得到了清晰呈现。

在讲解过程中,作者特别强调数据、算法与算力三大要素的重要作用。数据决定模型学习的广度与深度,算法决定模型的学习效率与表达能力,而算力则成为训练超大规模模型的重要保障。三者之间的协同发展,共同推动了现代人工智能技术的快速进步。

为了帮助读者理解复杂概念,书中采用大量实例说明模型学习的过程。无论是参数更新、损失函数计算,还是梯度下降优化方法,都通过简洁易懂的语言进行解释,使抽象理论具备较强的可理解性。

与此同时,作者还分析了传统机器学习与深度学习之间的区别。相比依赖人工特征工程的方法,深度学习能够自动提取特征,从而在图像识别、语音处理以及自然语言处理等领域取得突破性成果。

这些基础内容虽然属于大模型技术体系的起点,却决定了后续学习的深度与广度。通过扎实的理论铺垫,读者能够建立完整的知识结构,为理解更加复杂的大模型架构做好准备。

核心架构演进过程

Transformer架构是现代大模型的核心基础,《大模型技术30讲》对此进行了系统阐释。作者从传统循环神经网络和长短期记忆网络存在的问题谈起,说明序列建模过程中效率与长距离依赖关系处理方面的局限性。

随后,书中重点介绍了Transformer的创新思想。通过自注意力机制,模型能够同时关注输入序列中的不同位置,从而实现更加高效的信息处理。这种机制不仅提升了训练效率,也增强了模型理解复杂语义关系的能力。

在架构解析部分,作者详细说明了编码器与解码器的工作流程。多头注意力机制、位置编码以及前馈神经网络等模块之间的协同作用,被拆解成多个易于理解的知识点,使复杂结构变得清晰可见。

随着内容不断深入,书中进一步介绍了GPT系列模型的发展路径。从预训练思想的提出,到参数规模持续扩大,再到生成能力不断增强,大模型逐渐展现出接近通用人工智能的发展趋势。

作者还对不同模型架构进行了横向比较,包括编码器模型、解码器模型以及编码器—解码器混合模型的特点与适用场景。这种比较分析帮助读者理解为何不同任务需要采用不同技术方案。

训练优化实践方法

大模型的强大能力离不开复杂而系统的训练过程。《大模型技术30讲》对预训练、微调以及对齐训练等关键环节进行了深入分析,展示了模型能力形成的全过程。

在预训练部分,作者介绍了海量文本数据的重要价值。模型通过预测文本内容学习语言规律,从而获得丰富的知识表示能力。预训练阶段虽然成本巨大,却为后续应用奠定了坚实基础。

针对微调技术,书中分析了如何利用特定领域数据提升模型表现。无论是金融、医疗还是教育场景,通过针对性训练,模型都能够获得更加专业的知识能力和任务执行效果。

在人类反馈强化学习相关内容中,作者解释了模型对齐的重要意义。通过引入人类评价信息,模型能够更好地理解用户意图,并生成符合实际需求的输出结果,从而提升交互体验。

此外,书中还探讨了参数高效微调、模型压缩以及推理优化等技术。面对不断增长的模型规模,如何降低训练成本和部署成本已经成为行业关注重点,而这些优化技术正是解决问题的重要途径。

产业应用未来趋势

除了技术原理之外,《大模型技术30讲》还将视角延伸至产业应用层面。作者通过多个实际案例展示了大模型在内容创作、智能客服、教育培训以及办公自动化等领域的广泛应用。

在企业数字化转型过程中,大模型正逐渐成为提升效率的重要工具。通过自然语言交互方式,企业能够快速获取知识、生成文档以及处理复杂信息,从而降低运营成本并提升决策效率。

书中还分析了大模型与搜索引擎、知识库以及智能代理结合的发展方向。随着工具调用能力不断增强,大模型正在从单纯的信息生成工具转变为具备任务执行能力的智能系统。

面对技术快速发展,作者同样关注人工智能带来的挑战。数据安全、隐私保护、模型偏见以及内容真实性等问题,都是未来需要持续研究和解决的重要议题。

在未来展望部分,书中指出多模态模型、智能体系统以及更高层次推理能力的发展潜力。随着算法创新和硬件升级不断推进,大模型有望在更多行业创造价值,并推动社会生产方式发生深刻变革。

总结:

《大模型技术30讲》以系统化的知识结构和清晰的逻辑脉络,全面展示了大模型技术的发展历程、核心原理、训练方法以及产业应用价值。通过循序渐进的讲解方式,读者不仅能够掌握关键技术概念,还能够理解人工智能产业快速发展的内在驱动力。

从基础理论到前沿实践,从模型架构到未来趋势,塞巴斯蒂安·拉施卡通过丰富案例和深入分析,构建出完整的大模型知识图谱。这本书既适合希望进入人工智能领域的学习者,也能够为从业人员提供系统参考,对于理解当代人工智能技术具有重要意义。

本文由nayona.cn整理

点击联系需要东西方神秘学学习资料,专业的咨询

只要网页介绍资料,全部都有,还有很多还没来得及更新
每天更新200-300款资料
全网最大最全的神秘学资料平台
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
请需要什么资料,直接在对话框直接联系我,24小时在线,方便快捷
有看中网站记得联系我
图片2            

联系我们

图片2

关注公众号

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
雅书雅书
上一篇 2026年6月1日 上午12:14
下一篇 2026年6月1日 上午12:15
易学资料

对占星塔罗感兴趣关注公众号

相关推荐

需要资源第一时间和网页弹窗客服联系