《深度学习详解》(异步图书深度学习系列)王琦【文字版_PDF电子书_】
书名:深度学习详解 作者:王琦/江季 出版社:人民邮电出版社 译者:无 出版日期:2024-8 页数:375 ISBN:9787115642110 | 8.6 豆瓣评分 | 点击喜欢 | 全网资源sm.nayona.cn |
内容简介:
本书根据李宏毅老师“机器学习”公开课中与深度学习相关的内容编写而成,介绍了卷积神经网络、Transformer、生成模型、自监督学习(包括 BERT 和 GPT)等深度学习常见算法,并讲解了对抗攻击、领域自适应、强化学习、元学习、终身学习、网络压缩等深度学习相关的进阶算法. 在理论严谨的基础上,本书保留了公开课中大量生动有趣的例子,帮助读者从生活化的角度理解深度学习的概念、建模过程和核心算法细节。
作者简介:
王琦
上海交通大学人工智能教育部重点实验室博士研究生,硕士毕业于中国科学院大学.Datawhale成员,《Easy RL:强化学习教程》作者,英特尔边缘计算创新大使,Hugging Face社区志愿者,AI TIME成员.主要研究方向为强化学习、计算机视觉、深度学习.曾获“中国光谷·华为杯”第十九届中国研究生数学建模竞赛二等奖、中国大学生计算机设计大赛二等奖、亚太地区大学生数学建模竞赛(APMCM)二等奖和“挑战杯”全国大学生课外学术科技作品竞赛江苏省选拔赛二等奖等荣誉,发表SCI/EI论文多篇。
杨毅远
牛津大学计算机系博士研究生,硕士毕业于清华大学.Datawhale成员,《Easy RL:强化学习教程》作者.主要研究方向为时间序列、数据挖掘、智能传感系统,深度学习.曾获国家奖学金、北京市优秀毕业生、清华大学优秀硕士学位论文、全国大学生智能汽车竞赛总冠军等荣誉,发表SCI/EI论文多篇。
江季
网易高级算法工程师,硕士毕业于北京大学.Datawhale成员,《Easy RL:强化学习教程》作者.主要研究方向为强化学习、深度学习、大模型、机器人等.曾获得国家奖学金、上海市优秀毕业生等荣誉,取得强化学习与游戏AI等相关专利多项。
目 录:
第 1 章 机器学习基础 1
1.1 案例学习 2
1.2 线性模型 7
1.2.1 分段线性曲线 9
1.2.2 模型变形 17
1.2.3 机器学习框架 21
第 2 章 实践方法论 22
2.1 模型偏差 22
2.2 优化问题 23
2.3 过拟合 25
2.4 交叉验证 29
2.5 不匹配 30
参考资料 31
第 3 章 深度学习基础 32
3.1 局部最小值与鞍点 32
3.1.1 临界点及其种类 32
3.1.2 判断临界值种类的方法 33
3.1.3 逃离鞍点的方法 37
3.2 批量和动量 39
3.2.1 批量大小对梯度下降法的影响..40
3.2.2 动量法 45
3.3 自适应学习率 47
3.3.1 AdaGrad 50
3.3.2 RMSProp 53
3.3.3 Adam 54
3.4 学习率调度 54
3.5 优化总结 56
3.6 分类 57
3.6.1 分类与回归的关系 57
3.6.2 带有 softmax 函数的分类 58
3.6.3 分类损失 59
3.7 批量归一化 61
3.7.1 放入深度神经网络 64
3.7.2 测试时的批量归一化 67
3.7.3 内部协变量偏移 68
参考资料 69
第 4 章 卷积神经网络 71
4.1 观察 1:检测模式不需要整幅图像 .. 73
4.2 简化 1:感受野 74
4.3 观察 2:同样的模式可能出现在图像的不同区域 .. 78
4.4 简化 2:共享参数 79
4.5 简化 1 和简化 2 的总结 .. 81
4.6 观察 3:下采样不影响模式检测 .. 86
4.7 简化 3:汇聚 86
4.8 卷积神经网络的应用:下围棋 .. 88
参考资料 91
第 5 章 循环神经网络 92
5.1 独热编码 93
5.2 什么是 RNN 94
5.3 RNN 架构 96
5.4 其他 RNN 97
5.4.1 Elman 网络和 Jordan 网络 98
5.4.2 双向循环神经网络 98
5.4.3 LSTM 99
5.4.4 LSTM 举例 101
5.4.5 LSTM 运算示例 102
5.5 LSTM 网络原理 105
5.6 RNN 的学习方式 109
5.7 如何解决 RNN 的梯度消失或梯度爆炸问题..113
5.8 RNN 的其他应用 114
5.8.1 多对一序列 114
5.8.2 多对多序列 115
5.8.3 序列到序列 117
参考资料 119
第 6 章 自注意力机制 120
6.1 输入是向量序列的情况.. 120
6.1.1 类型 1:输入与输出数量相同 122
6.1.2 类型 2:输入是一个序列,输出是一个标签 123
6.1.3 类型 3:序列到序列任务 124
6.2 自注意力机制的运作原理..124
6.3 多头自注意力 134
6.4 位置编码 136
6.5 截断自注意力 138
6.6 对比自注意力与卷积神经网络 139
6.7 对比自注意力与循环神经网络 141
参考资料 143
第 7 章 Transformer 145
7.1 序列到序列模型 145
7.1.1 语音识别、机器翻译与语音翻译 145
7.1.2 语音合成 146
7.1.3 聊天机器人 147
7.1.4 问答任务 147
7.1.5 句法分析 148
7.1.6 多标签分类 149
7.2 Transformer 结构 149
7.3 Transformer 编码器 151
7.4 Transformer 解码器 154
7.4.1 自回归解码器 154
7.4.2 非自回归解码器 161
7.5 编码器–解码器注意力 162
7.6 Transformer 的训练过程 .. 164
7.7 序列到序列模型训练常用技巧 166
7.7.1 复制机制 166
7.7.2 引导注意力 166
7.7.3 束搜索 167
7.7.4 加入噪声 168
7.7.5 使用强化学习训练 168
7.7.6 计划采样 169
参考资料 170
第 8 章 生成模型 171
8.1 生成对抗网络 171
8.1.1 生成器 171
8.1.2 判别器 175
8.2 生成器与判别器的训练过程 176
8.3 GAN 的应用案例 178
8.4 GAN 的理论介绍 180
8.5 WGAN 算法 183
8.6 GAN 训练的难点与技巧 .. 188
8.7 GAN 的性能评估方法 190
8.8 条件型生成 194
8.9 CycleGAN 196
参考资料 199
第 9 章 扩散模型 201
9.1 扩散模型生成图片的过程..201
9.2 去噪模块 202
9.3 训练噪声预测器 203
第 10 章 自监督学习 206
10.1 BERT 207
10.1.1 BERT 的使用方式 211
10.1.2 BERT 有用的原因 221
10.1.3 BERT 的变体 227
10.2 GPT 230
参考资料 234
第 11 章 自编码器 235
11.1 自编码器的概念 235
11.2 为什么需要自编码器 237
11.3 去噪自编码器 238
11.4 自编码器应用之特征解耦 239
11.5 自编码器应用之离散隐表征 242
11.6 自编码器的其他应用 245
第 12 章 对抗攻击 246
12.1 对抗攻击简介 246
12.2 如何进行网络攻击 248
12.3 快速梯度符号法 251
12.4 白箱攻击与黑箱攻击 252
12.5 其他模态数据被攻击案例 256
12.6 现实世界中的攻击 256
12.7 防御方式中的被动防御 260
12.8 防御方式中的主动防御 262
第 13 章 迁移学习 264
13.1 领域偏移 264
13.2 领域自适应 265
13.3 领域泛化 271
参考资料 272
第 14 章 强化学习 273
14.1 强化学习的应用 274
14.1.1 玩电子游戏 274
14.1.2 下围棋 276
14.2 强化学习框架 276
14.2.1 第 1 步:定义函数 277
14.2.2 第 2 步:定义损失 278
14.2.3 第 3 步:优化 278
14.3 评价动作的标准 282
14.3.1 使用即时奖励作为评价标准 283
14.3.2 使用累积奖励作为评价标准 283
14.3.3 使用折扣累积奖励作为评价标准..284
14.3.4 使用折扣累积奖励减去基线作为评价标准.. 285
14.3.5 Actor-Critic 288
14.3.6 优势 Actor-Critic 293
参考资料 294
第 15 章 元学习 295
15.1 元学习的概念 295
15.2 元学习的三个步骤 296
15.3 元学习与机器学习 299
15.4 元学习的实例算法 301
15.5 元学习的应用 305
参考资料 306
第 16 章 终身学习 307
16.1 灾难性遗忘 307
16.2 终身学习的评估方法 311
16.3 终身学习问题的主要解法 312
第 17 章 网络压缩 316
17.1 网络剪枝 316
17.2 知识蒸馏 321
17.3 参数量化 324
17.4 网络架构设计 325
17.5 动态计算 329
参考资料 332
第 18 章 可解释性机器学习 333
18.1 可解释性人工智能的重要性 333
18.2 决策树模型的可解释性 334
18.3 可解释性机器学习的目标 335
18.4 可解释性机器学习中的局部解释 335
18.5 可解释性机器学习中的全局解释 342
18.6 扩展与小结 345
参考资料 345
第 19 章 ChatGPT 346
19.1 ChatGPT 简介和功能 346
19.2 对 ChatGPT 的误解 346
19.3 ChatGPT 背后的关键技术——预训练..349
19.4 ChatGPT 带来的研究问题 352
索引 354
浏览器不支持脚本!
有需要联系v;hx-hx4
摘要:深度学习作为当今人工智能领域的重要组成部分,正在引领技术的变革。《深度学习详解》(异步图书深度学习系列)是由王琦撰写的一本系统性教材,旨在为读者提供全面的深度学习知识。本书通过理论与实践相结合的方式,深入剖析了深度学习的基本概念、核心算法、应用案例及未来发展趋势,适合初学者与有一定基础的研究者阅读。书中还结合了大量的实例与代码,帮助读者更好地理解和应用深度学习技术,为其在数据科学和人工智能领域的探索提供了坚实的基础。
1、深度学习的基础概念
深度学习是一种机器学习的分支,主要通过模拟人脑神经元的工作方式进行数据处理和特征提取。与传统机器学习方法不同,深度学习能够自动从原始数据中学习特征,减少了人工特征工程的需要。王琦在书中详细解释了深度学习的基本框架,包括人工神经网络的结构、前馈神经网络、卷积神经网络(CNN)和递归神经网络(RNN)等,这些都是深度学习的核心组成部分。
此外,书中还讨论了深度学习与其他机器学习算法的区别,以及其在图像识别、语音识别和自然语言处理等领域的广泛应用。这些内容为读者提供了一个清晰的深度学习入门指导,帮助他们理解其背后的理论基础和实际价值。
深度学习的成功在于其强大的计算能力和丰富的数据资源。王琦特别强调了大规模数据集的使用对训练深度模型的重要性,同时介绍了各种优化算法,如随机梯度下降(SGD)、Adam和RMSprop等,这些都是提高模型性能的关键。
2、深度学习的核心算法
在本书的第二部分,王琦详细探讨了深度学习中的核心算法,包括反向传播算法、卷积运算和池化操作等。反向传播算法是训练神经网络的基本方法,通过计算损失函数的梯度并更新模型参数,使得模型能够逐步优化。书中通过简单易懂的数学推导,帮助读者深入理解这一算法的原理及其在实际应用中的重要性。
卷积运算是卷积神经网络的基础,书中详细讲解了卷积层如何提取输入数据中的特征,以及不同卷积核对特征提取效果的影响。此外,池化操作的引入能够有效减少计算量,并在一定程度上防止过拟合。王琦通过实例演示了如何构建一个简单的卷积神经网络,进一步增强了读者的实践能力。
此外,书中还提到了一些高级算法,如生成对抗网络(GAN)和长短期记忆网络(LSTM),这些都是深度学习领域的前沿技术。通过对这些算法的介绍,读者可以更好地把握深度学习的发展动态和研究热点。
3、深度学习的应用案例
王琦在书中精选了多个深度学习的应用案例,涵盖了计算机视觉、自然语言处理和语音识别等多个领域。例如,在计算机视觉中,卷积神经网络被广泛应用于图像分类、目标检测和图像生成等任务。书中详细分析了如何利用深度学习技术解决实际问题,并通过具体的代码示例加深了读者的理解。
在自然语言处理领域,书中介绍了循环神经网络及其变种,特别是长短期记忆网络(LSTM)如何应用于文本生成和机器翻译。通过对比不同模型的效果,王琦让读者直观感受到深度学习技术在处理语言数据时的优势。
此外,书中还讨论了深度学习在医疗影像分析、金融风控等行业的应用。这些案例不仅展示了深度学习的强大能力,也为读者提供了灵感,鼓励他们将深度学习技术应用于更多实际场景中。
4、深度学习的未来发展
在书的最后部分,王琦展望了深度学习的未来发展方向,指出随着计算能力的提升和数据量的增加,深度学习将会更加深入人们的生活。尤其是在自动驾驶、智能家居和个性化推荐等领域,深度学习的应用前景广阔。
王琦强调了跨学科研究的重要性,深度学习不仅需要计算机科学的知识,还需要与其他领域如生物学、心理学等相结合,推动智能系统的进一步发展。未来的研究将更多地聚焦于可解释性和安全性问题,以确保深度学习技术的可持续发展。
书中还提出了一些可能的研究挑战,如如何减少模型的计算复杂度、提高模型的训练效率,以及如何处理小样本学习等问题。这些挑战将引导未来的研究方向,激励更多学者和工程师投身于深度学习的研究与应用。
总结:
通过对《深度学习详解》的深入分析,我们可以看到王琦对深度学习的全面理解和深入探讨。这本书不仅为初学者提供了系统的知识框架,也为有经验的研究者指明了未来的发展方向。深度学习作为一种强大的工具,其应用潜力仍然在不断扩展。
总的来说,《深度学习详解》是一本不可或缺的参考书籍,无论是对想要进入人工智能领域的学生,还是在相关领域工作的专业人士,都具有重要的指导意义。深度学习的未来充满希望,让我们共同期待它带来的更多创新与变革。
本文由nayona.cn整理
联系我们
关注公众号