深度学习
作 者:[美]IanGoodfellow(伊恩·古德费洛),[加]YoshuaBengio(约书亚·本吉奥),[加]AaronCourville(亚伦·库维尔)
定 价:168
出版社:人民邮 出版社
出版日期:2017-08-01
装 帧:简装
ISBN:9787115461476
目录
第 1 章 引言.. 1
1.1 本书面向的读者. .7
1.2 深度学习的历史趋势..8
1.2.1 神经网络的众多名称和命运变迁. 8
1.2.2 与日俱增的数据量.. 12
1.2.3 与日俱增的模型规模. .13
1.2.4 与日俱增的精度、复杂度和对现实世界的冲击..15
第 1 部分 应用数学与机器学习基础
第 2 章 线性代数 19
2.1 标量、向量、矩阵和张量. 19
2.2 矩阵和向量相乘. . .21
2.3 单位矩阵和逆矩阵 22
2.4 线性相关和生成子空间. . 23
2.5 范数.. . .24
2.6 特殊类型的矩阵和向量. . 25
2.7 特征分解 . 26
2.8 奇异值分解.. . 28
2.9 Moore-Penrose 伪逆..28
2.10 迹运算29
2.11 行列式30
2.12 实例:主成分分析 . .30
第 3 章 概率与信息论.. .34
3.1 为什么要使用概率 34
3.2 随机变量 . 35
3.3 概率分布 . 36
3.3.1 离散型变量和概率质量函数.. 36
3.3.2 连续型变量和概率密度函数.. 36
3.4 边缘概率 . 37
3.5 条件概率 . 37
3.6 条件概率的链式法则.. . 38
3.7 独立性和条件独立性.. . 38
3.8 期望、方差和协方差.. . 38
3.9 常用概率分布.39
3.9.1 Bernoulli 分布 40
3.9.2 Multinoulli 分布.. . 40
3.9.3 高斯分布.40
3.9.4 指数分布和 Laplace 分布..41
3.9.5 Dirac 分布和经验分布42
3.9.6 分布的混合. 42
3.10 常用函数的有用性质.. . .43
3.11 贝叶斯规则.. 45
3.12 连续型变量的技术细节. 45
3.13 信息论47
3.14 结构化概率模型 . 49
第 4 章 数值计算 52
4.1 上溢和下溢.. . 52
4.2 病态条件 . 53
4.3 基于梯度的优化方法.. . 53
4.3.1 梯度之上:Jacobian 和 Hessian 矩阵.. . 56
4.4 约束优化 . 60
4.5 实例:线性最小二乘.. . 61
第 5 章 机器学习基础.. .63
5.1 学习算法 . 63
5.1.1 任务 T.. 63
5.1.2 性能度量 P. 66
5.1.3 经验 E.. . 66
5.1.4 示例:线性回归..68
5.2 容量、过拟合和欠拟合.70
5.2.1 没有免费午餐定理.. 73
5.2.2 正则化.. . 74
5.3 超参数和验证集. . .76
5.3.1 交叉验证.76
5.4 估计、偏差和方差.77
5.4.1 点估计.. . 77
5.4.2 偏差 78
5.4.3 方差和标准差 . 80
5.4.4 权衡偏差和方差以最小化均方误差 81
5.4.5 一致性.. . 82
5.5 最大似然估计.82
5.5.1 条件对数似然和均方误差 . .84
5.5.2 最大似然的性质..84
5.6 贝叶斯统计.. . 85
5.6.1 最大后验 (MAP) 估计87
5.7 监督学习算法.88
5.7.1 概率监督学习 . 88
5.7.2 支持向量机. 88
5.7.3 其他简单的监督学习算法 . .90
5.8 无监督学习算法. . .91
5.8.1 主成分分析. 92
5.8.2 k-均值聚类. .94
5.9 随机梯度下降.94
5.10 构建机器学习算法..96
5.11 促使深度学习发展的挑战 . 96
5.11.1 维数灾难. . 97
5.11.2 局部不变性和平滑正则化.. . 97
5.11.3 流形学习. . 99
第 2 部分 深度网络:现代实践
第 6 章 深度前馈网络. 105
6.1 实例:学习 XOR. 107
6.2 基于梯度的学习 . 110
6.2.1 代价函数. . 111
6.2.2 输出单元. . 113
6.3 隐藏单元 . .119
6.3.1 整流线性单元及其扩展 120
6.3.2 logistic sigmoid 与双曲正切函数 . 121
6.3.3 其他隐藏单元 122
6.4 架构设计 . .123
6.4.1 万能近似性质和深度. . .123
6.4.2 其他架构上的考虑. . .126
6.5 反向传播和其他的微分算法 .126
6.5.1 计算图.. 127
6.5.2 微积分中的链式法则. . .128
6.5.3 递归地使用链式法则来实现反向传播.. 128
6.5.4 全连接 MLP 中的反向传播计算 . 131
6.5.5 符号到符号的导数. . .131
6.5.6 一般化的反向传播. . .133
6.5.7 实例:用于 MLP 训练的反向传播135
6.5.8 复杂化.. 137
6.5.9 深度学习界以外的微分 137
6.5.10 高阶微分. 138
6.6 历史小记 . .139
第 7 章 深度学习中的正则化.141
7.1 参数范数惩罚. . 142
7.1.1 L2 参数正则化..142
7.1.2 L1 正则化. 144
7.2 作为约束的范数惩罚.. . .146
7.3 正则化和欠约束问题.. . .147
7.4 数据集增强.. 148
7.5 噪声鲁棒性.. 149
7.5.1 向输出目标注入噪声. . .150
7.6 半监督学习.. 150
7.7 多任务学习.. 150
7.8 提前终止 . .151
7.9 参数绑定和参数共享.. . .156
7.9.1 卷积神经网络 156
7.10 稀疏表示 .157
7.11 Bagging 和其他集成方法.158
7.12 Dropout159
7.13 对抗训练 .165
7.14 切面距离、正切传播和流形正切分类器. . 167
第 8 章 深度模型中的优化 .169
8.1 学习和纯优化有什么不同 . 169
8.1.1 经验风险最小化.. . 169
8.1.2 代理损失函数和提前终止.. . 170
8.1.3 批量算法和小批量算法 170
8.2 神经网络优化中的挑战. 173
8.2.1 病态..173
8.2.2 局部极小值174
8.2.3 高原、鞍点和其他平坦区域..175
8.2.4 悬崖和梯度爆炸.. . 177
8.2.5 长期依赖. . 177
8.2.6 非精确梯度178
8.2.7 局部和全局结构间的弱对应.178
8.2.8 优化的理论限制.. . 179
8.3 基本算法 . .180
8.3.1 随机梯度下降 180
8.3.2 动量..181
8.3.3 Nesterov 动量 . .183
8.4 参数初始化策略 . 184
8.5 自适应学习率算法..187
8.5.1 AdaGrad. 187
8.5.2 RMSProp. 188
8.5.3 Adam.. . 189
8.5.4 选择正确的优化算法. . .190
8.6 二阶近似方法. . 190
8.6.1 牛顿法.. 190
8.6.2 共轭梯度. . 191
8.6.3 BFGS 193
8.7 优化策略和元算法..194
8.7.1 批标准化. . 194
8.7.2 坐标下降. . 196
8.7.3 Polyak 平均 . 197
8.7.4 监督预训练197
8.7.5 设计有助于优化的模型 199
8.7.6 延拓法和课程学习. . .199
第 9 章 卷积网络..201
9.1 卷积运算 . .201
9.2 动机. . 203
9.3 池化. . 207
9.4 卷积与池化作为一种无限强的先验 210
9.5 基本卷积函数的变体.. . .211
9.6 结构化输出.. 218
9.7 数据类型 . .219
9.8 高效的卷积算法 . 220
9.9 随机或无监督的特征.. . .220
9.10 卷积网络的神经科学基础 221
9.11 卷积网络与深度学习的历史.. 226
第 10 章 序列建模:循环和递归网络.. 227
10.1 展开计算图.228
10.2 循环神经网络.230
10.2.1 导师驱动过程和输出循环网络232
10.2.2 计算循环神经网络的梯度.. 233
10.2.3 作为有向图模型的循环网络. . 235
10.2.4 基于上下文的 RNN 序列建模237
10.3 双向 RNN.. 239
10.4 基于编码 - 解码的序列到序列架构 240
10.5 深度循环网络.242
10.6 递归神经网络.243
10.7 长期依赖的挑战 244
10.8 回声状态网络.245
10.9 渗漏单元和其他多时间尺度的策略..247
10.9.1 时间维度的跳跃连接. .247
10.9.2 渗漏单元和一系列不同时间尺度 247
10.9.3 删除连接. 248
10.10 长短期记忆和其他门控 RNN. 248
10.10.1 LSTM. . 248
10.10.2 其他门控 RNN.. . .250
10.11 优化长期依赖. .251
10.11.1 截断梯度251
10.11.2 引导信息流的正则化 252
10.12 外显记忆.. 253
第 11 章 实践方法论. . 256
11.1 性能度量 .256
11.2 默认的基准模型 258
11.3 决定是否收集更多数据259
11.4 选择超参数.259
11.4.1 手动调整超参数..259
11.4.2 自动超参数优化算法. .262
11.4.3 网格搜索. 262
11.4.4 随机搜索. 263
11.4.5 基于模型的超参数优化..264
11.5 调试策略 .264
11.6 示例:多位数字识别.267
第 12 章 应用. . .269
12.1 大规模深度学习 269
12.1.1 快速的 CPU 实现. . 269
12.1.2 GPU 实现269
12.1.3 大规模的分布式实现. .271
12.1.4 模型压缩. 271
12.1.5 动态结构. 272
12.1.6 深度网络的专用硬件实现.. 273
12.2 计算机视觉.274
12.2.1 预处理.275
12.2.2 数据集增强 . 277
12.3 语音识别 .278
12.4 自然语言处理.279
12.4.1 n-gram. . .280
12.4.2 神经语言模型..281
12.4.3 高维输出. 282
12.4.4 结合 n-gram 和神经语言模型286
12.4.5 神经机器翻译..287
12.4.6 历史展望. 289
12.5 其他应用 .290
12.5.1 推荐系统. 290
12.5.2 知识表示、推理和回答 292
第 3 部分 深度学习研究
第 13 章 线性因子模型297
13.1 概率 PCA 和因子分析. 297
13.2 独立成分分析.298
13.3 慢特征分析.300
13.4 稀疏编码 .301
13.5 PCA 的流形解释..304
第 14 章 自编码器.. . 306
14.1 欠完备自编码器 306
14.2 正则自编码器.307
14.2.1 稀疏自编码器..307
14.2.2 去噪自编码器..309
14.2.3 惩罚导数作为正则..309
14.3 表示能力、层的大小和深度.. . 310
14.4 随机编码器和解码器.. .310
14.5 去噪自编码器详解.. . 311
14.5.1 得分估计. 312
14.5.2 历史展望. 314
14.6 使用自编码器学习流形314
14.7 收缩自编码器.317
14.8 预测稀疏分解.319
14.9 自编码器的应用 319
第 15 章 表示学习.. . 321
15.1 贪心逐层无监督预训练322
15.1.1 何时以及为何无监督预训练有效有效.323
15.2 迁移学习和领域自适应326
15.3 半监督解释因果关系.. .329
15.4 分布式表示.332
15.5 得益于深度的指数增益336
15.6 提供发现潜在原因的线索 337
第 16 章 深度学习中的结构化概率模型. 339
16.1 非结构化建模的挑战.. .339
16.2 使用图描述模型结构.. .342
16.2.1 有向模型. 342
16.2.2 无向模型. 344
16.2.3 配分函数. 345
16.2.4 基于能量的模型..346
16.2.5 分离和 d-分离.. . .347
16.2.6 在有向模型和无向模型中转换350
16.2.7 因子图.352
16.3 从图模型中采样 353
16.4 结构化建模的优势.. . 353
16.5 学习依赖关系.354
16.6 推断和近似推断 354
16.7 结构化概率模型的深度学习方法. .355
16.7.1 实例:受限玻尔兹曼机 356
第 17 章 蒙特卡罗方法359
17.1 采样和蒙特卡罗方法.. .359
17.1.1 为什么需要采样..359
17.1.2 蒙特卡罗采样的基础. .359
17.2 重要采样 .360
17.3 马尔可夫链蒙特卡罗方法 362
17.4 Gibbs 采样.. . .365
17.5 不同的峰值之间的混合挑战.. 365
17.5.1 不同峰值之间通过回火来混合367
17.5.2 深度也许会有助于混合..368
第 18 章 直面配分函数369
18.1 对数似然梯度.369
18.2 随机最大似然和对比散度 370
18.3 伪似然 . 375
18.4 得分匹配和比率匹配.. .376
18.5 去噪得分匹配.378
18.6 噪声对比估计.378
18.7 估计配分函数.380
18.7.1 退火重要采样..382
18.7.2 桥式采样. 384
第 19 章 近似推断.. . 385
19.1 把推断视作优化问题.. .385
19.2 期望最大化.386
19.3 最大后验推断和稀疏编码 387
19.4 变分推断和变分学习.. .389
19.4.1 离散型潜变量..390
19.4.2 变分法.394
19.4.3 连续型潜变量..396
19.4.4 学习和推断之间的相互作用. . 397
19.5 学成近似推断.397
19.5.1 醒眠算法. 398
19.5.2 学成推断的其他形式. .398
第 20 章 深度生成模型399
20.1 玻尔兹曼机.399
20.2 受限玻尔兹曼机 400
20.2.1 条件分布. 401
20.2.2 训练受限玻尔兹曼机. .402
20.3 深度信念网络.402
20.4 深度玻尔兹曼机 404
20.4.1 有趣的性质 . 406
20.4.2 DBM 均匀场推断. . 406
20.4.3 DBM 的参数学习. . 408
20.4.4 逐层预训练 . 408
20.4.5 联合训练深度玻尔兹曼机.. 410
20.5 实值数据上的玻尔兹曼机 413
20.5.1 Gaussian-Bernoulli RBM.. 413
20.5.2 条件协方差的无向模型..414
20.6 卷积玻尔兹曼机 417
20.7 用于结构化或序列输出的玻尔兹曼机.. 418
20.8 其他玻尔兹曼机 419
20.9 通过随机操作的反向传播 419
20.9.1 通过离散随机操作的反向传播420
20.10 有向生成网络. .422
20.10.1 sigmoid 信念网络. 422
20.10.2 可微生成器网络. . .423
20.10.3 变分自编码器.. .425
20.10.4 生成式对抗网络. . .427
20.10.5 生成矩匹配网络. . .429
20.10.6 卷积生成网络.. .430
20.10.7 自回归网络 430
20.10.8 线性自回归网络. . .430
20.10.9 神经自回归网络. . .431
20.10.10 NADE. 432
20.11 从自编码器采样..433
20.11.1 与任意去噪自编码器相关的马尔可夫链434
20.11.2 夹合与条件采样. . .434
20.11.3 回退训练过程.. .435
20.12 生成随机网络. .435
20.12.1 判别性 GSN..436
20.13 其他生成方案. .436
20.14 评估生成模型. .437
20.15 结论438
参考文献. . .439
索引.486
内容虚线
内容简介
《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:**部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法