深度学习deep learning-情感.机器.认知-电子AI

深度学习deep learning

【9761】by1 2018-11-29 最后编辑2018-11-29 00:17:49 浏览816

深度学习 TB2gdj5m7SWBuNjSszdXXbeSpXa_!!741719789.jpg_430x430q90.jpg

作者:[美]IanGoodfellow（伊恩·古德费洛），[加]YoshuaBengio（约书亚·本吉奥），[加]AaronCourville（亚伦·库维尔）

定价:168

出版社:人民邮出版社

出版日期:2017-08-01

装帧:简装

ISBN:9787115461476

第 1 章引言.. 1

1.1 本书面向的读者. .7

1.2 深度学习的历史趋势..8

1.2.1 神经网络的众多名称和命运变迁. 8

1.2.2 与日俱增的数据量.. 12

1.2.3 与日俱增的模型规模. .13

1.2.4 与日俱增的精度、复杂度和对现实世界的冲击..15

第 1 部分应用数学与机器学习基础

第 2 章线性代数 19

2.1 标量、向量、矩阵和张量. 19

2.2 矩阵和向量相乘. . .21

2.3 单位矩阵和逆矩阵 22

2.4 线性相关和生成子空间. . 23

2.5 范数.. . .24

2.6 特殊类型的矩阵和向量. . 25

2.7 特征分解 . 26

2.8 奇异值分解.. . 28

2.9 Moore-Penrose 伪逆..28

2.10 迹运算29

2.11 行列式30

2.12 实例：主成分分析 . .30

第 3 章概率与信息论.. .34

3.1 为什么要使用概率 34

3.2 随机变量 . 35

3.3 概率分布 . 36

3.3.1 离散型变量和概率质量函数.. 36

3.3.2 连续型变量和概率密度函数.. 36

3.4 边缘概率 . 37

3.5 条件概率 . 37

3.6 条件概率的链式法则.. . 38

3.7 独立性和条件独立性.. . 38

3.8 期望、方差和协方差.. . 38

3.9 常用概率分布.39

3.9.1 Bernoulli 分布 40

3.9.2 Multinoulli 分布.. . 40

3.9.3 高斯分布.40

3.9.4 指数分布和 Laplace 分布..41

3.9.5 Dirac 分布和经验分布42

3.9.6 分布的混合. 42

3.10 常用函数的有用性质.. . .43

3.11 贝叶斯规则.. 45

3.12 连续型变量的技术细节. 45

3.13 信息论47

3.14 结构化概率模型 . 49

第 4 章数值计算 52

4.1 上溢和下溢.. . 52

4.2 病态条件 . 53

4.3 基于梯度的优化方法.. . 53

4.3.1 梯度之上：Jacobian 和 Hessian 矩阵.. . 56

4.4 约束优化 . 60

4.5 实例：线性最小二乘.. . 61

第 5 章机器学习基础.. .63

5.1 学习算法 . 63

5.1.1 任务 T.. 63

5.1.2 性能度量 P. 66

5.1.3 经验 E.. . 66

5.1.4 示例：线性回归..68

5.2 容量、过拟合和欠拟合.70

5.2.1 没有免费午餐定理.. 73

5.2.2 正则化.. . 74

5.3 超参数和验证集. . .76

5.3.1 交叉验证.76

5.4 估计、偏差和方差.77

5.4.1 点估计.. . 77

5.4.2 偏差 78

5.4.3 方差和标准差 . 80

5.4.4 权衡偏差和方差以最小化均方误差 81

5.4.5 一致性.. . 82

5.5 最大似然估计.82

5.5.1 条件对数似然和均方误差 . .84

5.5.2 最大似然的性质..84

5.6 贝叶斯统计.. . 85

5.6.1 最大后验 (MAP) 估计87

5.7 监督学习算法.88

5.7.1 概率监督学习 . 88

5.7.2 支持向量机. 88

5.7.3 其他简单的监督学习算法 . .90

5.8 无监督学习算法. . .91

5.8.1 主成分分析. 92

5.8.2 k-均值聚类. .94

5.9 随机梯度下降.94

5.10 构建机器学习算法..96

5.11 促使深度学习发展的挑战 . 96

5.11.1 维数灾难. . 97

5.11.2 局部不变性和平滑正则化.. . 97

5.11.3 流形学习. . 99

第 2 部分深度网络：现代实践

第 6 章深度前馈网络. 105

6.1 实例：学习 XOR. 107

6.2 基于梯度的学习 . 110

6.2.1 代价函数. . 111

6.2.2 输出单元. . 113

6.3 隐藏单元 . .119

6.3.1 整流线性单元及其扩展 120

6.3.2 logistic sigmoid 与双曲正切函数 . 121

6.3.3 其他隐藏单元 122

6.4 架构设计 . .123

6.4.1 万能近似性质和深度. . .123

6.4.2 其他架构上的考虑. . .126

6.5 反向传播和其他的微分算法 .126

6.5.1 计算图.. 127

6.5.2 微积分中的链式法则. . .128

6.5.3 递归地使用链式法则来实现反向传播.. 128

6.5.4 全连接 MLP 中的反向传播计算 . 131

6.5.5 符号到符号的导数. . .131

6.5.6 一般化的反向传播. . .133

6.5.7 实例：用于 MLP 训练的反向传播135

6.5.8 复杂化.. 137

6.5.9 深度学习界以外的微分 137

6.5.10 高阶微分. 138

6.6 历史小记 . .139

第 7 章深度学习中的正则化.141

7.1 参数范数惩罚. . 142

7.1.1 L2 参数正则化..142

7.1.2 L1 正则化. 144

7.2 作为约束的范数惩罚.. . .146

7.3 正则化和欠约束问题.. . .147

7.4 数据集增强.. 148

7.5 噪声鲁棒性.. 149

7.5.1 向输出目标注入噪声. . .150

7.6 半监督学习.. 150

7.7 多任务学习.. 150

7.8 提前终止 . .151

7.9 参数绑定和参数共享.. . .156

7.9.1 卷积神经网络 156

7.10 稀疏表示 .157

7.11 Bagging 和其他集成方法.158

7.12 Dropout159

7.13 对抗训练 .165

7.14 切面距离、正切传播和流形正切分类器. . 167

第 8 章深度模型中的优化 .169

8.1 学习和纯优化有什么不同 . 169

8.1.1 经验风险最小化.. . 169

8.1.2 代理损失函数和提前终止.. . 170

8.1.3 批量算法和小批量算法 170

8.2 神经网络优化中的挑战. 173

8.2.1 病态..173

8.2.2 局部极小值174

8.2.3 高原、鞍点和其他平坦区域..175

8.2.4 悬崖和梯度爆炸.. . 177

8.2.5 长期依赖. . 177

8.2.6 非精确梯度178

8.2.7 局部和全局结构间的弱对应.178

8.2.8 优化的理论限制.. . 179

8.3 基本算法 . .180

8.3.1 随机梯度下降 180

8.3.2 动量..181

8.3.3 Nesterov 动量 . .183

8.4 参数初始化策略 . 184

8.5 自适应学习率算法..187

8.5.1 AdaGrad. 187

8.5.2 RMSProp. 188

8.5.3 Adam.. . 189

8.5.4 选择正确的优化算法. . .190

8.6 二阶近似方法. . 190

8.6.1 牛顿法.. 190

8.6.2 共轭梯度. . 191

8.6.3 BFGS 193

8.7 优化策略和元算法..194

8.7.1 批标准化. . 194

8.7.2 坐标下降. . 196

8.7.3 Polyak 平均 . 197

8.7.4 监督预训练197

8.7.5 设计有助于优化的模型 199

8.7.6 延拓法和课程学习. . .199

第 9 章卷积网络..201

9.1 卷积运算 . .201

9.2 动机. . 203

9.3 池化. . 207

9.4 卷积与池化作为一种无限强的先验 210

9.5 基本卷积函数的变体.. . .211

9.6 结构化输出.. 218

9.7 数据类型 . .219

9.8 高效的卷积算法 . 220

9.9 随机或无监督的特征.. . .220

9.10 卷积网络的神经科学基础 221

9.11 卷积网络与深度学习的历史.. 226

第 10 章序列建模：循环和递归网络.. 227

10.1 展开计算图.228

10.2 循环神经网络.230

10.2.1 导师驱动过程和输出循环网络232

10.2.2 计算循环神经网络的梯度.. 233

10.2.3 作为有向图模型的循环网络. . 235

10.2.4 基于上下文的 RNN 序列建模237

10.3 双向 RNN.. 239

10.4 基于编码 - 解码的序列到序列架构 240

10.5 深度循环网络.242

10.6 递归神经网络.243

10.7 长期依赖的挑战 244

10.8 回声状态网络.245

10.9 渗漏单元和其他多时间尺度的策略..247

10.9.1 时间维度的跳跃连接. .247

10.9.2 渗漏单元和一系列不同时间尺度 247

10.9.3 删除连接. 248

10.10 长短期记忆和其他门控 RNN. 248

10.10.1 LSTM. . 248

10.10.2 其他门控 RNN.. . .250

10.11 优化长期依赖. .251

10.11.1 截断梯度251

10.11.2 引导信息流的正则化 252

10.12 外显记忆.. 253

第 11 章实践方法论. . 256

11.1 性能度量 .256

11.2 默认的基准模型 258

11.3 决定是否收集更多数据259

11.4 选择超参数.259

11.4.1 手动调整超参数..259

11.4.2 自动超参数优化算法. .262

11.4.3 网格搜索. 262

11.4.4 随机搜索. 263

11.4.5 基于模型的超参数优化..264

11.5 调试策略 .264

11.6 示例：多位数字识别.267

第 12 章应用. . .269

12.1 大规模深度学习 269

12.1.1 快速的 CPU 实现. . 269

12.1.2 GPU 实现269

12.1.3 大规模的分布式实现. .271

12.1.4 模型压缩. 271

12.1.5 动态结构. 272

12.1.6 深度网络的专用硬件实现.. 273

12.2 计算机视觉.274

12.2.1 预处理.275

12.2.2 数据集增强 . 277

12.3 语音识别 .278

12.4 自然语言处理.279

12.4.1 n-gram. . .280

12.4.2 神经语言模型..281

12.4.3 高维输出. 282

12.4.4 结合 n-gram 和神经语言模型286

12.4.5 神经机器翻译..287

12.4.6 历史展望. 289

12.5 其他应用 .290

12.5.1 推荐系统. 290

12.5.2 知识表示、推理和回答 292

第 3 部分深度学习研究

第 13 章线性因子模型297

13.1 概率 PCA 和因子分析. 297

13.2 独立成分分析.298

13.3 慢特征分析.300

13.4 稀疏编码 .301

13.5 PCA 的流形解释..304

第 14 章自编码器.. . 306

14.1 欠完备自编码器 306

14.2 正则自编码器.307

14.2.1 稀疏自编码器..307

14.2.2 去噪自编码器..309

14.2.3 惩罚导数作为正则..309

14.3 表示能力、层的大小和深度.. . 310

14.4 随机编码器和解码器.. .310

14.5 去噪自编码器详解.. . 311

14.5.1 得分估计. 312

14.5.2 历史展望. 314

14.6 使用自编码器学习流形314

14.7 收缩自编码器.317

14.8 预测稀疏分解.319

14.9 自编码器的应用 319

第 15 章表示学习.. . 321

15.1 贪心逐层无监督预训练322

15.1.1 何时以及为何无监督预训练有效有效.323

15.2 迁移学习和领域自适应326

15.3 半监督解释因果关系.. .329

15.4 分布式表示.332

15.5 得益于深度的指数增益336

15.6 提供发现潜在原因的线索 337

第 16 章深度学习中的结构化概率模型. 339

16.1 非结构化建模的挑战.. .339

16.2 使用图描述模型结构.. .342

16.2.1 有向模型. 342

16.2.2 无向模型. 344

16.2.3 配分函数. 345

16.2.4 基于能量的模型..346

16.2.5 分离和 d-分离.. . .347

16.2.6 在有向模型和无向模型中转换350

16.2.7 因子图.352

16.3 从图模型中采样 353

16.4 结构化建模的优势.. . 353

16.5 学习依赖关系.354

16.6 推断和近似推断 354

16.7 结构化概率模型的深度学习方法. .355

16.7.1 实例：受限玻尔兹曼机 356

第 17 章蒙特卡罗方法359

17.1 采样和蒙特卡罗方法.. .359

17.1.1 为什么需要采样..359

17.1.2 蒙特卡罗采样的基础. .359

17.2 重要采样 .360

17.3 马尔可夫链蒙特卡罗方法 362

17.4 Gibbs 采样.. . .365

17.5 不同的峰值之间的混合挑战.. 365

17.5.1 不同峰值之间通过回火来混合367

17.5.2 深度也许会有助于混合..368

第 18 章直面配分函数369

18.1 对数似然梯度.369

18.2 随机最大似然和对比散度 370

18.3 伪似然 . 375

18.4 得分匹配和比率匹配.. .376

18.5 去噪得分匹配.378

18.6 噪声对比估计.378

18.7 估计配分函数.380

18.7.1 退火重要采样..382

18.7.2 桥式采样. 384

第 19 章近似推断.. . 385

19.1 把推断视作优化问题.. .385

19.2 期望最大化.386

19.3 最大后验推断和稀疏编码 387

19.4 变分推断和变分学习.. .389

19.4.1 离散型潜变量..390

19.4.2 变分法.394

19.4.3 连续型潜变量..396

19.4.4 学习和推断之间的相互作用. . 397

19.5 学成近似推断.397

19.5.1 醒眠算法. 398

19.5.2 学成推断的其他形式. .398

第 20 章深度生成模型399

20.1 玻尔兹曼机.399

20.2 受限玻尔兹曼机 400

20.2.1 条件分布. 401

20.2.2 训练受限玻尔兹曼机. .402

20.3 深度信念网络.402

20.4 深度玻尔兹曼机 404

20.4.1 有趣的性质 . 406

20.4.2 DBM 均匀场推断. . 406

20.4.3 DBM 的参数学习. . 408

20.4.4 逐层预训练 . 408

20.4.5 联合训练深度玻尔兹曼机.. 410

20.5 实值数据上的玻尔兹曼机 413

20.5.1 Gaussian-Bernoulli RBM.. 413

20.5.2 条件协方差的无向模型..414

20.6 卷积玻尔兹曼机 417

20.7 用于结构化或序列输出的玻尔兹曼机.. 418

20.8 其他玻尔兹曼机 419

20.9 通过随机操作的反向传播 419

20.9.1 通过离散随机操作的反向传播420

20.10 有向生成网络. .422

20.10.1 sigmoid 信念网络. 422

20.10.2 可微生成器网络. . .423

20.10.3 变分自编码器.. .425

20.10.4 生成式对抗网络. . .427

20.10.5 生成矩匹配网络. . .429

20.10.6 卷积生成网络.. .430

20.10.7 自回归网络 430

20.10.8 线性自回归网络. . .430

20.10.9 神经自回归网络. . .431

20.10.10 NADE. 432

20.11 从自编码器采样..433

20.11.1 与任意去噪自编码器相关的马尔可夫链434

20.11.2 夹合与条件采样. . .434

20.11.3 回退训练过程.. .435

20.12 生成随机网络. .435

20.12.1 判别性 GSN..436

20.13 其他生成方案. .436

20.14 评估生成模型. .437

20.15 结论438

参考文献. . .439

索引.486

内容虚线

内容简介

《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写，是深度学习领域奠基性的经典教材。全书的内容包括3个部分：**部分介绍基本的数学工具和机器学习的概念，它们是深度学习的预备知识；第2部分系统深入地讲解现今已成熟的深度学习方法和技术；第3部分讨论某些具有前瞻性的方向和想法