文章资料-库博笔记 游客
深度学习deep learning
【9761】by1 2018-11-29 最后编辑2018-11-29 00:17:49 浏览522

深度学习TB2gdj5m7SWBuNjSszdXXbeSpXa_!!741719789.jpg_430x430q90.jpg

作  者:[美]IanGoodfellow(伊恩·古德费洛),[加]YoshuaBengio(约书亚·本吉奥),[加]AaronCourville(亚伦·库维尔)

定  价:168

出版社:人民邮 出版社

出版日期:2017-08-01

装  帧:简装

ISBN:9787115461476

目录 

第 1 章 引言.. 1 

1.1 本书面向的读者. .7 

1.2 深度学习的历史趋势..8 

1.2.1 神经网络的众多名称和命运变迁. 8 

1.2.2 与日俱增的数据量.. 12 

1.2.3 与日俱增的模型规模. .13 

1.2.4 与日俱增的精度、复杂度和对现实世界的冲击..15

第 1 部分 应用数学与机器学习基础 

第 2 章 线性代数 19 

2.1 标量、向量、矩阵和张量. 19 

2.2 矩阵和向量相乘. . .21 

2.3 单位矩阵和逆矩阵 22 

2.4 线性相关和生成子空间. . 23 

2.5 范数.. . .24 

2.6 特殊类型的矩阵和向量. . 25 

2.7 特征分解 . 26 

2.8 奇异值分解.. . 28 

2.9 Moore-Penrose 伪逆..28 

2.10 迹运算29 

2.11 行列式30 

2.12 实例:主成分分析 . .30 

第 3 章 概率与信息论.. .34 

3.1 为什么要使用概率 34 

3.2 随机变量 . 35 

3.3 概率分布 . 36 

3.3.1 离散型变量和概率质量函数.. 36 

3.3.2 连续型变量和概率密度函数.. 36 

3.4 边缘概率 . 37 

3.5 条件概率 . 37 

3.6 条件概率的链式法则.. . 38

3.7 独立性和条件独立性.. . 38 

3.8 期望、方差和协方差.. . 38 

3.9 常用概率分布.39 

3.9.1 Bernoulli 分布 40 

3.9.2 Multinoulli 分布.. . 40 

3.9.3 高斯分布.40 

3.9.4 指数分布和 Laplace 分布..41 

3.9.5 Dirac 分布和经验分布42 

3.9.6 分布的混合. 42 

3.10 常用函数的有用性质.. . .43 

3.11 贝叶斯规则.. 45

3.12 连续型变量的技术细节. 45 

3.13 信息论47 

3.14 结构化概率模型 . 49 

第 4 章 数值计算 52 

4.1 上溢和下溢.. . 52 

4.2 病态条件 . 53 

4.3 基于梯度的优化方法.. . 53 

4.3.1 梯度之上:Jacobian 和 Hessian 矩阵.. . 56 

4.4 约束优化 . 60 

4.5 实例:线性最小二乘.. . 61 

第 5 章 机器学习基础.. .63 

5.1 学习算法 . 63 

5.1.1 任务 T.. 63 

5.1.2 性能度量 P. 66 

5.1.3 经验 E.. . 66 

5.1.4 示例:线性回归..68 

5.2 容量、过拟合和欠拟合.70 

5.2.1 没有免费午餐定理.. 73 

5.2.2 正则化.. . 74 

5.3 超参数和验证集. . .76 

5.3.1 交叉验证.76 

5.4 估计、偏差和方差.77 

5.4.1 点估计.. . 77 

5.4.2 偏差 78 

5.4.3 方差和标准差 . 80 

5.4.4 权衡偏差和方差以最小化均方误差 81 

5.4.5 一致性.. . 82 

5.5 最大似然估计.82 

5.5.1 条件对数似然和均方误差 . .84

5.5.2 最大似然的性质..84 

5.6 贝叶斯统计.. . 85 

5.6.1 最大后验 (MAP) 估计87 

5.7 监督学习算法.88 

5.7.1 概率监督学习 . 88 

5.7.2 支持向量机. 88 

5.7.3 其他简单的监督学习算法 . .90 

5.8 无监督学习算法. . .91 

5.8.1 主成分分析. 92 

5.8.2 k-均值聚类. .94 

5.9 随机梯度下降.94 

5.10 构建机器学习算法..96 

5.11 促使深度学习发展的挑战 . 96 

5.11.1 维数灾难. . 97 

5.11.2 局部不变性和平滑正则化.. . 97 

5.11.3 流形学习. . 99 

第 2 部分 深度网络:现代实践 

第 6 章 深度前馈网络. 105 

6.1 实例:学习 XOR. 107 

6.2 基于梯度的学习 . 110 

6.2.1 代价函数. . 111 

6.2.2 输出单元. . 113 

6.3 隐藏单元 . .119 

6.3.1 整流线性单元及其扩展 120 

6.3.2 logistic sigmoid 与双曲正切函数 . 121 

6.3.3 其他隐藏单元 122 

6.4 架构设计 . .123 

6.4.1 万能近似性质和深度. . .123 

6.4.2 其他架构上的考虑. . .126 

6.5 反向传播和其他的微分算法 .126 

6.5.1 计算图.. 127 

6.5.2 微积分中的链式法则. . .128 

6.5.3 递归地使用链式法则来实现反向传播.. 128 

6.5.4 全连接 MLP 中的反向传播计算 . 131 

6.5.5 符号到符号的导数. . .131 

6.5.6 一般化的反向传播. . .133 

6.5.7 实例:用于 MLP 训练的反向传播135 

6.5.8 复杂化.. 137

6.5.9 深度学习界以外的微分 137 

6.5.10 高阶微分. 138 

6.6 历史小记 . .139 

第 7 章 深度学习中的正则化.141 

7.1 参数范数惩罚. . 142 

7.1.1 L2 参数正则化..142 

7.1.2 L1 正则化. 144 

7.2 作为约束的范数惩罚.. . .146 

7.3 正则化和欠约束问题.. . .147 

7.4 数据集增强.. 148

7.5 噪声鲁棒性.. 149

7.5.1 向输出目标注入噪声. . .150 

7.6 半监督学习.. 150

7.7 多任务学习.. 150

7.8 提前终止 . .151 

7.9 参数绑定和参数共享.. . .156 

7.9.1 卷积神经网络 156 

7.10 稀疏表示 .157 

7.11 Bagging 和其他集成方法.158 

7.12 Dropout159 

7.13 对抗训练 .165 

7.14 切面距离、正切传播和流形正切分类器. . 167 

第 8 章 深度模型中的优化 .169 

8.1 学习和纯优化有什么不同 . 169 

8.1.1 经验风险最小化.. . 169 

8.1.2 代理损失函数和提前终止.. . 170 

8.1.3 批量算法和小批量算法 170 

8.2 神经网络优化中的挑战. 173 

8.2.1 病态..173 

8.2.2 局部极小值174 

8.2.3 高原、鞍点和其他平坦区域..175 

8.2.4 悬崖和梯度爆炸.. . 177 

8.2.5 长期依赖. . 177 

8.2.6 非精确梯度178 

8.2.7 局部和全局结构间的弱对应.178 

8.2.8 优化的理论限制.. . 179 

8.3 基本算法 . .180 

8.3.1 随机梯度下降 180 

8.3.2 动量..181 

8.3.3 Nesterov 动量 . .183

8.4 参数初始化策略 . 184 

8.5 自适应学习率算法..187 

8.5.1 AdaGrad. 187 

8.5.2 RMSProp. 188 

8.5.3 Adam.. . 189 

8.5.4 选择正确的优化算法. . .190 

8.6 二阶近似方法. . 190 

8.6.1 牛顿法.. 190 

8.6.2 共轭梯度. . 191 

8.6.3 BFGS 193 

8.7 优化策略和元算法..194 

8.7.1 批标准化. . 194 

8.7.2 坐标下降. . 196 

8.7.3 Polyak 平均 . 197 

8.7.4 监督预训练197 

8.7.5 设计有助于优化的模型 199 

8.7.6 延拓法和课程学习. . .199 

第 9 章 卷积网络..201 

9.1 卷积运算 . .201 

9.2 动机. . 203 

9.3 池化. . 207 

9.4 卷积与池化作为一种无限强的先验 210 

9.5 基本卷积函数的变体.. . .211 

9.6 结构化输出.. 218

9.7 数据类型 . .219 

9.8 高效的卷积算法 . 220 

9.9 随机或无监督的特征.. . .220 

9.10 卷积网络的神经科学基础 221 

9.11 卷积网络与深度学习的历史.. 226 

第 10 章 序列建模:循环和递归网络.. 227 

10.1 展开计算图.228

10.2 循环神经网络.230 

10.2.1 导师驱动过程和输出循环网络232 

10.2.2 计算循环神经网络的梯度.. 233 

10.2.3 作为有向图模型的循环网络. . 235 

10.2.4 基于上下文的 RNN 序列建模237 

10.3 双向 RNN.. 239 

10.4 基于编码 - 解码的序列到序列架构 240 

10.5 深度循环网络.242 

10.6 递归神经网络.243

10.7 长期依赖的挑战 244 

10.8 回声状态网络.245 

10.9 渗漏单元和其他多时间尺度的策略..247 

10.9.1 时间维度的跳跃连接. .247 

10.9.2 渗漏单元和一系列不同时间尺度 247 

10.9.3 删除连接. 248 

10.10 长短期记忆和其他门控 RNN. 248 

10.10.1 LSTM. . 248 

10.10.2 其他门控 RNN.. . .250 

10.11 优化长期依赖. .251 

10.11.1 截断梯度251 

10.11.2 引导信息流的正则化 252 

10.12 外显记忆.. 253 

第 11 章 实践方法论. . 256 

11.1 性能度量 .256 

11.2 默认的基准模型 258 

11.3 决定是否收集更多数据259 

11.4 选择超参数.259

11.4.1 手动调整超参数..259 

11.4.2 自动超参数优化算法. .262 

11.4.3 网格搜索. 262 

11.4.4 随机搜索. 263 

11.4.5 基于模型的超参数优化..264 

11.5 调试策略 .264 

11.6 示例:多位数字识别.267 

第 12 章 应用. . .269 

12.1 大规模深度学习 269 

12.1.1 快速的 CPU 实现. . 269 

12.1.2 GPU 实现269 

12.1.3 大规模的分布式实现. .271 

12.1.4 模型压缩. 271 

12.1.5 动态结构. 272 

12.1.6 深度网络的专用硬件实现.. 273 

12.2 计算机视觉.274

12.2.1 预处理.275 

12.2.2 数据集增强 . 277 

12.3 语音识别 .278 

12.4 自然语言处理.279 

12.4.1 n-gram. . .280 

12.4.2 神经语言模型..281

12.4.3 高维输出. 282 

12.4.4 结合 n-gram 和神经语言模型286 

12.4.5 神经机器翻译..287 

12.4.6 历史展望. 289 

12.5 其他应用 .290 

12.5.1 推荐系统. 290 

12.5.2 知识表示、推理和回答 292 

第 3 部分 深度学习研究 

第 13 章 线性因子模型297 

13.1 概率 PCA 和因子分析. 297 

13.2 独立成分分析.298 

13.3 慢特征分析.300

13.4 稀疏编码 .301 

13.5 PCA 的流形解释..304 

第 14 章 自编码器.. . 306 

14.1 欠完备自编码器 306 

14.2 正则自编码器.307 

14.2.1 稀疏自编码器..307 

14.2.2 去噪自编码器..309 

14.2.3 惩罚导数作为正则..309 

14.3 表示能力、层的大小和深度.. . 310 

14.4 随机编码器和解码器.. .310 

14.5 去噪自编码器详解.. . 311 

14.5.1 得分估计. 312 

14.5.2 历史展望. 314 

14.6 使用自编码器学习流形314 

14.7 收缩自编码器.317 

14.8 预测稀疏分解.319 

14.9 自编码器的应用 319 

第 15 章 表示学习.. . 321 

15.1 贪心逐层无监督预训练322 

15.1.1 何时以及为何无监督预训练有效有效.323 

15.2 迁移学习和领域自适应326 

15.3 半监督解释因果关系.. .329 

15.4 分布式表示.332

15.5 得益于深度的指数增益336 

15.6 提供发现潜在原因的线索 337

第 16 章 深度学习中的结构化概率模型. 339 

16.1 非结构化建模的挑战.. .339 

16.2 使用图描述模型结构.. .342 

16.2.1 有向模型. 342 

16.2.2 无向模型. 344 

16.2.3 配分函数. 345 

16.2.4 基于能量的模型..346 

16.2.5 分离和 d-分离.. . .347 

16.2.6 在有向模型和无向模型中转换350 

16.2.7 因子图.352 

16.3 从图模型中采样 353 

16.4 结构化建模的优势.. . 353 

16.5 学习依赖关系.354 

16.6 推断和近似推断 354 

16.7 结构化概率模型的深度学习方法. .355 

16.7.1 实例:受限玻尔兹曼机 356 

第 17 章 蒙特卡罗方法359 

17.1 采样和蒙特卡罗方法.. .359 

17.1.1 为什么需要采样..359 

17.1.2 蒙特卡罗采样的基础. .359 

17.2 重要采样 .360 

17.3 马尔可夫链蒙特卡罗方法 362 

17.4 Gibbs 采样.. . .365 

17.5 不同的峰值之间的混合挑战.. 365 

17.5.1 不同峰值之间通过回火来混合367 

17.5.2 深度也许会有助于混合..368 

第 18 章 直面配分函数369 

18.1 对数似然梯度.369 

18.2 随机最大似然和对比散度 370 

18.3 伪似然 . 375 

18.4 得分匹配和比率匹配.. .376 

18.5 去噪得分匹配.378 

18.6 噪声对比估计.378 

18.7 估计配分函数.380 

18.7.1 退火重要采样..382 

18.7.2 桥式采样. 384 

第 19 章 近似推断.. . 385 

19.1 把推断视作优化问题.. .385 

19.2 期望最大化.386

19.3 最大后验推断和稀疏编码 387

19.4 变分推断和变分学习.. .389 

19.4.1 离散型潜变量..390 

19.4.2 变分法.394 

19.4.3 连续型潜变量..396 

19.4.4 学习和推断之间的相互作用. . 397 

19.5 学成近似推断.397 

19.5.1 醒眠算法. 398 

19.5.2 学成推断的其他形式. .398 

第 20 章 深度生成模型399 

20.1 玻尔兹曼机.399

20.2 受限玻尔兹曼机 400 

20.2.1 条件分布. 401 

20.2.2 训练受限玻尔兹曼机. .402 

20.3 深度信念网络.402 

20.4 深度玻尔兹曼机 404 

20.4.1 有趣的性质 . 406 

20.4.2 DBM 均匀场推断. . 406 

20.4.3 DBM 的参数学习. . 408 

20.4.4 逐层预训练 . 408 

20.4.5 联合训练深度玻尔兹曼机.. 410 

20.5 实值数据上的玻尔兹曼机 413 

20.5.1 Gaussian-Bernoulli RBM.. 413 

20.5.2 条件协方差的无向模型..414 

20.6 卷积玻尔兹曼机 417 

20.7 用于结构化或序列输出的玻尔兹曼机.. 418 

20.8 其他玻尔兹曼机 419 

20.9 通过随机操作的反向传播 419 

20.9.1 通过离散随机操作的反向传播420 

20.10 有向生成网络. .422 

20.10.1 sigmoid 信念网络. 422 

20.10.2 可微生成器网络. . .423 

20.10.3 变分自编码器.. .425 

20.10.4 生成式对抗网络. . .427 

20.10.5 生成矩匹配网络. . .429 

20.10.6 卷积生成网络.. .430 

20.10.7 自回归网络 430 

20.10.8 线性自回归网络. . .430 

20.10.9 神经自回归网络. . .431 

20.10.10 NADE. 432 

20.11 从自编码器采样..433

20.11.1 与任意去噪自编码器相关的马尔可夫链434 

20.11.2 夹合与条件采样. . .434 

20.11.3 回退训练过程.. .435 

20.12 生成随机网络. .435 

20.12.1 判别性 GSN..436 

20.13 其他生成方案. .436 

20.14 评估生成模型. .437 

20.15 结论438 

参考文献.  . .439 

索引.486

内容虚线 

内容简介

《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:**部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法