【机器学习百科全书目录】PRML ESL MLAPP 西瓜书 花书 RLAI 统计学习方法 蒲公英书

在这里插入图片描述

机器学习百科全书目录

题目中的八本书合起来,姑且称为机器学习的百科全书(读者如果有其他好书可以在评论区推荐一下)。我把这些书的目录整理到一起,以便读者和我自己查阅。MLAPP这本书的目录有许多英文名词在我的知识盲区,我是通过百度搜索相关词语翻译的。若读者发现错误之处,麻烦指出,感谢!

PRML, ESL, MLAPP, DL, RLAI和蒲公英书是开源的,我把它们整理到一起:

在这里插入图片描述

公众号后台回复【MLBKQS】即可获取。

Pattern Recognition and Machine Learning

在这里插入图片描述

一位叫马春鹏的前辈翻译了这本书,中文版的pdf也在我分享的那个文件夹里。

PRML
	1 绪论
		1.1 例⼦:多项式曲线拟合
		1.2 概率论
			1.2.1 概率密度
			1.2.2 期望和协⽅差
			1.2.3 贝叶斯概率
			1.2.4 ⾼斯分布
			1.2.5 重新考察曲线拟合问题
			1.2.6 贝叶斯曲线拟合
		1.3 模型选择
		1.4 维度灾难
		1.5 决策论
			1.5.1 最⼩化错误分类率
			1.5.2 最⼩化期望损失
			1.5.3 拒绝选项
			1.5.4 推断和决策
			1.5.5 回归问题的损失函数
		1.6 信息论
			1.6.1 相对熵和互信息
	2 概率分布
		2.1 ⼆元变量
			2.1.1 Beta分布
		2.2 多项式变量
			2.2.1 狄利克雷分布
		2.3 ⾼斯分布
			2.3.1 条件⾼斯分布
			2.3.2 边缘⾼斯分布
			2.3.3 ⾼斯变量的贝叶斯定理
			2.3.4 ⾼斯分布的最⼤似然估计
			2.3.5 顺序估计
			2.3.6 ⾼斯分布的贝叶斯推断
			2.3.7 学⽣t分布
			2.3.8 周期变量
			2.3.9 混合⾼斯模型
		2.4 指数族分布
			2.4.1 最⼤似然与充分统计量
			2.4.2 共轭先验
			2.4.3 ⽆信息先验
		2.5 ⾮参数化⽅法
			2.5.1 核密度估计
			2.5.2 近邻⽅法
	3 回归的线性模型
		3.1 线性基函数模型
			3.1.1 最⼤似然与最⼩平⽅
			3.1.2 最⼩平⽅的⼏何描述
			3.1.3 顺序学习
			3.1.4 正则化最⼩平⽅
			3.1.5 多个输出
		3.2 偏置-⽅差分解
		3.3 贝叶斯线性回归
			3.3.1 参数分布
			3.3.2 预测分布
			3.3.3 等价核
		3.4 贝叶斯模型⽐较
		3.5 证据近似
			3.5.1 计算证据函数
			3.5.2 最⼤化证据函数
			3.5.3 参数的有效数量
		3.6 固定基函数的局限性
	4 分类的线性模型 
		4.1 判别函数
			4.1.1 ⼆分类
			4.1.2 多分类
			4.1.3 ⽤于分类的最⼩平⽅⽅法
			4.1.4 Fisher线性判别函数
			4.1.5 与最⼩平⽅的关系
			4.1.6 多分类的Fisher判别函数
			4.1.7 感知器算法
		4.2 概率⽣成式模型
			4.2.1 连续输⼊
			4.2.2 极⼤似然解
			4.2.3 离散特征
			4.2.4 指数族分布
		4.3 概率判别式模型
			4.3.1 固定基函数
			4.3.2 logistic回归
			4.3.3 迭代重加权最⼩平⽅
			4.3.4 多类logistic回归
			4.3.5 probit回归
			4.3.6 标准链接函数
		4.4 拉普拉斯近似
			4.4.1 模型⽐较和BIC
		4.5 贝叶斯logistic回归
			4.5.1 拉普拉斯近似
			4.5.2 预测分布
	5 神经⽹络 
		5.1 前馈神经⽹络
			5.1.1 权空间对称性
		5.2 ⽹络训练
			5.2.1 参数最优化
			5.2.2 局部⼆次近似
			5.2.3 使⽤梯度信息
			5.2.4 梯度下降最优化
		5.3 误差反向传播
			5.3.1 误差函数导数的计算
			5.3.2 ⼀个简单的例⼦
			5.3.3 反向传播的效率
			5.3.4 Jacobian矩阵
		5.4 Hessian矩阵
			5.4.1 对⾓近似
			5.4.2 外积近似
			5.4.3 Hessian矩阵的逆矩阵
			5.4.4 有限差
			5.4.5 Hessian矩阵的精确计算
			5.4.6 Hessian矩阵的快速乘法
		5.5 神经⽹络的正则化
			5.5.1 相容的⾼斯先验
			5.5.2 早停⽌
			5.5.3 不变性
			5.5.4 切线传播
			5.5.5 ⽤变换后的数据训练
			5.5.6 卷积神经⽹络
			5.5.7 软权值共享
		5.6 混合密度⽹络
		5.7 贝叶斯神经⽹络
			5.7.1 后验参数分布
			5.7.2 超参数最优化
			5.7.3 ⽤于分类的贝叶斯神经⽹络
	6 核⽅法 
		6.1 对偶表⽰
		6.2 构造核
		6.3 径向基函数⽹络
			6.3.1 Nadaraya-Watson模型
		6.4 ⾼斯过程
			6.4.1 重新考虑线性回归问题
			6.4.2 ⽤于回归的⾼斯过程
			6.4.3 学习超参数
			6.4.4 ⾃动相关性确定
			6.4.5 ⽤于分类的⾼斯过程
			6.4.6 拉普拉斯近似
			6.4.7 与神经⽹络的联系
	7 稀疏核机
		7.1 最⼤边缘分类器
			7.1.1 重叠类分布
			7.1.2 与logistic回归的关系
			7.1.3 多类SVM
			7.1.4 回归问题的SVM
			7.1.5 计算学习理论
		7.2 相关向量机
			7.2.1 ⽤于回归的RVM
			7.2.2 稀疏性分析
			7.2.3 RVM⽤于分类
	8 图模型
		8.1 贝叶斯⽹络
			8.1.1 例⼦:多项式回归
			8.1.2 ⽣成式模型
			8.1.3 离散变量
			8.1.4 线性⾼斯模型
		8.2 条件独⽴
			8.2.1 图的三个例⼦
			8.2.2 d-划分
		8.3 马尔科夫随机场
			8.3.1 条件独⽴性质
			8.3.2 分解性质
			8.3.3 例⼦:图像去噪
			8.3.4 与有向图的关系
		8.4 图模型中的推断
			8.4.1 链推断
			8.4.2 树
			8.4.3 因⼦图
			8.4.4 加和-乘积算法
			8.4.5 最⼤加和算法
			8.4.6 ⼀般图的精确推断
			8.4.7 循环置信传播
			8.4.8 学习图结构
	9 混合模型和EM
		9.1 K均值聚类
			9.1.1 图像分割与压缩
		9.2 混合⾼斯
			9.2.1 最⼤似然
			9.2.2 ⽤于⾼斯混合模型的EM 
		9.3 EM的另⼀种观点
			9.3.1 重新考察⾼斯混合模型
			9.3.2 与K均值的关系
			9.3.3 伯努利分布的混合
			9.3.4 贝叶斯线性回归的EM算法
		9.4 ⼀般形式的EM算法
	10 近似推断
		10.1 变分推断
			10.1.1 分解概率分布
			10.1.2 分解近似的性质
			10.1.3 例⼦:⼀元⾼斯分布
			10.1.4 模型⽐较
		10.2 例⼦:⾼斯的变分混合
			10.2.1 变分分布
			10.2.2 变分下界
			10.2.3 预测概率密度
			10.2.4 确定分量的数量
			10.2.5 诱导分解
		10.3 变分线性回归
			10.3.1 变分分布
			10.3.2 预测分布
			10.3.3 下界
		10.4 指数族分布
			10.4.1 变分信息传递
		10.5 局部变分⽅法
		10.6 变分logistic回归
			10.6.1 变分后验概率分布
			10.6.2 最优化变分参数
			10.6.3 超参数的推断
		10.7 期望传播
			10.7.1 例⼦:聚类问题
			10.7.2 图的期望传播
	11 采样⽅法
		11.1 基本采样算法
			11.1.1 标准概率分布
			11.1.2 拒绝采样
			11.1.3 可调节的拒绝采样
			11.1.4 重要采样
			11.1.5 采样-重要性-重采样
			11.1.6 采样与EM算法
		11.2 马尔科夫链蒙特卡罗
			11.2.1 马尔科夫链
			11.2.2 Metropolis-Hastings算法
		11.3 吉布斯采样
		11.4 切⽚采样
		11.5 混合蒙特卡罗算法
			11.5.1 动态系统
			11.5.2 混合蒙特卡罗⽅法
		11.6 估计划分函数
	12 连续隐变量
		12.1 主成分分析
			12.1.1 最⼤⽅差形式
			12.1.2 最⼩误差形式
			12.1.3 PCA的应⽤
			12.1.4 ⾼维数据的PCA
		12.2 概率PCA
			12.2.1 极⼤似然PCA
			12.2.2 ⽤于PCA的EM算法
			12.2.3 贝叶斯PCA
			12.2.4 因⼦分析
		12.3 核PCA
		12.4 ⾮线性隐含变量模型
			12.4.1 独⽴成分分析
			12.4.2 ⾃关联⽹络
			12.4.3 对⾮线性流形建模
	13 序列数据
		13.1 马尔科夫模型
		13.2 隐马尔科夫模型
			13.2.1 ⽤于HMM的极⼤似然法
			13.2.2 前向后向算法
			13.2.3 ⽤于HMM的加和-乘积算法
			13.2.4 缩放因⼦
			13.2.5 维特⽐算法
			13.2.6 隐马尔科夫模型的扩展
		13.3 线性动态系统
			13.3.1 LDS中的推断
			13.3.2 LDS中的学习
			13.3.3 LDS的推⼴
			13.3.4 粒⼦滤波
	14 组合模型
		14.1 贝叶斯模型平均
		14.2 委员会
		14.3 提升⽅法
			14.3.1 最⼩化指数误差
			14.3.2 提升⽅法的误差函数
		14.4 基于树的模型
		14.5 条件混合模型
			14.5.1 线性回归模型的混合
		14.6 logistic模型的混合
			14.6.1 专家混合

The Elements of Statistical Learning (Second edition)

在这里插入图片描述

CSDN的布客飞龙翻译了这本书:

https://blog.csdn.net/wizardforcel/article/details/84500221

ESL
	1 绪论
	2 监督学习概述
		2.1 导言
		2.2 变量类型和术语
		2.3 两种简单的预测方法:最小二乘与最近邻
			2.3.1 线性模型和最小二乘
			2.3.2 最邻近方法
			2.3.3 从最小二乘到最近邻
		2.4 统计判别理论
		2.5 高维问题的局部方法
		2.6 统计模型,监督学习和函数逼近
			2.6.1联合分布的统计模型
			2.6.2 监督学习
			2.6.3 函数逼近
		2.7 结构化的回归模型
			问题的困难度
		2.8 限制性估计的种类
			2.8.1粗糙度惩罚和贝叶斯方法
			2.8.2核方法和局部回归
			2.8.3基函数和字典方法
		2.9 模型选择和偏差-方差的权衡
	3 线性回归方法
		3.1 导言
		3.2 线性回归模型和最小二乘法
			3.2.1示例:前列腺癌
			3.2.2高斯-马尔可夫定理
			3.2.3简单一元回归到多重回归
			3.2.4多重输出
		3.3 子集的选择
			3.3.1最佳子集选择
			3.3.2正向和反向逐步选择
			3.3.3正向逐渐回归
			3.3.4前列腺癌数据示例(续)
		3.4 收缩的方法
			3.4.1岭回归
			3.4.2 Lasso回归
			3.4.3讨论:子集选择、岭回归以及Lasso回归
			3.4.4最小角回归
		3.5 运用派生输入方向的方法
			3.5.1主成分回归
			3.5.2偏最小二乘法
		3.6 讨论:选择和收缩方法的比较
		3.7 多重输出的收缩和选择
		3.8 Lasso 和相关路径算法的补充
			3.8.1递增前向逐渐回归
			3.8.2分段线性路径算法
			3.8.3 Dantzig选择器
			3.8.4 The Grouped Lasso
			3.8.5 lasso 的更多性质
			3.8.6路径坐标优化
		3.9 计算上的考虑
	4 线性分类方法
		4.1 导言
		4.2 指示矩阵的线性回归
		4.3 线性判别分析
			4.3.1正则化判别分析
			4.3.2 LDA计算
			4.3.3降秩线性判别分析
		4.4 逻辑斯蒂回归
			4.4.1拟合逻辑斯蒂回归模型
			4.4.2示例:南非心脏病
			4.4.3二次近似和推断
			4.4.4 L1正则逻辑回归
			4.4.5逻辑回归或LDA?
		4.5 分离超平面
			4.5.1Rosenblatt的感知机学习算法 
			4.5.2最优分离超平面
	5 基展开与正则化
		5.1 导言
		5.2 分段多项式和样条
			5.2.1自然三次样条曲线
			5.2.2示例:南非心脏病(续)
			5.2.3示例:音素识别
		5.3 滤波和特征提取
		5.4 光滑样条
			5.4.1自由度和光滑矩阵
		5.5 光滑参数的自动选择
			5.5.1固定自由度
			5.5.2 偏差-方差的权衡
		5.6 非参逻辑斯蒂回归
		5.7 多维样条
		5.8 正则化和再生核希尔伯特空间理论
			5.8.1核函数空间
			5.8.2 RKHS示例
		5.9 小波光滑
			5.9.1小波基和小波变换
			5.9.2自适应小波滤波
	6 核平滑方法
		6.1 一维核光滑器
			6.1.1局部线性回归
			6.1.2局部多项式回归
		6.2 选择核的宽度
		6.3 IR^{p} 的局部回归
		6.4 IR^{p}中的结构化局部回归模型
			6.4.1结构核
			6.4.2结构回归函数
		6.5 局部似然和其他模型
		6.6 核密度估计和分类
			6.6.1核密度估计
			6.6.2核密度分类
			6.6.3朴素贝叶斯分类器
		6.7 径向基函数和核
		6.8 混合模型的密度估计和分类
		6.9 计算上的考虑
	7 模型评估与选择
		7.1 导言
		7.2 偏差,方差和模型复杂度
		7.3 偏差-方差分解
			7.3.1 例子: 方差-偏差之间的权衡
		7.4 测试误差率的 optimism
		7.5 样本内预测误差的估计
		7.6 参数的有效个数
		7.7 贝叶斯方法和 BIC
		7.8 最小描述长度
		7.9 VC 维
			7.9.1示例(续)
		7.10 交叉验证
			7.10.1 K 折交叉验证
			7.10.2 做交叉验证的错误与正确方式
			7.10.3交叉验证真的有效吗?
		7.11 自助法
			7.11.1示例(续)
		7.12 条件测试误差或期望测试误差
	8 模型推断与平均
		8.1 导言
		8.2 自助法和最大似然法
			8.2.1平滑示例
			8.2.2最大似然推断
			8.2.3 自助法和最大似然法
		8.3 贝叶斯方法
		8.4 自助法和贝叶斯推断之间的关系
		8.5 EM 算法
			8.5.1 两个组分的混合模型
			8.5.2 广义 EM 算法
			8.5.3EM 作为一个最大化-最大化的过程
		8.6 从后验分布采样的 MCMC
		8.7 袋装法
		8.8 模型平均和堆栈
		8.9 随机搜索
	9 加性模型,树,以及相关方法
		9.1 广义加性模型
			9.1.1拟合加性模型
			9.1.2示例:加性逻辑回归
			9.1.3 总结
		9.2 基于树的方法
			9.2.1背景
			9.2.2回归树
			9.2.3分类树
			9.2.4 其他的问题
			9.2.5 垃圾邮件的例子(续)
		9.3 PRIM
			9.3.1 垃圾邮件的例子(续)
		9.4 MARS:Bump Hunting
			9.4.1垃圾邮件示例(续)
			9.4.2示例(模拟数据)
			9.4.3其他问题
		9.5 专家的分层混合
		9.6 缺失数据
		9.7 计算上的考虑
	10 提升树和加性树
		10.1 boosting 方法
			10.1.1 本章概要
		10.2 boosting 拟合加性模型
		10.3 前向逐步加性建模
		10.4 指数损失和 AdaBoost
		10.5 为什么是指数损失
		10.6 损失函数和鲁棒性
		10.7 数据挖掘的“Off-the-Shelf”方法
		10.8 垃圾邮件的例子
		10.9 boosting 树
		10.10 使用梯度 Boosting 进行数值优化
			10.10.1 最速下降
			10.10.2 Gradient Boosting
			10.10.2 Gradient Boosting的实现
		10.11 大小合适的 boosting 树
		10.12 正则化
			10.12.1收缩
			10.12.2 子采样
		10.13 解释性
			10.13.1预测变量的相对重要性
			10.13.2 偏相依性图
		10.14 例子
			10.14.1加州住房
			10.14.2 New Zealand Fish
			10.14.3人口统计数据
	11 神经网络
		11.1 导言
		11.2 投影寻踪回归
		11.3 神经网络
		11.4 拟合神经网络
		11.5 训练神经网络的一些问题
			11.5.1初始值
			11.5.2过拟合
			11.5.3输入的缩放
			11.5.4隐藏单元和层的数目
			11.5.5多重最小值
		11.6 例子:模拟数据
		11.7 例子:邮编数字
		11.8讨论
		11.9贝叶斯神经网络和NIPS 2003挑战
			11.9.1 贝叶斯, Boosting and Bagging
			1.9.2性能比较
		11.10计算上的考虑
	12 支持向量机与柔性判别法
		12.1 导言
		12.2 支持向量分类器
			12.2.1计算支持向量分类器
			12.2.2混合示例(续)
		12.3 支持向量机和核
			12.3.1用于分类的 SVM
			12.3.2 SVM作为惩罚的方法
			12.3.3函数估计和再生核
			12.3.4支持向量机和维数灾难
			12.3.5支持向量机分类器的路径算法
			12.3.6回归支持向量机
			12.3.7回归和核方法
			12.3.8讨论
		12.4 广义线性判别分析
		12.5 柔性判别分析
			12.5.1计算FDA估算值
		12.6 惩罚判别分析
		12.7 混合判别分析
			12.7.1示例:波形数据
		12.8 计算上的考虑
	13 原型法与近邻法
		13.1 导言
		13.2 原型法
			13.2.1 K-均值聚类
			13.2.2 量化学习向量
			13.2.3高斯混合
		13.3 k 最近邻分类器
			13.3.1示例:比较研究
			13.3.2示例:k近邻和图像场景分类
			13.3.3 不变量和切线距离
		13.4 自适应的最近邻方法
			13.4.1示例
			13.4.2最近邻的全局降维
		13.5 计算上的考虑
	14 无监督学习
		14.1 导言
		14.2 关联规则
			14.2.1市场篮子分析
			14.2.2 Apriori算法
			14.2.3示例:市场篮子分析
			14.2.4 作为监督学习的非监督
			14.2.5广义关联规则
			14.2.6监督学习方法的选择
			14.2.7示例:市场篮子分析(续)
		14.3 聚类分析
			14.3.1接近矩阵
			14.3.2 基于属性的不相似性
			14.3.3 样品的不相似性
			14.3.4聚类算法
			14.3.5组合算法
			14.3.6 K-均值
			14.3.7高斯混合作为 Soft K均值聚类
			14.3.8 例子:人类肿瘤微阵列数据
			14.3.9 向量量化
			14.3.10 K-medoids
			14.3.11实际中的问题
			14.3.12层次聚类
		14.4 自组织图
		14.5 主成分,主曲线以及主曲面
			14.5.1主成分
			14.5.2主曲线和主曲面
			14.5.3 谱聚类
			14.5.4核主成分
			14.5.5稀疏主成分
		14.6 非负矩阵分解
			14.6.1原型分析
		14.7 独立成分分析和探索投影寻踪
			14.7.1隐变量和因子分析
			14.7.2独立成分分析
			14。7.3 探索投影寻踪
			14.7.4 ICA的直接方法
		14.8 多维缩放
		14.9 非线性降维和局部多维缩放
		14.10 谷歌的 PageRank 算法
	15 随机森林
		15.1 导言
		15.2 随机森林的定义
		15.3 随机森林的细节
			15.3.1 集外样本
			15.3.2 变量重要性
			15.3.3 邻近图
			15.3.4 随机森林和过拟合
		15.4 随机森林的分析
			15.4.1方差和去相关性的影响
			15.4.2 偏差
			15.4.3 自适应最近邻
	16 集成学习
		16.1 导言
		16.2 增强和正则路径
			16.2.1 带惩罚的回归
			16.2.2 “Bet on Sparsity” 原则
			16.2.3 正则化路径,过拟合和 Margin
		16.3 学习集成
			16.3.1 学习一个好的集成
			16.3.2 规则集成 
	17 无向图模型
		17.1 导言
		17.2 马尔科夫图及其性质
		17.3 连续变量的无向图模型
			17.3.1 图结构已知时参数的估计
			17.3.2 图结构的估计
		17.4 离散变量的无向图模型
			17.4.1 当图结构已知时估计参数
			17.4.2 隐藏结点
			17.4.3 图结构的估计
			17.4.4 受制玻尔兹曼机
	18 高维问题
		18.1 当 p 大于 N
		18.2 对角线性判别分析和最近收缩重心
		18.3 二次正则的线性分类器
			18.3.1正则化判别分析
			18.3.2 二次正则的逻辑斯蒂回归
			18.3.3 支持向量分类器
			18.3.4 特征选择
			18.3.5 当 p>>N
 时的计算捷径
		18.4 一次正则的线性分类器
			18.4.1 应用 lasso 的方法到蛋白质质谱
			18.4.2 对于函数型数据的 Fused Lasso
		18.5 当特征不可用时的分类
			18.5.1 例子:字符串核和蛋白质分类
			18.5.2 分类和其它使用内积核和成对距离的模型
			18.5.3 例子:摘要分类
		18.6 有监督的主成分
			18.6.1 与隐变量模型的联系
			18.6.2 与偏最小二乘的联系
			18.6.3 特征选择的预处理
		18.7 特征评估和多重检验问题
			18.7.1 18.7.1错误发现率
			18.7.2 对称分割点和 SAM 过程
			18.7.3 FDR 的贝叶斯解释

Machine Learning A Probabilistic Perspective

在这里插入图片描述

这本书应该是最难翻译的,有一个翻译了一半的github项目:

https://github.com/qiguming/MLAPP_CN_CODE

大家一起去点个Star,支持一下译者。

MLAPP
	1 绪论
		1.1 机器学习:是什么?为什么?
			1.1.1 机器学习的类型
		1.2 监督学习
			1.2.1 分类
			1.2.2 回归
		1.3 无监督学习
			1.3.1 发现聚类
			1.3.2 发现潜在因子
			1.3.3 发现图结构
			1.3.4 矩阵补全
		1.4 一些机器学习的基本概念
			1.4.1 参数模型和非参数模型
			1.4.2 一个简单的非参数分类器:K近邻
			1.4.3 维度灾难
			1.4.4 分类和回归中的参数模型
			1.4.5 线性回归
			1.4.6 逻辑回归
			1.4.7 过拟合
			1.4.8 模型选择
			1.4.9 没有免费的午餐理论
	2 概率
		2.1 引言
		2.2 关于概率论的简单综述
			2.2.1 离散随机变量
			2.2.2 基本定理
			2.2.3 贝叶斯法则
			2.2.4 独立性和条件独立性
			2.2.5 连续随机变量
			2.2.6 分位数
			2.2.7均值和方差
		2.3 常见的离散分布
			2.3.1二项式和伯努利分布
			2.3.2多项式和multinoulli分布
			2.3.3泊松分布
			2.3.4经验分布
		2.4 常见的连续分布
			2.4.1高斯(正态)分布
			2.4.2退化pdf
			2.4.3拉普拉斯分布
			2.4.4伽马分布
			2.4.5贝塔分布
			2.4.6帕累托分布
		2.5联合概率分布
			2.5.1协方差和相关性
			2.5.2多元高斯分布
			2.5.3多元学生t分布
			2.5.4狄利克雷分布
		2.6随机变量的变换
			2.6.1线性变换
			2.6.2一般变换
			2.6.3中心极限定理
		2.7蒙特卡罗(MC)近似
			2.7.1示例:变量替换,MC方式
		2.8信息论
			2.8.1熵
			2.8.2 KL散度
			2.8.3互信息
	3 离散数据的生成模型
		3.1 引言
		3.2 贝叶斯概念学习
			3.2.1 似然
			3.2.2 先验
			3.2.3 后验
			3.2.4 后验预测分布
			3.2.5 一种更复杂的先验
		3.3 贝塔——二项式模型
			3.3.1 似然
			3.3.2 先验
			3.3.3 后验
			3.3.4 后验预测分布
		3.4 狄利克雷——多项式模型
			3.4.1 似然
			3.4.2 先验
			3.4.3 后验
			3.4.4 后验预测分布
		3.5 朴素贝叶斯分类器
			3.5.1模型拟合
			3.5.2 使用模型进行预测
			3.5.3 log-sum-exp技巧
			3.5.4 使用互信息进行特征选择
			3.5.5 使用词袋法对文本进行分类
	4 高斯模型
		4.1 引言
			4.1.1 符号表达
			4.1.2 基础知识
			4.1.3多元高斯模型( MVN)的极大似然估计(MLE)
			4.1.4 高斯分布的最大熵性质推导
		4.2 高斯判别分析
			4.2.1 二次判别分析 (QDA)
			4.2.2 线性判别分析(LDA)
			4.2.3 二分类LDA
			4.2.4 判别分析的MLE
			4.2.5 克服过拟合的策略
			4.2.6 含正则项的LDA*
			4.2.7 对角LDA
			4.2.8 最近收缩质心分类器*
		4.3 联合高斯分布中的推理问题
			4.3.1 相关结论
			4.3.2 例子
			4.3.3 MVN的信息表达形式
			4.3.4 结果证明*
		4.4 线性高斯系统
			4.4.1 结果陈述
			4.4.2 例子
			4.4.3 结果的证明*
		4.5 拓展:威舍特分布*
			4.5.1 逆威舍特分布
			4.5.2 威舍特分布的可视化*
		4.6 MVN的参数推理
			4.6.1 参数μ的后验分布
			4.6.2 参数Σ的后验分布*
			4.6.3 参数μ 和 Σ的后验分布*
			4.6.4 未知精度下的传感器融合*
	5 贝叶斯统计
		5.1 引言
		5.2 关于后验分布的相关总结
			5.2.1 最大后验估计
			5.2.2 可靠区间
			5.2.3 对比例差异的推断
		5.3 贝叶斯模型选择
			5.3.1 贝叶斯奥卡姆剃刀
			5.3.2 计算边缘似然(证据)
			5.3.3 贝叶斯因子
			5.3.4 Jeffreys-Lindley 悖论*
		5.4 先验分布
			5.4.1 无信息先验分布
			5.4.2 Jeffreys 先验*
			5.4.3 鲁棒先验
			5.4.4 混合共轭先验
		5.5 分层贝叶斯
		5.6 经验贝叶斯
			5.6.1 例子:beta-binomial模型
			5.6.2 例子:高斯-高斯模型
		5.7 贝叶斯决策论
			5.7.1 常规损失函数下的贝叶斯估计量
			5.7.2 假正例与假负例之间的权衡
			5.7.3 其他的主题*
	6 频率统计
		6.1 引言
		6.2 估计量的采样分布
			6.2.1 自举法
		6.3 频率学派的决策论
			6.3.1 贝叶斯风险
			6.3.2 最小最大风险
			6.3.3 可接受的估计量
		6.4 估计量的理想性质
			6.4.1 相容性估计量
			6.4.2 无偏估计
			6.4.3 方差最小估计量
			6.4.4 偏差-方差权衡
		6.5 经验风险最小化
			6.5.1 正则化风险最小化
			6.5.2 结构化风险最小化
			6.5.3 使用交叉验证估计风险
			6.5.4 使用统计学习理论计算风险的上确界
			6.5.5 代理损失函数
		6.6 (吐槽)频率学派的病理
			6.6.1置信区间的反直觉行为
			6.6.2 被认为无益的p值
			6.6.3似然原理
			6.6.4为什么不是每个人都是贝叶斯?
	7 线性回归
		7.1 引言
		7.2 模型说明
		7.3 最大似然估计(最小二乘法)
			7.3.1 最大似然估计(MLE)的推导
			7.3.2 几何解释
			7.3.3 凸函数
		7.4 健壮的线性回归
		7.5 岭回归
			7.5.1 基本思想
			7.5.2 计算中的数值稳定性问题
			7.5.3 与主成分分析(PCA)的联系*
			7.5.4 大数据的正则化效果
		7.6 贝叶斯线性回归
			7.6.1 计算后验分布
			7.6.2 计算后验预测
			7.6.3 当方差未知时的贝叶斯推理
			7.6.4 线性回归的EB(证据程序)
	8 Logistic回归
		8.1 引言
		8.2 模型描述
		8.3 模型训练
			8.3.1 MLE
			8.3.2 最速下降法
			8.3.3 牛顿法
			8.3.4 重复再加权最小二乘
			8.3.5拟牛顿(可变度量)方法
			8.3.6 L2正则化
			8.3.7多类别logistic回归
		8.4贝叶斯 logistic回归
			8.4.1拉普拉斯近似
			8.4.2 BIC的推导
			8.4.3 高斯近似用于logistic回归
			8.4.4近似后验预测
			8.4.5残差分析(异常值检测)*
		8.5在线学习和随机优化
			8.5.1在线学习和遗憾最小化
			8.5.2随机优化和风险最小化
			8.5.3 LMS算法
			8.5.4感知器算法
			8.5.5贝叶斯角度
		8.6生成式分类器与判别分类器
			8.6.1每种方法的优缺点
			8.6.2处理缺失数据
			8.6.3 Fisher线性判别分析(FLDA)*
	9 广义线性模型与指数族
		9.1 引言
		9.2 指数族分布
			9.2.1 定义
			9.2.2 例子
			9.2.3 对数配分函数
			9.2.4 指数族分布的MLE
			9.2.5 指数族分布的贝叶斯方法*
			9.2.6 指数族分布的最大熵推导*
		9.3 广义线性模型(GLMs)
			9.3.1 基础
			9.3.2 ML(最大似然)和MAP(最大后验概率)估计
			9.3.3 贝叶斯推理
		9.4 Probit 回归
			9.4.1 使用基于梯度优化的方法求解ML/MAP估计
			9.4.2 潜在变量解释
			9.4.3 顺序probit回归*
			9.4.4 Multinomial probit回归*
		9.5 多任务学习
			9.5.1 多任务学习的分层贝叶斯方法
			9.5.2个性化邮件垃圾邮件过滤应用
			9.5.3域适配应用
			9.5.4其他类型的先验
		9.6广义线性混合模型*
			9.6.1示例:医疗数据的半参数广义线性混合模型(GLMMs)
			9.6.2计算问题
		9.7 排序学习*
			9.7.1逐点方法
			9.7.2成对方法
			9.7.3列表法
			9.7.4排序损失函数
	10 有向图模型(DGMs,贝叶斯网络)
		10.1 引言
			10.1.1 链式法则
			10.1.2 条件独立性
			10.1.3 图模型
			10.1.4 图中的术语
			10.1.5 有向图模型
		10.2 例子
			10.2.1 朴素贝叶斯分类器
			10.2.2 马尔科夫和隐马尔科夫模型
			10.2.3医学诊断
			10.2.4基因连锁分析*
			10.2.5有向高斯图模型*
		10.3 推断
		10.4学习
			10.4.1 Plate notation
			10.4.2从完整数据中学习
			10.4.3缺失和/或潜在变量的学习
		10.5 DGMs的条件独立性
			10.5.1 d-分离和Bayes-Ball算法(全局马尔可夫性)
			10.5.2 DGMs的其他马尔可夫性
			10.5.3马尔可夫覆盖和完整条件
			10.6影响(决策)图*
		10.6影响(决策)图*
	11 混合模型与EM算法
		11.1 隐变量模型
		11.2 混合模型
			11.2.1 高斯混合模型
			11.2.2 混合多项式分布
			11.2.3 使用混合模型进行聚类
			11.2.4 混合专家
		11.3 混合模型中的参数估计
			11.3.1 不可辨识性
			11.3.2 MAP估计是一个非凸问题
		11.4 EM算法
			11.4.1 基本思想
			11.4.2 高斯混合模型(GMMs)的EM
			11.4.3 EM算法用于混合专家模型
			11.4.4 EM算法用于含隐变量的DGMs
			11.4.5 学生分布的EM算法
			11.4.6 probit回归的EM算法
			11.4.7 EM的理论基础
			11.4.8 在线EM算法
			11.4.9 其他EM算法变体
		11.5 潜变量模型的模型选择
			11.5.1 概率模型的模型选择
			11.5.2 非概率模型的模型选择
		11.6 含缺失数据的模型拟合
			11.6.1 EM算法用于含缺失数据的模型MLE
	12 隐线性模型
		12.1 因子分析(FA)
			12.1.1 FA是MVN的低秩参数化
			12.1.2 潜在因子的推理
			12.1.3不可识别性
			12.1.4混合因子分析
			12.1.5因子分析模型的EM
			12.1.6用缺失数据拟合FA模型
		12.2 主元分析
			12.2.1 经典PCA:定理陈述
			12.2.2 证明*
			12.2.3 奇异值分解(SVD)
			12.2.4概率主成分分析
			12.2.5 PCA的EM算法
		12.3选择潜在维度的数量
			12.3.1 FA/概率主成分分析(PPCA)的模型选择
			12.3.2 PCA的模型选择
		12.4分类数据的PCA分析
		12.5配对和多视角数据的PCA
			12.5.1监督PCA(潜在因子回归)
			12.5.2偏最小二乘
			12.5.3典型相关分析
		12.6独立分量分析(ICA)
			12.6.1最大似然估计
			12.6.2 FastICA算法
			12.6.3使用EM
		12.6.4其他估算原理*
	13 稀疏线性模型
		13.1 引言
		13.2 贝叶斯观点下的变量选择
			13.2.1 spike and slab model
			13.2.2从伯努利-高斯模型到L0正则化
			13.2.3算法
		13.3 L1正则:基本原理
			13.3.1 为什么L1正则可以得到稀疏解
			13.3.2 lasso最优解条件
			13.3.3 最小二乘,lasso,ridge和子集选择的比较
			13.3.4正规化的方式
			13.3.5模型选择
			13.3.6带拉普拉斯先验的线性模型的贝叶斯推理
		13.4 L1正则化:算法
			13.4.1坐标下降
			13.4.2 最小角回归算法(LARS)和其他同伦法
			13.4.3近端和梯度投影法
			13.4.4 EM之于 lasso
		13.5 L1正则化:扩展
			13.5.1 Group Lasso
			13.5.2 Fused lasso
			13.5.3 Elastic net (ridge and lasso结合)
		13.6非凸正则
			13.6.1桥回归
			13.6.2分层自适应lasso
			13.6.3其他层次先验
		13.7自动关联确定(ARD)/稀疏贝叶斯学习(SBL)
			13.7.1ARD之于 线性回归
			13.7.2 何处稀疏何处
			13.7.3 联系到MAP估算
			13.7.4 ARD 的算法*
			13.7.5 ARD之于logistic回归
		13.8 Sparse coding *
			13.8.1学习稀疏编码字典
			13.8.2 从图像patches的字典学习的结果
			13.8.3压缩传感
			13.8.4图像修复与去噪
	14 核方法
		14.1 引言
		14.2 核函数
			14.2.1 RBF核
			14.2.2 用于比较文本的核
			14.2.3 梅塞(正定)核
			14.2.4 线性核
			14.2.5 Matern 核
			14.2.6 String 核
			14.2.7 Pyramid match 核
			14.2.8 根据概率生成模型推导核
		14.3在GLMs中使用核
			14.3.1核机
			14.3.2 :相关向量机(L1VM),相关向量机(RVMs)等稀疏向量机
		14.4核技巧
			14.4.1核化近邻分类
			14.4.2核化K-medoids聚类
			14.4.3核化岭回归
			14.4.4核化主成分分析
		14.5支持向量机(SVM)
			14.5.1回归支持向量机
			14.5.2分类支持向量机
			14.5.3选择C
			14.5.4要点总结
			14.5.5支持向量机的概率解释
		14.6判别核方法的比较
		14.7核方法用于构建生成模型
			14.7.1平滑核
			14.7.2核密度估计(KDE)
			14.7.3从KDE到K最近邻算法(KNN)
			14.7.4核回归
			14.7.5局部加权回归
	15 高斯过程
		15.1引言
		15.2 高斯过程(GPs)回归
			15.2.1使用无噪声观测进行预测
			15.2.2使用噪声观测进行预测
			15.2.3核参数的影响
			15.2.4估计核参数
			15.2.5计算和数值问题*
			15.2.6半参数GPs *
		15.3 GPs遇到GLMs
			15.3.1二进制分类
			15.3.2多层次分类
			15.3.3泊松回归的GPs
		15.4与其他方法联系
			15.4.1与GPs相比的线性模型
			15.4.2与GPs相比的线性平滑器
			15.4.3支持向量机与GPs的比较
			15.4.4与GPs相比的L1VM和RVM
			15.4.5与GPs相比的神经网络
			15.4.6与GPs相比的平滑样条
			15.4.7 再生希尔伯特空间(RKHS)方法与GPs方法比较
		15.5 GP隐变量模型
		15.6大数据集的近似方法
	16 自适应基函数模型
		16.1 引言
		16.2 分类和回归树
			16.2.1 基本原理
			16.2.2 树的生成
			16.2.3 树的剪枝
			16.2.4 树的优势和缺点
			16.2.5 随机森林
			16.2.6 分类与回归树(CART)与分层混合专家*的比较
		16.3 广义叠加模型
			16.3.1 Backfitting
			16.3.2计算效率
			16.3.3多元自适应回归样条曲线(MARS)
		16.4 Boosting
			16.4.1 前向逐步叠加建模
			16.4.2 L2boosting
			16.4.3 AdaBoost
			16.4.4 LogitBoost
			16.4.5 作为函数梯度下降的提升
			16.4.6 稀疏boosting
			16.4.7 多变量自适应回归树
		16.5前馈神经网络(多层感知机)
			16.5.1卷积神经网络
			16.5.2其他类型的神经网络
			16.5.3 领域简史
			16.5.4反向传播算法
			16.5.5 Identifiability
			16.5.6 正则化
			16.5.7贝叶斯推断
		16.6 集成学习
			16.6.1 Stacking
			16.6.2纠错输出码
			16.6.3集成学习并不等同于贝叶斯模型平均
		16.7实验比较
			16.7.1 Low-dimensional features
			16.7.2高维特征
		16.8解释黑匣子模型
	17 马尔可夫与隐马尔可夫模型
		17.1 前言
		17.2 马尔科夫模型
			17.2.1 转移矩阵
			17.2.2 应用:语言模型
			17.2.3马尔可夫链的平稳分布
			17.2.4应用:谷歌的网页排名的PageRank算法*
		17.3 隐马尔可夫模型(HMMs)
			17.3.1 HMMs的应用
		17.4 HMMs的推理
			17.4.1 时间模型中推理问题的类型
			17.4.2 前向算法
			17.4.3 前向-后向算法
			17.4.4 Viterbi算法
			17.4.5前向滤波, 反向采样
		17.5 HMMs学习
			17.5.1充分观测数据进行培训
			17.5.2 HMMs的EM (Baum-Welch算法)
			17.5.3“拟合”HMMs的贝叶斯方法*
			17.5.4 区别性训练
			17.5.5模型选择
		17.6 HMMs的概括
			7.6.1可变持续时间(半马尔可夫)HMMs
			17.6.2分层HMMs
			17.6.3输入输出HMMs
			17.6.4自回归和buried HMM
			17.6.5 因子HMM
			17.6.6耦合HMM及其影响模型
			17.6.7动态贝叶斯网络(DBN)
	18 状态空间模型(SSMs)
		18.1 前言
		18.2 SSMs的应用
			18.2.1用于目标跟踪的SSMs
			18.2.2机器人SLAM
			18.2.3使用递归最小二乘法的在线参数学习
			18.2.4时间序列预测的SSM*
		18.3 LG-SSM推断
			18.3.1卡尔曼滤波算法
			18.3.2卡尔曼平滑算法
		18.4 LG-SSM学习
			18.4.1可辨识性和数值稳定性
			18.4.2充足观察数据的训练
			18.4.3 LG-SSM的EM
			8.4.4子空间方法
			18.4.5“拟合”LG SSMs的贝叶斯方法
		18.5非线性、非高斯ssm的近似在线推断
			18.5.1扩展卡尔曼滤波(EKF)
			18.5.2 Unscented卡尔曼滤波(UKF)
			18.5.3假设密度滤波(ADF)
		18.6混合离散/连续SSM
			18.6.1推断
			18.6.2应用:数据关联和多目标跟踪
			18.6.3应用:故障诊断
			18.6.4应用:计量经济预测
	19 无向图模型(UGMs,马尔可夫随机场(MRF))
		19.1前言
		19.2UGMs的条件独立性
			19.2.1关键特性
			19.2.2 d分离的无向替代方案
			19.2.3比较有向和无向图模型
		19.3 MRFs参数化
			19.3.1 Hammersley-Clifford定理
			19.3.2表示潜在函数
		19.4 MRF示例
			19.4.1 Ising 模型
			19.4.2 Hopfield网络
			19.4.3 Potts模型
			19.4.4高斯MRFs
			19.4.5马尔可夫逻辑网络*
		19.5学习
			19.5.1使用梯度方法训练最大熵模型
			19.5.3 MRF最大似然估计的近似计算方法
			19.5.4伪似然
			19.5.5随机最大似然
			19.5.6 最大熵模型的特征归纳*
			19.5.7迭代比例拟合(IPF)*
		19.6条件随机场(CRF)
			19.6.1链式结构的CRF、MEMM和标签偏差问题
			19.6.2 CRF的应用
			19.6.3 CRF训练
		19.7结构支持向量机(SSVM)
			19.7.1 SSVMs:概率角度
			19.7.2 SSVMs:非概率角度
			19.7.3拟合SSVM的切平面方法
			19.7.4 拟合SSVM的在线算法
			19.7.5潜在结构支持向量机
	20 图模型的精确推断
		20.1 引言
		20.2 树的置信度传播(BP)算法
			20.2.1串行协议
			20.2.2并行协议
			20.2.3高斯BP*
			20.2.4其他BP变体
		20.3变量消除(VE)算法
			20.3.1广义分配律*
			20.3.2 VE的计算复杂度
			20.3.3 VE的缺陷
		20.4联合树算法(JTA)*
			20.4.1创建联合树
			20.4.2连联合树的消息传递
			20.4.3 JTA的计算复杂性
			20.4.4 JTA概述*
		20.5最坏情况下精确推断的计算困难性
			20.5.1近似推断
	21 变分推断
		21.1 前言
		21.2变分推断
			21.2.1变分目标的替代解释
			21.2.2 Forward or reverse KL? *
		21.3平均场法
			21.3.1平均场更新方程的推导
			21.3.2示例: Ising 模型的平均场
		21.4结构化平均场*
			21.4.1示例:因子HMM
		21.5变分贝叶斯(VB)
			21.5.1 示例:VB用于一元高斯分布
			21.5.2示例:用于线性回归的VB
		21.6 变分Bayes EM
			21.6.1示例:高斯混合的VBEM*
		21.7信息传递和 VIBS
		21.8局部变分界限*
			21.8.1 Motivating应用
			21.8.2log-sum-exp函数的Bohning二次界
			21.8.3 sigmoid函数的界限
			21.8.4log-sum-exp函数的其他界限和近似值*
			21.8.5基于上界的变分推理
	22 more 变分推断
		22.1 前言
		22.2循环信念传播(LBP):算法问题
			22.2.1 一段简短历史
			22.2.2 成对模型中的LBP
			22.2.3 因子图的LBP
			22.2.4 收敛
			22.2.5 LBP的准确率
			22.2.6 LBP 的其他加速技巧*
		22.3循环信念传播:理论问题*
			22.3.1 UGMs以指数族形式表示
			22.3.2 边沿多面体
			22.3.3 作为变分优化问题的精确推理
			22.3.4 作为变分优化问题的平均场
			22.3.5 作为变分优化问题的LBP
			22.3.6 Loopy 与 平均场
		22.4 信念传播的扩展*
			22.4.1 广义信念传播
			22.4.2 凸信念传播
		22.5期望传播(EP)
			22.5.1 EP作为变分推断问题
			22.5.2 利用矩匹配对EP目标进行优化
			22.5.3 聚类问题的EP
			22.5.4 LBP是特殊的EP
			22.5.5 Ranking players using TrueSkill
			22.5.6 EP的其他应用
		22.6 MAP状态估计
			22.6.1 线性规划松弛
			22.6.2 Max-product信念传播
			22.6.3 Graphcuts
			22.6.4 graphcuts和BP算法的实验比较
			22.6.5 对偶分解
	23 蒙特卡洛推断
		23.1 前言
		23.2 Sampling from standard distributions
			23.2.1 使用cdf
			从高斯分布中采样( (Box-Muller方法))
		23.3 拒绝采样
			23.3.1 基本思路
			23.3.2 例子
			23.3.3 贝叶斯统计的应用
			23.3.4 自适应拒绝采样
			23.3.5 高维拒绝采样
		23.4 重要性采样
			23.4.1 基本思路
			23.4.2处理未标准化的分布
			23.4.3有向图模型( DGM)的重要性抽样:似然加权
			23.4.4 重要性重采样
		23.5 粒子滤波
			23.5.1 序列重要性采样
			23.5.2 退化问题
			23.5.3 重采样步骤
			23.5.4 The proposal distribution
			23.5.5 应用:机器人定位
			23.5.6 应用:视觉目标跟踪
			23.5.7 应用:时间序列预测
		23.6 Rao-Blackwellised粒子滤波(RBPF)
			23.6.1 RBPF for switching LG-SSMs
			23.6.2 应用:机动目标跟踪
			23.6.3 应用:Fast SLAM
	24 马尔可夫链蒙特卡罗推断
		24.1 前言
		24.2 吉布斯(Gibbs )采样
			24.2.1 基本思想
			24.2.2 例子:Ising 模型的吉布斯采样
			24.2.3 例子:吉布斯采样用于推导GMM的参数
			24.2.4 Collapsed Gibbs sampling *
			24.2.5 分层GLMs的吉布斯采样
			24.2.6 BUGS和JAGS
			24.2.7 后验插补(IP)算法
			24.2.8 Blocking吉布斯抽样
		24.3 Metropolis Hastings (MH)算法
			24.3.1 基本思想
			24.3.2 吉布斯采样是MH的特特例
			24.3.3 Proposal distributions
			24.3.4 自适应马尔科夫链蒙特卡洛(MCMC)
			24.3.5 初始化和模式跳转
			24.3.6 MH的工作原理*
			24.3.7 可逆跳跃(跨维)MCMC*
		24.4 MCMC的速度和精度
			24.4.1 burn-in 阶段
			24.4.2 马尔可夫链的混合率*
			24.4.3 实用收敛诊断
			24.4.4 MCMC的准确率
			24.4.5 有多少链
		24.5辅助变量MCMC*
			24.5.1 logistic回归的辅助变量抽样
			24.5.2 切片取样
			24.5.3 Swendsen Wang
			24.5.4 混合/Hamiltonian MCMC*
		24.6 退火方法
			24.6.1 模拟退火
			24.6.2 退火重要性取样
			24.6.3 并行退火
		24.7 近似边际似然
			24.7.1 候选方法
			24.7.2 调和平均值估计
			24.7.3 退火重要性采样
	25 聚类
		25.1 前言
			25.1.1 Measuring (dis)similarity
			25.1.2评估聚类方法的输出*
		25.2 Dirichlet过程混合模型
			25.2.1 有限到无限混合模型
			25.2.2Dirichlet过程
			25.2.3 将Dirichlet 过程应用到混合模型
			25.2.4 拟合一个DP混合模型
		25.3 仿射传播
		25.4 谱聚类
			25.4.1 图拉普拉斯
			25.4.2 标准化图拉普拉斯
			25.4.3 例子
		25.5 层次聚类
			25.5.1凝聚聚类
			25.5.2 分裂聚类
			25.5.3 选择聚类数目
			25.5.4 贝叶斯层次聚类
		25.6 聚类数据点和特性
			25.6.1 双聚类算法
			25.6.2 多视图聚类
	26 图模型的结构学习
		26.1 前言
		26.2知识发现的结构学习
			26.2.1 关联网络
			26.2.2 依赖网络
		26.3学习树结构
			26.3.1 有向还是无向树?
			26.3.2 Chow-Liu 算法求解最大似然树结构
			求最大后验概率森林
			26.3.4 树混合
		26.4学习DAG结构
			26.4.1 马尔可夫等价性
			26.4.2 精确结构推断
			26.4.3 放大到更大的图
		26.5学习潜在变量的有向无环图(DAG)结构
			26.5.1 马尔可夫等价性
			26.5.2 结构化EM
			26.5.3 发现隐藏变量
			26.5.4 示例学习: Google’s Rephil
			26.5.5:结构方程模型*
		26.6学习因果DAGs
			26.6.1 DAGs的因果解释
			26.6.2 用因果DAGs解Simpson悖论
			26.6.3 学习因果DAG结构
		26.7 学习无向高斯图模型
			26.7.1GGm和MLE
			26.7.2 图 lasso
			26.7.3 G广义高斯一马尔可夫(GGM)构的贝叶斯推断
			26.7.4 26.7.4使用copulas处理非高斯数据*
		26.8学习无向离散图模型
			26.8.1 马尔科夫随机场(MRFs)/条件随机场(CRDs)的图lasso
			26.8.2 联合树
	27 离散数据的隐变量模型
		27.1 前言
		27.2 离散数据的分布式状态隐变量模型(LVMs)
			27.2.1 混合模型
			27.2.2 指数族PCA
			27.2.3 LDA和Multilinear PCA(MPCA)
			27.2.4 GaP模型与非负矩阵分解
		27.3 潜在狄氏分配(LDA)
			27.3.1 基础
			27.3.2 主题的无监督发现
			27.3.3 LDA作为语言模型的定量评价
			27.3.4 使用(collapsed)Gibbs采样进行拟合
			27.3.5 例子
			27.3.6 用批量变分推断拟合
			27.3.7 使用在线变分推断拟合
			27.3.8 确定主题的数量
		27.4 LDA的扩展
			27.4.1 相关主题模型
			27.4.2 动态主题模型
			27.4.3 LDA-HMM
			27.4.4 监督LDA
		27.5 图结构数据的LVMs
			27.5.1 Stochastic block model
			27.5.2 Mixed membership stochastic block model
			27.5.3 Relational 主题模型
		27.6关系数据的LVMs
			27.6.1 无限关系模型
			27.6.2 协同过滤的概率矩阵分解
		27.7 受限玻尔兹曼机(RBMs)
			27.7.1 RBM的种类
			27.7.2 学习RBMs
			27.7.3 RBMs的应用
	28 深度学习
		28.1 前言
		28.2 深度生成式模型
			28.2.1深度有向网络
			28.2.2深度玻尔兹曼机
			28.2.3深度信念网络(DBN)
			28.2.4 dbn的贪婪分层学习
		28.3 深度神经网络
			28.3.1 深度多层感知机
			28.3.2 深度自编码器
			28.3.3 叠加去噪自动编码器
		28.4 深度网络的应用
			28.4.1使用DBN进行手写数字分类
			28.4.2使用深度自动编码器进行数据可视化和特征发现
			28.4.3使用深度自动编码器进行信息检索(语义哈希)
			28.4.4使用一维卷积DBN学习音频特性
			28.4.5使用二维卷积DBN学习图像特征
		28.5 讨论



西瓜书

在这里插入图片描述

未开源

西瓜书
	1 绪论
		1.1 引言
		1.2 基本术语
		1.3 假设空间
		1.4 归纳偏好
		1.5 发展历程
		1.6 应用现状
		1.7 阅读材料
	2 模型评估与选择 
		2.1 经验误差与过拟合
		2.2 评估方法
			2.2.1 留出法
			2.2.2 交叉验证法
			2.2.3 自助法
			2.2.4 调参与最终模型
		2.3 性能度量 
			2.3.1 错误率与精度
			2.3.2 查准率、查全率与F1 
			2.3.3 ROC与AUC
			2.3.4 代价敏感错误率与代价曲线
		2.4 比较检验
			2.4.1 假设检验
			2.4.2 交叉验证t检验
			2.4.3 McNemar检验
			2.4.4 Friedman检验	与后续检验
			2.5 偏差与方差
			2.6 阅读材料
	3 线性模型
		3.1 基本形式
		3.2 线性回归
		3.3 对数几率回归
		3.4 线性判别分析
		3.5 多分类学习
		3.6 类别不平衡问题
		3.7 阅读材料
	4 决策树
		4.1 基本流程
		4.2 划分选择
			4.2.1 信息增益
			4.2.2 增益率
			4.2.3 基尼指数
		4.3 剪枝处理
			4.3.1 预剪枝
			4.3.2 后剪枝
		4.4 连续与缺失值
			4.4.1 连续值处理
			4.4.2 缺失值处理
		4.5 多变量决策树
		4.6 阅读材料
	5 神经网络
		5.1 神经元模型
		5.2 感知机与多层网络
		5.3 误差逆传播算法
		5.4 全局最小与局部极小
		5.5 其他常见神经网络 
			5.5.1 RBF网络
			5.5.2 ART网络
			5.5.3 SOM网络
			5.5.4 级联相关网络
			5.5.5 Elman网络
			5.5.6 Boltzmann机
		5.6 深度学习
		5.7 阅读材料
	6 支持向量机 
		6.1 间隔与支持向量
		6.2 对偶问题
		6.3 核函数
		6.4 软间隔与正则化
		6.5 支持向量回归
		6.6 核方法
		6.7 阅读材料
	7 贝叶斯分类器
		7.1 贝叶斯决策论 
		7.2 极大似然估计
		7.3 朴素贝叶斯分类器
		7.4 半朴素贝叶斯分类器
		7.5 贝叶斯网
			7.5.1 结构
			7.5.2 学习 
			7.5.3 推断 
		7.6 EM算法 
		7.7 阅读材料
	8 集成学习
		8.1 个体与集成 
		8.2 Boosting
		8.3 Bagging与随机森林
			8.3.1 Bagging
			8.3.2 随机森林
		8.4 结合策略
			8.4.1 平均法
			8.4.2 投票法
			8.4.3 学习法
		8.5 多样性
			8.5.1 误差--分歧分解
			8.5.2 多样性度量
			8.5.3 多样性增强
		8.6 阅读材料
	9 聚类
		9.1 聚类任务
		9.2 性能度量
		9.3 距离计算
		9.4 原型聚类
			9.4.1 k均值算法
			9.4.2 学习向量量化
			9.4.3 高斯混合聚类
		9.5 密度聚类
		9.6 层次聚类
		9.7 阅读材料
	10 降维与度量学习
		10.1 k近邻学习
		10.2 低维嵌入
		10.3 主成分分析
		10.4 核化线性降维
		10.5 流形学习
			10.5.1 等度量映射 
			10.5.2 局部线性嵌入
		10.6 度量学习
		10.7 阅读材料
	11 特征选择与稀疏学习
		11.1 子集搜索与评价
		11.2 过滤式选择
		11.3 包裹式选择
		11.4 嵌入式选择与L1正则化
		11.5 稀疏表示与字典学习
		11.6 压缩感知
	12 计算学习理论
		12.1 基础知识
		12.2 PAC学习
		12.3 有限假设空间
			12.3.1 可分情形
			12.3.2 不可分情形
		12.4 VC维
		12.5 Rademacher复杂度
		12.6 稳定性
	13 半监督学习 
		13.1 未标记样本
		13.2 生成式方法
		13.3 半监督SVM
		13.4 图半监督学习
		13.5 基于分歧的方法
		13.6 半监督聚类 
		13.7 阅读材料
	14 概率图模型
		14.1 隐马尔可夫模型
		14.2 马尔可夫随机场
		14.3 条件随机场
		14.4 学习与推断
			14.4.1 变量消去
			14.4.2 信念传播
		14.5 近似推断
			14.5.1 MCMC采样
			14.5.2 变分推断
		14.6 话题模型
		14.7 阅读材料
	15 规则学习
		15.1 基本概念
		15.2 序贯覆盖
		15.3 剪枝优化 
		15.4 一阶规则学习
		15.5 归纳逻辑程序设计
			15.5.1 最小一般泛化 
			15.5.2 逆归结
		15.6 阅读材料
	16 强化学习
		16.1 任务与奖赏
		16.2K-摇臂赌博机
			16.2.1 探索与利用
			16.2.2 epsilon-贪心
			16.2.3 Softmax 
		16.3 有模型学习
			16.3.1 策略评估
			16.3.2 策略改进
			16.3.3 策略迭代与值迭代
		16.4 免模型学习
			16.4.1 蒙特卡罗强化学习
			16.4.2 时序差分学习
		16.5 值函数近似
		16.6 模仿学习
			16.6.1 直接模仿学习
			16.6.2 逆强化学习
		16.7 阅读材料

花书

在这里插入图片描述

已被翻译:

https://github.com/exacity/deeplearningbook-chinese

中文版的pdf也在我分享的那个文件夹里。

花书
	1 前言
		1.1 谁应该读这本书?
		1.2 深度学习的历史发展趋势
	I 应用到的数学与机器学习基础
		2 线性代数
			2.1 标量,向量,矩阵和张量
			2.2 矩阵和向量相乘
			2.3 单位矩阵与逆矩阵
			2.4 线性相关与张成空间
			2.5 范数
			2.6 特殊的矩阵和向量
			2.7 特征分解
			2.8 奇异值分解
			2.9 Moore-Penrose伪逆
			2.10 迹运算
			2.11 行列式
			2.12 示例:主成分分析
		3 概率论与信息论
			3.1 为什么要用概率
			3.2 随机变量
			3.3 概率分布
			3.4 边缘概率
			3.5 条件概率
			3.6 条件概率的链式法则
			3.7 独立性与条件独立性
			3.8 期望,方差和协方差
				
			3.9 常用概率分布
			3.10 常用函数的有用性质
			3.11 贝叶斯法则
				
			3.12 连续型变量的技术细节
			3.13 信息论
			3.14 结构化概率模型
		4 数值计算
			4.1 上溢与下溢
			4.2 病态条件数
			4.3 基于梯度的优化方法
			4.4 约束优化
			4.5 实例:线性最小二乘
		5 机器学习基础
			5.1 学习算法
			5.2 容量,过拟合与欠拟合
			5.3 超参数与验真集
			5.4 估计,偏差和方差
			5.5 极大似然估计
			5.6 贝叶斯统计
			5.7 监督学习算法
			5.8 无监督学习算法
			5.9 随机梯度下降
			5.10 构建机器学习算法
			5.11 推动机器学习的挑战
	II 深度网络:现代方法
		6 深度前馈网络
			6.1 例子:学习XOR
			6.2 基于梯度的学习
			6.3 隐藏单元
			6.4 结构设计
			6.5 反向传播与其他微分算法
			6.6 历史小记
		7 深度学习的正规化
			7.1 参数范数惩罚
			7.2 范数惩罚约束优化
			7.3 正则化与欠约束问题
			7.4 数据集增强
			7.5 噪声鲁棒性
			7.6 半监督学习
			7.7 多任务学习
			7.8 早停法
			7.9 参数板顶与参数共享
			7.10 稀疏表示
			7.11 Bagging 和其他集成方法
			7.12 dropout
			7.13 对抗训练
			7.14 切面距离、正切传播和流形正切分类
		8 深部模型训练的优化
			8.1 学习和单纯的优化有什么不同
			8.2 神经网络优化的挑战
			8.3 基本算法
			8.4 参数初始化策略
			8.5 自适应学习率的算法
			8.6 二阶近似方法
			8.7 优化技巧和元算法
		9 卷积网络
			9.1 卷积运算
			9.2 动机
			9.3 池化
			9.4 卷积与池化作为一种无限强的先验
			9.5 基本卷积函数的变体
			9.6 结构化输出
			9.7 数据类型
			9.8 高效的卷积算法
			9.9 随机或无监督的特征
			9.10 卷积神经网络的神经科学基础
			9.11 卷积神经网络与深度学习的历史
		10 序列建模:循环和递归网络
			10.1 展开计算图
			10.2 循环神经网络
			10.3 双向RNN
			10.4 基于编码-解码的序列到序列的架构
			10.5 深度循环网络
			10.6 递归神经网络
			10.7 长期依赖的挑战
			10.8 回声状态函数
			10.9 渗透单元和其他多时间尺度的策略
			10.10 长短期记忆和其他门限RNN
			10.11 优化长期依赖
			10.12 外显记忆
		11 一些实用的方法
			11.1 性能度量
			11.2 默认的基准模型
			11.3 决定是否收集更多数据
			11.4 选择超参数
			11.5 调试技巧
			11.6 示例:多位数字识别
		12 应用
			12.1 大规模深度学习
			12.2 GPU实现
			12.3 语音识别
			12.4 自然语言处理
			12.5 其他应用
	III 深度学习研究
		13 线性因子模型
			13.1 概率PCA与因子分析
			13.2 独立分量分析
			13.3 慢特征分析
			13.4 稀疏编码
			13.5 PCA与流形解释
		14 自动编码器
			14.1 欠完备自动编码器
			14.2 正则自动编码器
			14.3 表示能力
			14.4 随机编码器与解码器
			14.5 去噪自动编码器
			14.6 使用自动编码器学习流形
			14.7 收缩自动编码器
			14.8 预测稀疏分解
			14.9 自动编码器的应用
		15 表示学习
			15.1 贪心逐层无监督预训练
			15.2 迁移学习与领域自适应
			15.3 半监督解释因果关系
			15.4 分布式表示
			15.5 得益于深度的指数增益
			15.6 提供发现潜在原因的线索
		16 深度学习中的结构化概率模型
			16.1 非结构化建模的挑战
			16.2 使用图来描述结构
			16.3 从图模型中采样
			16.4 结构化建模的优势
			16.5 学习依赖性关系
			16.6 推断与近似推断
			16.7 结构化概率模型的深度学习方法
		17 蒙特卡洛方法
			17.1 采样与蒙特卡罗方法
			17.2 重要采样
			17.3 马尔科夫链蒙特卡罗方法
			17.4 吉布斯采样
			17.5 不同峰值之间的混合挑战
		18 直面配分函数
			18.1 对数似然梯度
			18.2 随机极大似然与对比散度
			18.3 伪似然
			18.4 分数匹配与比率匹配
			18.5 去噪得分匹配
			18.6 噪扰对比估计
			18.7 估计分割函数
		19 近似推断
			19.1 推断是一个优化问题
			19.2 期望最大化
			19.3 最大后验推断与稀疏编码
			19.4 变分推断与学习
			19.5 learned 近似推断
		20 深度生成模型
			20.1 玻耳兹曼机器
			20.2 受限波尔兹曼机
			20.3 深度信念网络
			20.4 深度玻耳兹曼机
			20.5 实值数据上的玻尔兹曼机
			20.6 卷积玻尔兹曼机
			20.7 用于结构化或序列输出的玻耳兹曼机
			20.8 其他玻尔兹曼机
			20.9 通过随机操作的反向传播
			20.10 有向生成网络
			20.11 从自动编码器取样
			20.12 生成随机网络
			20.13 其他生成方案
			20.14 评估生成模型
			20.15 总结

Reinforcement Learning:An Introduction (Second edition)

在这里插入图片描述

已被翻译:

https://rl.qiwihui.com/zh_CN/latest/

RLAI
	1 导论
		1.1 强化学习
		1.2 示例
		1.3 强化学习要素
		1.4 局限性与适用范围
		1.5 扩展实例:井字棋 
		1.6 本章小结
		1.7 强化学习的早期历史
	第I部分 表格型求解方法
		2 多臂赌博机
			2.1 一个 k 臂赌博机问题 
			2.2 动作-价值方法
			2.3 10 臂测试平台
			2.4 增量式实现
			2.5 跟踪一个非平稳问题
			2.6 乐观初始值
			2.7 基于置信度上界的动作选择
			2.8 梯度赌博机算法
			2.9 关联搜索 (上下文相关的赌博机)
			2.10 本章小结
		3 有限马尔可夫决策过程
			3.1 “智能体-环境”交互接口
			3.2 目标和收益
			3.3 回报和分幕(Episodes )
			3.4 分幕式和持续性任务的统一表示法
			3.5 策略和价值函数
			3.6 最优策略和最优价值函数
			3.7 最优化和近似算法 
			3.8 本章小结
		4 动态规划
			4.1 策略评估 (预测)
			4.2 策略改进 
			4.3 策略迭代
			4.4 价值迭代
			4.5 异步动态规划
			4.6 广义策略迭代
			4.7 动态规划的效率
			4.8 本章小结
		5 蒙特卡洛方法
			5.1 蒙特卡洛预测
			5.2 动作价值的蒙特卡洛估计
			5.3 蒙特卡洛控制
			5.4 没有试探性出发假设的蒙特卡洛控制
			5.5 基于重要度采样的异策预测
			5.6 增量式实现
			5.7 异策蒙特卡洛控制
			5.8 ∗ 折扣敏感的重要性采样
			5.9 ∗ 每次决策型重要性采样
			5.10 本章小结 
		6 时序差分学习
			6.1 时序差分预测
			6.2 时序差分预测方法的优势
			6.3 TD(0) 的最优性
			6.4 Sarsa:同策的时序差分控制
			6.5 Q 学习:异策时序差分控制
			6.6 期望 Sarsa
			6.7 最大化偏差与双学习
			6.8 游戏、后位状态和其他特殊例子
			6.9 本章小结
		7 n 步自举法
			7.1 n 步时序差分预测
			7.2 n 步 Sarsa
			7.3 n 步异策学习
			7.4 ∗ 带控制变量的预决策型方法
			7.5 不需要使用重要性采样的异策学习方法:n 步树回溯算法
			7.6 ∗ 一个统一的算法:n 步 Q(σ)
			7.7 本章小结
		8 基于表格型方法的规划和学习
			8.1 模型和规划
			8.2 Dyna:集成规划、动作和学习
			8.3 当模型错误的时候 
			8.4 优先遍历
			8.5 期望更新与采样更新的对比
			8.6 轨迹采样
			8.7 实时动态规划
			8.8 决策时规划
			8.9 启发式搜索
			8.10 预演算法
			8.11 蒙特卡洛树搜索
			8.12 本章小结
			8.13 第I部分总结
	第II部分 近似求解方法
		9 基于函数逼近的同策预测
			9.1 价值函数逼近
			9.2 预测目标 (VE ) 
			9.3 随机梯度和半梯度方法
			9.4 线性方法
			9.5 线性方法的特征构造
				9.5.1 多项式基
				9.5.2 傅立叶基
				9.5.3 粗编码
				9.5.4 瓦片编码 
				9.5.5 径向基函数
			9.6 手动选择步长参数
			9.7 非线性函数逼近:人工神经网络
			9.8 最小二乘时序差分
			9.9 基于记忆的函数逼近
			9.10 基于核函数的函数逼近
			9.11 深入了解同策学习:“兴趣”与“强调”
			9.12 本章小结 
		10 基于函数逼近的同策控制
			10.1 分幕式半梯度控制
			10.2 半梯度 n 步 Sarsa
			10.3 平均收益:持续性任务中的新的问题设定
			10.4 弃用折扣
			10.5 差分半梯度 n 步 Sarsa
			10.6 本章小结
		11 ∗ 基于函数逼近的异策方法
			11.1 半梯度方法
			11.2 异策发散的例子
			11.3 致命三要素
			11.4 线性价值函数的几何性质
			11.5 对贝尔曼误差做梯度下降
			11.6 贝尔曼误差是不可学习的
			11.7 梯度 TD 方法
			11.8 强调 TD 方法 
			11.9 减小方差
			11.10 本章小结
		12 资格迹
			12.1 λ-回报 
			12.2 TD(λ) 
			12.3 n-步截断 λ- 回报方法
			12.4 重做更新:在线 λ-回报算法
			12.5 真实的在线 TD(λ) 
			12.6 ∗ 蒙特卡洛学习中的荷兰迹
			12.7 Sarsa(λ) 
			12.8 变量 λ 和 γ 
			12.9 带有控制变量的异策资格迹
			12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ) 
			12.11 采用资格迹保障异策方法的稳定性
			12.12 实现中的问题
			12.13 本章小结 
		13 策略梯度方法
			13.1 策略近似及其优势
			13.2 策略梯度定理
			13.3 REINFORCE:蒙特卡洛策略梯度
			13.4 带有基线的 REINFORCE
			13.5 “行动器-评判器”方法
			13.6 持续性问题的策略梯度
			13.7 针对连续动作的策略参数化方法
			13.8 本章小结
	第III部分 深入研究
		14 心理学
			14.1 预测与控制
			14.2 经典条件反射
				14.2.1 阻塞与高级条件反射
				14.2.2 Rescorla-Wagner 模型
				14.2.3 TD 模型
				14.2.4 TD 模型模拟
			14.3 工具性条件反射
			14.4 延迟强化
			14.5 认知图
			14.6 习惯行为与目标导向行为
			14.7 本章小结
		15 神经科学
			15.1 神经科学基础
			15.2 收益信号、强化信号、价值和预测误差
			15.3 收益预测误差假说
			15.4 多巴胺
			15.5 收益预测误差假说的实验支持
			15.6 TD 误差/多巴胺对应
			15.7 神经“行动器-评判器” 
			15.8 行动器与评判器学习规则
			15.9 享乐主义神经元
			15.10 集体强化学习
			15.11 大脑中的基于模型的算法
			15.12 成瘾
			15.13 本章小结
		16 应用及案例分析
			16.1 TD-Gammon 
			16.2 Samuel 的跳棋程序
			16.3 Watson 的每日双倍投注
			16.4 优化内存控制
			16.5 人类级别的视频游戏
			16.6 主宰围棋游戏
				16.6.1 AlphaGo 
				16.6.2 AlphaGo Zero
			16.7 个性化网络服务
			16.8 热气流滑翔
		17 前沿技术
			17.1 广义价值函数和辅助任务
			17.2 基于选项理论的时序摘要
			17.3 观测量和状态
			17.4 设计收益信号
			17.5 遗留问题
			17.6 人工智能的未来



统计学习方法(第2版)

在这里插入图片描述

未开源

统计学习方法
	第1篇监督学习
		1 统计学习及监督学习概论
			1.1统计学习
			1.2统计学习的分类
				1.2.1基本分类
				1.2.2按模型分类
				1.2.3按算法分类
				1.2.4按技巧分类
			1.3统计学习方法三要素
				1.3.1模型
				1.3.2策略 
				1.3.3算法
			1.4模型评估与模型选择
				1.4.1训练误差与测试误差
				1.4.2过拟合与模型选择
			1.5正则化与交叉验证
				1.5.1正则化
				1.5.2交叉验证
			1.6泛化能力
				1.6.1泛化误差
				1.6.2泛化误差上界
			1.7生成模型与判别模型
			1.8监督学习应用
				1.8.1分类问题
				1.8.2标注问题
				1.8.3回归问题
		2 感知机
			2.1感知机模型
			2.2感知机学习策略
				2.2.1数据集的线性可分性
				2.2.2感知机学习策略
			2.3感知机学习算法
				2.3.1感知机学习算法的原始形式
				2.3.2算法的收敛性
				2.3.3感知机学习算法的对偶形式
		3 k近邻法
			3.1k近邻算法
			3.2k近邻模型
				3.2.1模型
				3.2.2距离度量
				3.2.3k值的选择
				3.2.4分类决策规则
			3.3k近邻法的实现:kd树
				3.3.1构造kd树
				3.3.2搜索kd树
		4 朴素贝叶斯f方法
			4.1朴素贝叶斯法的学习与分类
				4.1.1基本方法
				4.1.2后验概率最大化的含义
			4.2朴素贝叶斯法的参数估计
				4.2.1极大似然估计
				4.2.2学习与分类算法
				4.2.3贝叶斯估计
		5 决策树
			5.1	决策树模型与学习
				5.1.1决策树模型
				5.1.2决策树与if-then规则
				5.1.3决策树与条件概率分布
				5.1.4决策树学习
			5.2特征选择
				5.2.1特征选择问题
				5.2.2信息增益
				5.2.3信息增益比
			5.3决策树的生成
				5.3.1ID3算法
				5.3.2C4.5的生成算法
			5.4决策树的剪枝
			5.5CART算法
				5.5.1CART生成
				5.5.2CART剪枝
		6 逻辑斯谛回归与最大熵模型
			6.1逻辑斯谛回归模型
				6.1.1	逻辑斯谛分布
				6.1.2二项逻辑斯谛回归模型
				6.1.3模型参数估计
				6.1.4多项逻辑斯谛回归
			6.2最大熵模型
				6.2.1最大熵原理
				6.2.2最大熵模型的定义
				6.2.3最大熵模型的学习
				6.2.4	极大似然估计
			6.3模型学习的最优化算法
				6.3.1改进的迭代尺度法
				6.3.2拟牛顿法
		7 线性可分支持向量机与硬间隔最大化
			7.1线性可分支持向量机与硬间隔最大化
				7.1.1线性可分支持向量机
				7.1.2函数间隔和几何间隔
				7.1.3间隔最大化
				7.1.4学习的对偶算法
			7.2线性支持向量机与软间隔最大化
				7.2.1线性支持向量机
				7.2.2学习的对偶算法
				7.2.3支持向量
				7.2.4	合页损失函数
			7.3非线性支持向量机与核函数
				7.3.1核技巧
				7.3.2正定核
				7.3.3常用核函数
				7.3.4非线性支持向量分类机
			7.4序列最小最优化算法
				7.4.1两个变量二次规划的求解方法
				7.4.2变量的选择方法
				7.4.3SMO算法
		8 提升方法
			8.1提升方法AdaBoost算法
				8.1.1提升方法的基本思路
				8.1.2AdaBoost算法
				8.1.3AdaBoost的例子
			8.2AdaBoost算法的训练误差分析
			8.3AdaBoost算法的解释
				8.3.1前向分步算法
				8.3.2前向分步算法与AdaBoost
			8.4提升树
				8.4.1提升树模型
				8.4.2提升树算法
				8.4.3梯度提升
		9 EM算法及其推广
			9.1EM算法的引入
				9.1.1EM算法
				9.1.2EM算法的导出
				9.1.3EM算法在无监督学习中的应用
			9.2EM算法的收敛性
			9.3EM算法在	高斯混合模型	学习中的应用
				9.3.1高斯混合模型
				9.3.2高斯混合模型参数估计的EM算法
			9.4EM算法的推广
				9.4.1 F函数的极大-极大算法
				9.4.2 GEM算法
		10 隐马尔可夫模型
			10.1隐马尔可夫模型的基本概念
				10.1.1隐马尔可夫模型的定义
				10.1.2观测序列的生成过程
				10.1.3隐马尔可夫模型的3个基本问题
			10.2概率计算算法
				10.2.1	直接计算法
				10.2.2前向算法
				10.2.3后向算法
				10.2.4一些概率与期望值的计算
			10.3学习算法
				10.3.1监督学习方法
				10.3.2Baum-Welch算法
				10.3.3Baum-Welch模型参数估计公式
			10.4预测算法
				10.4.1近似算法
				10.4.2维特比算法
		11 条件随机场
			11.1概率无向图模型
				11.1.1模型定义
				11.1.2概率无向图模型的因子分解
			11.2条件随机场的定义与形式
				11.2.1条件随机场的定义
				11.2.2条件随机场的参数化形式
				11.2.3条件随机场的简化形式
				11.2.4条件随机场的矩阵形式
			11.3条件随机场的概率计算问题
				11.3.1前向-后向算法
				11.3.2概率计算
				11.3.3期望值的计算
			11.4条件随机场的学习算法
				11.4.1改进的迭代尺度法
				11.4.2拟牛顿法
			11.5 条件随机场的预测算法
		12 监督学习方法总结
	第2篇无监督学习
		13 无监督学习概论
			13.1无监督学习基本原理
			13.2基本问题
			13.3机器学习三要素
			13.4 无监督学习方法
		14 聚类方法
			14.1聚类的基本概念
				14.1.1相似度或距离
				14.1.2类或簇
				14.1.3类与类之间的距离
			14.2层次聚类
			14.3k均值聚类
				14.3.1模型
				14.3.2策略
				14.3.3算法
				14.3.4算法特性
		15 奇异值分解
			15.1奇异值分解的定义与性质
				15.1.1定义与定理
				15.1.2紧奇异值分解与截断奇异值分解
				15.1.3几何解释
				15.1.4主要性质
			15.2奇异值分解的计算
			15.3	奇异值分解	与矩阵近似
				15.3.1弗罗贝尼乌斯范数
				15.3.2矩阵的最优近似
				15.3.3矩阵的外积展开式
		16 主成分分析
			16.1总体主成分分析
				16.1.1基本想法
				16.1.2定义和导出
				16.1.3主要性质
				16.1.4主成分的个数
				16.1.5规范化变量的总体主成分
			16.2样本主成分分析
				16.2.1样本主成分的定义和性质
				16.2.2相关矩阵的特征值分解算法
				16.2.3数据矩阵的奇异值分解算法
		17	潜在语义分析
			17.1单词向量空间与话题向量空间
				17.1.1单词向量空间
				17.1.2话题向量空间
			17.2潜在语义分析算法
				17.2.1	矩阵奇异值	分解算法
				17.2.2例子
			17.3非负矩阵分解算法
				17.3.1	非负矩阵分解
				17.3.2潜在语义分析模型
				17.3.3非负矩阵分解的形式化
				17.3.4算法
		18	概率潜在语义分析
			18.1概率潜在语义分析模型
				18.1.1基本想法
				18.1.2生成模型
				18.1.3共现模型
				18.1.4模型性质
			18.2 概率潜在语义分析的算法
		19	马尔可夫链蒙特卡罗法
			19.1蒙特卡罗法
				19.1.1随机抽样
				19.1.2数学期望估计
				19.1.3积分计算
			19.2马尔可夫链
				19.2.1基本定义
				19.2.2离散状态	马尔可夫链
				19.2.3连续状态马尔可夫链
				19.2.4马尔可夫链的性质
			19.3马尔可夫链	蒙特卡罗法
				19.3.1基本想法
				19.3.2基本步骤
				19.3.3马尔可夫链蒙特卡罗法与统计学习
			19.4Metropolis-Hastings算法
				19.4.1基本原理
				19.4.2Metropolis-Hastings算法
				19.4.3单分量Metropolis-Hastings算法
			19.5吉布斯抽样
				19.5.1基本原理
				19.5.2吉布斯抽样算法
				19.5.3抽样计算
		20 潜在狄利克雷分配
			20.1	狄利克雷分布
				20.1.1分布定义
				20.1.2共轭先验
			20.2潜在狄利克雷分配模型
				20.2.1基本想法
				20.2.2模型定义
				20.2.3概率图模型
				20.2.4随机变量序列的可交换性
				20.2.5概率公式
			20.3LDA的吉布斯抽样算法
				20.3.1基本想法
				20.3.2算法的主要部分
				20.3.3算法的后处理
				20.3.4算法
			20.4LDA的变分EM算法
				20.4.1变分推断
				20.4.2变分EM算法
				20.4.3算法推导
				20.4.4算法总结
		21 PageRank算法
			21.1PageRank的定义
				21.1.1基本想法
				21.1.2有向图和	随机游走模型
				21.1.3PageRank的基本定义
				21.1.4PageRank的一般定义
			21.2PageRank的计算
				21.2.1迭代算法
				21.2.2幂法
				21.2.3代数算法
		22 无监督学习方法总结

蒲公英书

在这里插入图片描述

开源

https://nndl.github.io/

蒲公英书
	第一部分 机器学习基础
		1 绪论
			1.1人工智能
				1.1.1人工智能的发展历史
				1.1.2人工智能的流派
			1.2机器学习
			1.3表示学习
				1.3.1局部表示和分布式表示
				1.3.2表示学习
			1.4深度学习
				1.4.1端到端学习
			1.5神经网络
				1.5.1人脑神经网络
				1.5.2	人工神经网络
				1.5.3神经网络的发展历史
			1.6本书的知识体系
			1.7常用的深度学习框架
			1.8总结和深入阅读
		2 机器学习概述
			2.1基本概念
			2.2机器学习的三个基本要素
				2.2.1模型
				2.2.2学习准则
				2.2.3优化算法
			2.3机器学习的简单示例——线性回归
				2.3.1参数学习
			2.4 偏差-方差分解
			2.5	机器学习算法	的类型
			2.6数据的特征表示
				2.6.1传统的特征学习
				2.6.2深度学习方法
			2.7评价指标
			2.8理论和定理
				2.8.1 PAC学习理论
				2.8.2 没有免费午餐定理
				2.8.3奥卡姆剃刀原理
				2.8.4 丑小鸭定理
				2.8.5 归纳偏置
			2.9总结和深入阅读
		3 线性模型
			3.1	线性判别函数和决策边界
				3.1.1二分类
				3.1.2多分类
			3.2 Logistic回归
				3.2.1参数学习
			3.3 Softmax回归
				3.3.1参数学习
			3.4感知器
				3.4.1参数学习
				3.4.2感知器的收敛性
				3.4.4扩展到多分类
				3.4.4扩展到多分类
			3.5 支持向量机
				3.5.1参数学习
				3.5.2核函数
				3.5.3软间隔
			3.6 损失函数对比
			3.7总结和深入阅读
	第三部分 进阶模型
		11 概率图模型
			11.1模型表示
				11.1.1有向图模型
				11.1.2常见的有向图模型
				11.1.3无向图模型
				11.1.4无向图模型的概率分解
				11.1.5常见的无向图模型
				11.1.6有向图和无向图之间的转换
			11.2学习
				11.2.1不含隐变量的参数估计
				11.2.2含隐变量的参数估计
			11.3推断
				11.3.1精确推断
				11.3.2近似推断.
			11.4变分推断
			11.5基于采样法的近似推断
				11.5.1采样法
				11.5.2拒绝采样
				11.5.3重要性采样
				11.5.4马尔可夫链蒙特卡罗方法
			11.6总结和深入阅读
		12 深度信念网络
			12.1玻尔兹曼机
				12.1.1生成模型
				12.1.2能量最小化与模拟退火
				12.1.3参数学习
			12.2受限玻尔兹曼机
				12.2.1生成模型
				12.2.2参数学习
				12.2.3受限玻尔兹曼机的类型
			12.3深度信念网络
				12.3.1生成模型
				12.3.2参数学习
			12.4总结和深入阅读
		13 深度生成模型
			13.1概率生成模型
				13.1.1密度估计
				13.1.2生成样本
				13.1.3应用于监督学习
			13.2变分自编码器
				13.2.1含隐变量的生成模型
				13.2.2推断网络
				13.2.3生成网络
				13.2.4模型汇总
				13.2.5再参数化
				13.2.6训练
			13.3生成对抗网络
				13.3.1显式密度模型和隐式密度模型
				13.3.2网络分解
				13.3.3训练
				13.3.4一个生成对抗网络的具体实现:DCGAN.
				13.3.5模型分析
				13.3.6改进模型
			13.4总结和深入阅读
		14 深度强化学习
			14.1强化学习问题
				14.1.1典型例子
				14.1.2强化学习定义
				14.1.3马尔可夫决策过程
				14.1.4强化学习的目标函数
				14.1.5值函数
				14.1.6深度强化学习
			14.2基于值函数的学习方法
				14.2.1动态规划算法
				14.2.2蒙特卡罗方法
				14.2.3时序差分学习方法
				14.2.4深度Q网络
			14.3基于策略函数的学习方法
				14.3.1REINFORCE算法
				14.3.2带基准线的REINFORCE算法
			14.4演员-评论员算法
			14.5总结和深入阅读
		15 序列生成模型
			15.1序列概率模型
				15.1.1序列生成
			15.2N元统计模型
			15.3深度序列模型
				15.3.1模型结构
				15.3.2参数学习
			15.4评价方法
				15.4.1困惑度
				15.4.2BLEU算法
				15.4.3ROUGE算法
			15.5序列生成模型中的学习问题
				15.5.1曝光偏差问题
				15.5.2训练目标不一致问题
				15.5.3计算效率问题
			15.6序列到序列模型
				15.6.1基于循环神经网络的序列到序列模型
				15.6.2基于注意力的序列到序列模型
				15.6.3基于自注意力的序列到序列模型
			15.7总结和深入阅读
	第二部分 基础模型
		4 前馈神经网络
			4.1神经元
				4.1.1Sigmoid型函数
				4.1.2ReLU函数
				4.1.3Swish函数
				4.1.4GELU函数
				4.1.5Maxout单元
			4.2网络结构
				4.2.1前馈网络
				4.2.2记忆网络
				4.2.3图网络
			4.3前馈神经网络
				4.3.1通用近似定理
				4.3.2应用到机器学习
				4.3.3参数学习
			4.4反向传播算法
			4.5自动梯度计算
				4.5.1数值微分
				4.5.2符号微分
				4.5.3自动微分
			4.6优化问题.
				4.6.1非凸优化问题.
				4.6.2梯度消失问题
			4.7总结和深入阅读
		5 卷积神经网络
			5.1卷积
				5.1.1卷积的定义
				5.1.2互相关
				5.1.3卷积的变种
				5.1.4卷积的数学性质
			5.2卷积神经网络
				5.2.1用卷积来代替全连接
				5.2.2卷积层
				5.2.3汇聚层
				5.2.4卷积网络的整体结构
			5.3参数学习
				5.3.1卷积神经网络的反向传播算法
			5.4几种典型的卷积神经网络
				5.4.1LeNet-5.
				5.4.2AlexNet.
				5.4.3Inception网络
				5.4.4残差网络
			5.5其他卷积方式
				5.5.1转置卷积
				5.5.2空洞卷积
		6 循环神经网络
			6.1给网络增加记忆能力
				6.1.1延时神经网络
				6.1.2有外部输入的非线性自回归模型
				6.1.3循环神经网络
			6.2简单循环网络
				6.2.1循环神经网络的计算能力
			6.3应用到机器学习
				6.3.1序列到类别模式
				6.3.2同步的序列到序列模式
				6.3.3异步的序列到序列模式
			6.4参数学习.
				6.4.1随时间反向传播算法
				6.4.2实时循环学习算法
			6.5长程依赖问题
				6.5.1改进方案
			6.6基于门控的循环神经网络
				6.6.1长短期记忆网络
				6.6.2LSTM网络的各种变体
				6.6.3门控循环单元网络
			6.7深层循环神经网络
				6.7.1堆叠循环神经网络
				6.7.2双向循环神经网络
			6.8扩展到图结构
				6.8.1递归神经网络
				6.8.2图神经网络
			6.9总结和深入阅读
		7 网络优化与正则化
			7.1网络优化
				7.1.1网络结构多样性
				7.1.2高维变量的非凸优化
				7.1.3神经网络优化的改善方法
			7.2优化算法
				7.2.1小批量梯度下降
				7.2.2批量大小选择
				7.2.3学习率调整
				7.2.4梯度估计修正
				7.2.5优化算法小结
			7.3参数初始化
				7.3.1基于固定方差的参数初始化
				7.3.2基于方差缩放的参数初始化
				7.3.3正交初始化
			7.4数据预处理
			7.5逐层归一化
				7.5.1批量归一化.
				7.5.2层归一化.
				7.5.3权重归一化.
				7.5.4局部响应归一化
			7.6超参数优化
				7.6.1网格搜索
				7.6.2随机搜索
				7.6.3贝叶斯优化
				7.6.4动态资源分配
				7.6.5神经架构搜索
			7.7网络正则化
				7.7.1 L1和L2正则化
				7.7.2权重衰减
				7.7.3提前停止
				7.7.4丢弃法
				7.7.5数据增强
				7.7.6标签平滑
			7.8总结和深入阅读
		8 注意力机制与外部记忆
			8.1认知神经学中的注意力
			8.2注意力机制
				8.2.1注意力机制的变体
			8.3自注意力模型
			8.4人脑中的记忆
			8.5记忆增强神经网络
				8.5.1端到端记忆网络
				8.5.2神经图灵机
			8.6基于神经动力学的联想记忆
				8.6.1Hopfiel网络
				8.6.2使用联想记忆增加网络容量
			8.7总结和深入阅读.
		9 无监督学习
			9.1无监督特征学习.
				9.1.1主成分分析
				9.1.2稀疏编码
				9.1.3自编码器
				9.1.4稀疏自编码器.
				9.1.5堆叠自编码器
				9.1.6降噪自编码器
			9.2概率密度估计
				9.2.1参数密度估计
				9.2.2非参数密度估计
			9.3总结和深入阅读
		10 模型独立的学习方式
			10.1集成学习
				10.1.1AdaBoost算法
			10.2自训练和协同训练
				10.2.1自训练
				10.2.2协同训练
			10.3多任务学习
			10.4迁移学习.
				10.4.1归纳迁移学习
				10.4.2转导迁移学习
			10.5终身学习
			10.6元学习
				10.6.1基于优化器的元学习
				10.6.2模型无关的元学习
			10.7总结和深入阅读
  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: ESLPRMLMLAPP这三个缩写都与机器学习(Machine Learning)有关。 ESL是指《统计学习基础》(The Elements of Statistical Learning)一,该由斯坦福大学的教授和学者共同编写,被认为是机器学习领域的经典著作之一。该介绍了各种统计学习方法,涵盖了监督学习、无监督学习以及半监督学习等多个方面。 PRML则是指《模式识别与机器学习》(Pattern Recognition and Machine Learning)一,由机器学习领域的知名学者Christopher M. Bishop所著。该全面介绍了机器学习中的各种方法和技术,包括基础的概率论知识、决策树、神经网络、支持向量机等高级算法。 最后,MLAPP则是指《机器学习:一种概率建模方法》(Machine Learning: A Probabilistic Perspective),该机器学习领域的知名学者Kevin P. Murphy所著。该介绍了基于概率模型的机器学习方法,讲解了从贝叶斯定理、矩阵分解、隐马尔可夫模型(HMM)到高斯混合模型(GMM)、因子分析等多个方面的知识。 总之,这三本都是机器学习领域的重要参考籍,对于学习和研究机器学习技术的人来说,都是不可或缺的参考资料。 ### 回答2: ESLPRMLMLAPP都是机器学习领域常用的教材。ESL是The Elements of Statistical Learning的缩写,由Trevor Hastie、Robert Tibshirani和Jerome Friedman合著,首次出版于2001年。这本统计学家写给计算机科学家的机器学习经典入门教材。 PRML是Pattern Recognition and Machine Learning的缩写,由Christopher Bishop撰写,于2006年首次出版。PRML的内容分为二部分:模式识别和机器学习,全通过实例详细介绍了许多概念与算法的实现和优化。 MLAPP是Machine Learning: A Probabilistic Perspective 的缩写,由Kevin Murphy所写,于2012年首次出版。与之前两本不同的是,MLAPP将概率论贯穿了整本,采用了广泛的实例和实际应用,是一本现代化的、重视概率与贝叶斯方法机器学习教材。 综合来看,ESLPRMLMLAPP都是非常优秀的机器学习教材,它们都对机器学习的基本概念和算法有深入的阐述和介绍,并可供初学者、中级者以及专业从业者参考使用。需要根据自己的需要和背景去选择使用哪一本教材。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二进制人工智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值