算法得出的结论永远不是100%确定的,更多的是判断除了一种样本的标签更可能是某类的可能性,而非一种确定。
朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督学习算法
联合概率 两个事件同时发生的概率
条件概率 在某个前提下某个事件发生的概率
贝叶斯公式
假设特征之间是有条件独立的,可以解决众多问题,也简化了很多计算过程,这是朴素贝叶斯被称为朴素的理由
朴素贝叶斯是一个不建模的算法
sklearn提供了四个朴素贝叶斯的分类器
伯努利分布下的朴素贝叶斯 sklearn.naive_bayes.BernoulliNB
高斯分布下的朴素贝叶斯 sklearn.naive_bayes.GaussianNB 可处理连续性变量
多项式分布下的朴素贝叶斯 sklearn.naive_bayes.MultinomialNB
补充朴素贝叶斯
样本数量要大于特征数目
高斯朴素贝叶斯sklearn.naive_bayes.GaussianNB
参数 prior 表示类的先验概率
var_smoothing 估计方差
概率类模型的评估指标 布里尔分数
sklearn.metrics.brier_score_loss
光标放在括号之中 shift+tab
布里尔分数只能判别二分类
对数似然函数 log loss
可靠性曲线Reliability Curve 概率校准曲线 是一条以预测概率为横坐标 真实概率为纵坐标的曲线,越靠近对角线越好。
逻辑回归对概率类模型拟合的很好
校准CalibratedclassifierCV
准确率和概率向北的时候,务必以准确率为准。
用概率校准来判断贝叶斯算法是否还有潜力