小高技术网-免费分享创业技术、为农村创业者服务!
当前位置: 小高技术网 > 技术常识5>正文

朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve)

2023-05-28 09:40:01 技术常识5 2023推荐
近期不少网友都在问:朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve),小编也是查阅很多资料,整理了一些相关方面的答案,大家可以参考一下,

【温馨提示】本文共有1524个字,预计阅读完需要4分钟,请仔细阅读哦!


算法回顾




图片来源:https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part-1-theory-8b9e361897d5


贝叶斯分类算法属于有监督机器学习(Supervised Learning)。贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。其中朴素贝叶斯分分类是贝叶斯分类中最简单的,也是最常见的一种分类方法。


朴素贝叶斯分类算法的核心如下公式:


P(A):它是先验该率(Prior Probability),是A发生的概率。


P(B): 是边际可能性(Marginal Likelihood):是B发生的概率。


P(B|A):是可能性(likelihood),基于给定的A,B发生的概率,即已知A发生,B发生的概率。


P(A|B):是后验概率(Posterior Probability):基于给定的B,A发生的概率,即已知B发生,A发生的概率。


换个表达式可能理解的就会更加透彻:


以下是从Udemy上借鉴的一个例子:


假设有两个特征,分别为工资(Salary)和年龄(Age),已知有两种分类分别为:步行(Walks)和自驾(Drives),如上图所示。


当有一个新数据点进来时(如灰色点),基于给定它的特征工资和年龄,应该把它分为哪类?


其中,$P(Walks) = {10} over {30}$,$P(Drives)={20} over {30}$。


首先计算P(Walks|X)的概率,可以参见如下公式:




首先,需要自定义一个参考集,如下图中虚线所示。


  • 先验概率(步行上班发生的概率)为:$P(Walks)={10} over {40}$;
  • 边际可能性为:$P(X)={4} over {30}$;
  • 可能性为:$P(X|Walks)={3} over {10}$;
  • 后验概率(给定特征情况下,步行上班发生的概率)为:$P(Walks|X) = {0.3 * 0.25} over {4 over 30} = 0.75$。



计算$P(Walks|X)$后计算$P(Drivers|X)$,通过比较两个概率的大小,来决定灰色点属于哪类(Walks 或者 Drives)。通过比较不难得出灰色点属于“步行上班”类别(此处省略计算过程)。


在机器学习中,朴素贝叶斯分类器是基于贝叶斯理论(该理论中有很强的特征间独立性假设)的一个简单“概率分类”的家族。因此,朴素贝叶斯分类算法属于概率的机器学习(probabilistic machine learning),并且可应用于很多分类的任务中。典型的应用有垃圾邮件筛选(filtering spam),分类文件(classifying documents),情绪预测(sentiment prediction)。


在scikit-learn中,一共提供三种朴素贝叶斯的方法,分别为高斯朴素贝叶斯(Gaussian Naive Bayes)、二项式朴素贝叶斯(Multinomial Naive Bayes),伯努利朴素贝叶斯(Bernoulli Naive Bayes)和补足朴素贝叶斯(Complement Naive Bayes)。官方文档中给出以高斯朴素贝叶斯为例的代码,示例如下:


>>> from sklearn.datasets import load_iris>>> from sklearn.model_selection import train_test_split>>> from sklearn.naive_bayes import GaussianNB>>> X, y = load_iris(return_X_y=True)>>> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)>>> gnb = GaussianNB()>>> y_pred = gnb.fit(X_train, y_train).predict(X_test)>>> print("Number of mislabeled points out of a total %d points : %d"... % (X_test.shape[0], (y_test != y_pred).sum()))Number of mislabeled points out of a total 75 points : 4

概率校正

分类概率在一些机器模型中应用广泛,在scikit-learn中,大多数机器学习算法通过使用predict_proba函数,允许计算样本各类别的概率。这个功能对于一些情况下是极为有效的,例如,如果某一类的模型预测概率是大于欧90%的。但是,包括朴素贝叶斯等模型,它的模型预测概率与现实中的概率不尽相同。例如,函数predict_proba预测某个样本属于某类的样本概率是70%,而实际只有0.1或者0.99。尤其对于朴素贝叶斯模型而言,尽管不同目标类的预测概率有效(valid),但原始概率往往采用接仅0和1的极端值。


为了得到有意义的预测概率,需要采用模型“校正”(calibration)。在scikit-learn中,使用CalibratedClassifierCV分类,通过k折交叉验证(k-fold cross-validation)来生成“好的”校正的预测概率。在CalibratedClassifierCV中,训练集用于训练模型,测试集用于矫正模型预测概率。返回的预测概率是k-fold的均值。详见参考 文章。


代码示例如下:


# 导入相关的库 from sklearn import datasetsfrom sklearn.naive_bayes import GaussianNBfrom sklearn.calibration import CalibratedClassifierCV ​# 载入莺尾花数据集 iris = datasets.load_iris()X = iris.datay = iris.target ​# 构建朴素贝叶斯分类对象 clf = GaussianNB() ​# 构建校正器 clf_sigmoid = CalibratedClassifierCV(clf, cv=2, method='sigmoid') ​# 构建带有校正概率的分类器 clf_sigmoid.fit(X, y) ​# 构建新样本 new_observation = [[ 2.6, 2.6, 2.6, 0.4]]​# 得到矫正后的概率 clf_sigmoid.predict_proba(new_observation)

根据Alexandru和Rich在2005年发表的题为“Predicting Good Probabilities With Supervised Learning”论文[1]中指出:对于朴素贝叶斯模型而言,对于不同校正集合的大小,Isotonic Regression的表现都优于Platt Scaling方法(在CalibratedClassifierCV中,用参数method定义)。因此,这对朴素贝叶斯模型的参数设置,可以优先考虑Isotonic Regression方法。


参考文章:


[1] Niculescu-Mizil, A., & Caruana, R. (2005, August). Predicting good probabilities with supervised learning. In Proceedings of the 22nd international conference on Machine learning (pp. 625-632).


(1)获取更多优质内容及精彩资讯,可前往:https://www.cda.cn/?seo


(2)了解更多数据领域的优质课程:



内容更新时间(UpDate): 2023年06月08日 星期四

版权保护: 【本文标题和链接】朴素贝叶斯(Naive Bayes)和校正曲线(Calibration Curve) http://www.youmengdaxiazuofa.net/longxia8/125583.html






















你的评论更有价值!!!
  • 全部评论(0
    还没有评论,快来抢沙发吧!
博客主人百科博主
女,免费分享各种生活、电商知识、百科常识。
  • 文章总数
  • 100W+访问次数
  • 建站天数
  • {/dede:arclist}