数据挖掘-朴素贝叶斯算法

如题所述

第1个回答 2022-07-12

朴素贝叶斯算法，主要用于对相互独立的属性的类变量的分类预测。（各个属性/特征之间完全没有关系，叫做相互独立，事实上这很难存在，但是这个方法依然比较有效。）

大学的概率论里一般都学过这个贝叶斯定理，简单阐述如下：

若事件，，…构成一个事件且都有正概率，则对任意一个事件Y，有如下公式成立：则有

如果X表示特征/属性，Y表示类变量，如果类变量和属性之间的关系不确定，那么X和Y可以视作随机变量，则为Y的后验概率，为Y的先验概率。
以图为例：

我们需要根据身高、体重、鞋码判断是男是女，则Y就是性别，X就是（身高、体重、鞋码）这一组特征。如果我们要先算是男的概率，则先验概率就是，而后验概率则是我们未来将要输入的一组特征已知的情况下，Y=男的概率（要预测的分类的概率），这样的话，根据贝叶斯定理，我们就可以用来求出，这就是贝叶斯定理在预测中的应用。

假设Y变量取y值时概率为P(Y=y)，X中的各个特征相互独立，则有公式如下：
其中每个特征集X包含d个特征。
根据公式，对比上面的图来说，如果性别是男的时候，身高是高，体重是重，鞋码为大的概率就等于

有了这个公式，结合之前的贝叶斯公式，就能得到给定一组特征值的情况下，这组特征属于什么样的类别的概率公式：
其中的X代表一组特征，代表一组中的一个。
对于所有的Y来说，P(X)时固定的，因此只要找出使分子最大的类别就可以判断预测的类别了。

的概率分为两种情况来区别，一种是对分类特征的概率确定，一种是连续特征的概率确定。

接下来借用《数据挖掘导论》上的例子来说明概率确定的方式。

对于分类的特征，可以首先找到训练集中为y值的个数，然后根据不同的特征类型占这些个数中的比例作为分类特征的概率。
例如上表中求不拖欠贷款的情况下，有房的人数就是，不拖欠贷款的有7个，其中有房的是3个。以此类推可以求出婚姻状况的条件概率。
年收入是连续特征，需要区分对待。

根据上述算法，如果要求没有拖欠贷款情况下，年收入是120K的概率，就是

如果要预测测试记录 X =（有房=否，婚姻状况=已婚，年收入=120K）这个样本是否可能拖欠贷款，则需要计算两个概率：和
则有：
由于是不变的（对于Y=是和Y=否），则只考虑上面的分子即可，那么抛开P(X)不看，则有：

其中7/10就是P(Y=否)，α是P(X)
同理可得P(Y=是|X) = 1 * 0 * 1.2e-1 = 0.
这样一比较，那么分类就是否。

看这个例子中，如果有一个特征的条件概率是0，那么整体的概率就是0，从而后验概率也一定是0，那么如果训练集样本太少，这种方法就不是很准确了。
如果当训练集样本个数比特征还少的时候，就无法分类某些测试集了，因此引入 m估计(m-estimate) 来估计条件概率，公式如下：

其中，n是类中的样本总数，是类中取的样本数，是称为等价样本大小的参数，是用户指定的参数，p可以看作在类中观察特征值的先验概率。等价样本大小决定先验概率和观测概率之间的平衡。

引入m估计的根本原因是样本数量过小。所以为了避免此问题，最好的方法是等效的扩大样本的数量，即在为观察样本添加m个等效的样本，所以要在该类别中增加的等效的类别的数量就是等效样本数m乘以先验估计p。

在之前的例子中，设m=3,p=1/3（m可以设置为特征数量，p则是倒数）。则：
从而可以重新计算。从而解决了某个条件概率为0的问题。

面对相互独立的特征比较适用，如果有相关的特征，则会降低其性能。

相似回答

数据挖掘十大经典算法之朴素贝叶斯答：（3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。缺点：（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较...

数据挖掘常用算法有哪些?答：2、逻辑回归(logistic regression)逻辑回归是一个分类方法，属于判别式模型，有很多正则化模型的方法(L0，L1，L2)，而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比，还会得到一个不错的概率解释，甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需...

大数据挖掘的算法有哪些?答：大数据挖掘的算法：1.朴素贝叶斯，超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。2. Logistic回归，LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本...

用于数据挖掘的分类算法有哪些,各有何优劣答：1. 朴素贝叶斯 比较简单的算法，所需估计的参数很少，对缺失数据不太敏感。如果条件独立性假设成立，即各特征之间相互独立，朴素贝叶斯分类器将会比判别模型，如逻辑回归收敛得更快，因此只需要较少的训练数据。就算该假设不成立，朴素贝叶斯分类器在实践中仍然有着不俗的表现。如果你需要的是快速简单并且...

用于数据挖掘的分类算法有哪些,各有何优劣答：1、朴素贝叶斯(Naive Bayes, NB)简单，就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型（如Logistic回归）收敛的更快,所以你只需要少量的训练数据。如果你想做类似半监督学习,或者是既要模型简单又要性能好,NB值得尝试.2. Logistic回归(Logistic Regression, LR)LR有很多方法来对模型...

大家正在搜

数据挖掘朴素贝叶斯算法作业数据挖掘贝叶斯算法计算题数据挖掘贝叶斯算法数据挖掘贝叶斯算法例题数据挖掘朴素贝叶斯数据挖掘贝叶斯例题朴素贝叶斯算法实例朴素贝叶斯算法设计与实现朴素贝叶斯评论推荐算法