贝叶斯决策函数设计

决策函数设计、定义。
模型建立、模型测试。

4.1.2 决策函数设计

接下来是分类器设计的主要步骤:决策函数设计。首先我们从最顶层开始往下进行推导。贝叶斯分类的核心就是找到最大的后验概率,

由此我们的分类器设计的目标就是计算概率值

下面我们先给出形式化的定义

决策函数定义
一般情况下,贝叶斯都是采用了最小错分准则,这里也是如此。由此我们可以得到我们的目标决策函数。

我们只需要计算出它们属于每一类的后验概率,

接下来我们就此解释该如何计算出这个后验概率,也就是模型的建立过程。

4.1.2.1 模型建立

根据最小错分原则,所以我们的目标就是求解最大的后验概率,由此得到结果类别。写成公式如下。

它的每一维出现是相互独立的(属性之间相互独立,也被称为朴素贝叶斯)。由此我们可以将我们目标后验概率写成如下公式。

接下来转换目标为求解每个像素点的相应后验概率(也就是样本每个元素的后验概率)。根据贝叶斯公式,我们得到一个设计模型。该式子的意义为:

这个模型非常好理解。

这个概率就可以用贝叶斯得到。由此我们通过训练样本可以得到如下概率值(因为我们的特征向量元素取值为0或者1)。

因为每个像素只可能为0或者1,所以我们直接计算的是像素为1的情况。由此我们的模型就已经建立了。Model中就是这三个根据训练数据得到概率值,接下来我们将讨论如何根据这个模型判断某个样本的类别。

4.1.2.2 模型测试

问题是,针对测试样本,我们该如何计算?这是该贝叶斯分类器设计中的核心,很多人觉得在这里很绕。之前我们是根据给出的训练数据计算出的一个模型,换句话有点像最大似然估计法:用有限的观测数据来估计一个未知参数的模型。比如对于一个抛硬币测试,我们想知道硬币正反出现的概率模型,那么我们经过大量的实验,然后计算最大似然。由此得到一个模型参数。这里也是一样,我们得到的是叫做贝叶斯模型。根据这个模型,然后加上输入的测试样本,我们计算出最大的后验概率。

要不为1,要不为0。所以我们根据之前的模型计算中的后验概率计算方法,

由此我们可以得到如下的式子。

同理,用通俗易懂的式子描述如下。

那么我们将该值带入到上式进行计算就好了。比如我们可以得到。

到此为止,我们决策函数的分析彻底结束。接下来就是模型的训练。

4.1.3 模型训练

这一部分主要就是工程问题,首先根据输入的训练数据,计算出上述的模型(也就是train文件)。然后写一个输入样本得到预测结果的文件(也就是test文件)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注