统计机器学习02：贝叶斯定理

统计机器学习公式推导Revisiting，第二部分贝叶斯定理

贝叶斯理论是非常经典的分类算法，我们一般用表示样本，用表示可能的分类类别，则表示属于这一类别的概率。贝叶斯决策论是在概率框架下实施决策的基本方法，本质上是如何基于概率和误判损失来选择最优的类别标记.

贝叶斯公式的推导

根据条件概率公式，我们有

这就是贝叶斯公式最简单的基本形式，其中

是先验概率(prior),指的是样本中各种情况出现的概率
是似然(likelihood),表示A发生的条件下，B出现的概率
是后验概率(posterior)

现在我们假设有若干个特征,对于数据集D中的一个样本x，有

贝叶斯定理可以用于分类问题的决策，而用贝叶斯定理进行决策的实质是通过概率分布情况来使得分类错误的可能性最小化，上面提到的公式事实上是基于后验概率来进行分类决策的，也称为Optimal Bayes Decision Rule

贝叶斯决策也可能会碰到一些特殊情况，比如当先验概率相等的时候，只需要比较likelihood 就可以，当likelihood一样大小的时候只需要比较先验概率就可以。

贝叶斯公式的Loss

条件风险

可以定义一个loss function来估计贝叶斯公式的loss，我们设表示将原本类型为的样本分类成了所带来的loss(也可以叫risk)，则将数据集D中的样本x分类为所带来的条件风险(Condition Risk)可以表示为：而对于所有可能的，可以对其条件风险进行积分，得到总的条件风险可以记则对于一个二分类问题，我们只需要比较的大小，将其展开之后发现只需要比较和的大小。

0-1 loss

一种简单的loss定义是损失在分类正确的时候为0，错误的时候为1，即将其带入原本的条件风险表达式，我们可以得到此时我们进行决策的话只需要比较的大小，而根据贝叶斯公式，我们只需要比较的大小，因此下面我们就来解决这一部分的计算问题。

参数估计 Parameter Estimation

经过刚才的推导我们发现，最后只需要计算就可以进行贝叶斯决策，而是可以直接在样本中计算出来的，因为监督学习中每个样本都是有label的，可以非常容易地计算出，问题就在于如何计算，也就是类别中出现的样本值为x的概率。

我们可以用数据集D的样本来对进行估计，而估计的主要方法有极大似然法(Maximum-Likelihood)和贝叶斯估计法两种。

正态分布 Normal Distribution

我们需要先回忆一下概率论中学过的正态分布的相关知识，因为后面极大似然估计中会用到。正态分布也叫做高斯分布，很明显这个分布是数学王子高斯发现的，正态分布的形式如下：对于一维变量我们有：并且,而对于d维的向量x，多元高斯分布的参数是d维的均值向量和的对称正定协方差矩阵

极大似然法

估计模型参数的时候最常用的方法就是极大似然估计，对于一个包含m个样本的数据集X，我们可以假设它是由一个概率分布生成的，现在我们要用这个数据集来估计出一个来近似地比较真实的概率模型，我们可以给模型设定一族参数，因此模型可以表示为，这样一来，极大似然法可以定义成：但是多个概率的积不太容易计算，因此可以给目前函数取一个对数：因为重新缩放代价函数的时候argmax不会改变，因此可以除以样本的大小m得到和训练数据经验分布相关的期望作为极大似然法的评价准则：一种解释最大似然估计的观点就是将极大似然法看作最小化训练集上的经验分布和模型分布之间的差异，而两者之间的差异可以根据KL散度进行度量，即：

贝叶斯定理的参数估计

我们假定需要进行分类的变量在某一类别下其样本的值是服从高斯分布的，则有其中为待估计的参数。我们定义整个数据集D中类别为的子集是,其对于参数的似然为极大似然法的基本思路就是让这个数据集的似然达到最大，而达到最大的时候的参数值就是我们要求的参数估计值，因为它使得数据集中可能属于这个类别的样本的概率达到了最大。而为了防止数值过小造成下溢，可以采用对数似然我们的目标就是

我们之前已经假设了某一类别下的x服从正态分布，则有则对求偏导数得到

我们需要让对数似然函数取得最值，则对其求偏导数可得到同理可以对进行求导可以得到因此可以求得的估计值这些参数按照上面的估计公式计算之后可以带入原本的likelihood表达式计算出likelihood，进一步计算出posterior

贝叶斯估计

极大似然法是频率学派的方法，而贝叶斯估计则是贝叶斯派的估计方法，区别在于极大似然法MLE认为估计的参数是一个fixedvalue但是贝叶斯派则认为它是随机的变量. 把训练集D作为变量，则有又可以化简为

朴素贝叶斯 Naive Bayes

朴素贝叶斯分类器的基本思想是，既然我们的困难是涉及到x所有属性的联合概率不好估计，那我们就把联合概率的计算难度降到最低，也就是假设x的所有属性(也可以叫做特征)是互相独立的，此时对于d维的样本,贝叶斯的公式变成了类似地，对于所有类别来说P(x)是相同的，因此朴素贝叶斯分类的目标就是训练集D中，令表示第c类样本构成的集合，则类的先验概率