Bayes Rule and Its Applications

A slecture by ECE student Weibao Wang

Partly based on the ECE662 Spring 2014 lecture material of Prof. Mireille Boutin.



大纲

  • 贝叶斯定理
  • 贝叶斯定理的推倒
  • 贝叶斯定理应用实例
  • 贝叶斯分类器
  • 参考文献


贝叶斯定理 (Bayes' theorem)

贝叶斯定理由英国数学家托马斯·贝叶斯(Thomas Bayes)在1763提出,因此得名贝叶斯定理。贝叶斯定理也称贝叶斯推理,是关于随机事件的条件概率的一则定理。

对于两个随机事件A和B,贝叶斯定理有如下表达:

$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $

其中P(A|B)代表在事件B发生的情况下事件A发生的概率。

在贝叶斯定理中:

  • P(A)为A的先验概率,P(B)为B的先验概率
  • P(A|B)为已知B发生后A的条件概率或后验概率,P(B|A)为已知A发生后B的条件概率或后验概率

另外,P(B|A)有时也被称作相似度(likelihood)。



贝叶斯定理的推倒

根据条件概率的定义,在事件B发生的条件下事件A发生的概率是:

$ P(A|B) = \frac{P(A\cap B)}{P(B)} $

同理,我们可以得到在事件A发生的条件下事件B发生的概率:

$ P(B|A) = \frac{P(B\cap A)}{P(A)} $

由以上两个方程,我们可以得出:

$ P(B|A)P(A) = P(A\cap B) = P(A|B)P(B) $

等式两边同时除以P(B),进而得出贝叶斯定理:

$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $

利用贝叶斯定理,我们还可以得出全概率公式。

我们已知对于事件A,B和A的补集A',有:

$ P(B) = P(B \cap A) + P(B \cap A') $

$ P(B\cap A) = P(B|A)P(A) $

所以我们可以得到全概率公式:

$ P(B) = P(B|A)P(A)+P(B|A')P(A') $

将全概率公式带入条件概率公式,我们可以得到贝叶斯定理的另一种写法:

$ P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A)+P(B|A')P(A')} $



贝叶斯定理应用实例

我们来看一个例子: 假设我们有两个笼子,一号笼子里有15只鸡和5只兔子,二号笼子里有10只鸡和10只兔子。现在随机选择一个笼子,从中取出一只兔子,请问这只兔子来自一号笼子的概率有多大?

对于这类问题,我们可以用贝叶斯定理解答。我们假定,B1表示一号笼子,B2表示二号笼子。由于这两个笼子是一样的,所以P(B1)=P(B2),也就是说,在取出兔子之前,这两个笼子被选中的概率相同。因此,P(B1)=P(B2)=0.5. 再假定,R表示兔子,所以问题就变成了在已知R的情况下,来自一号笼子的概率有多大,即求P(B1|R)。我们把这个概率叫做"后验概率"。

根据贝叶斯定理,我们可以得到:

$ P(B1|R) = \frac{P(R|B1)P(B1)}{P(R)} $

已知,P(B1)等于0.5,P(R|B1)为一号笼子中取出兔子的概率,等于0.25,那么求出P(R)就可以得到答案。根据全概率公式,

$ P(R) = P(R|B1)P(B1)+P(R|B2)P(B2) $

所以

$ P(R) = 0.25 \times 0.5 + 0.5 \times 0.5 = 0.375 $

将以上结果带入,我们可以得到:

$ P(B1|R) = \frac{0.25}{0.375} \times 0.5 = 0.4 $




贝叶斯分类器

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。

假设$ x = \{x_1,x_2, ... , x_n \} $ 为一个待分类项,x属于类别集合$ C = \{y_1,y_2,...,y_m \} $中的一个。

$ P(y_k|x) = max\{P(y_1|x),P(y_2|x, ... , P(y_m|x) \} $,则$ x \in y_k $

现在的关键就是计算各个条件概率:$ P(y_1|x),P(y_2|x), ... , P(y_m|x) $

我们可以这么做:

1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即$ P(x_1|y_1),P(x_1|y_2), ... , P(x_n|y_m) $

3、如果各个特征属性是条件独立的,则根据贝叶斯定理:

$ P(y_i|x) = \frac{P(x|y_i)P(y_i)}{P(x)} $

因为各特征属性是条件独立的,我们可以得到:

$ P(x|y_i)P(y_i) = P(x_1|y_i)P(x_2|y_i)...P(x_n|y_i) = P(y_i)\prod_{k=1}^n P(x_k|y_i) $

最终我们得到:

$ P(y_i|x) = \frac{P(y_i) \prod_{k=1}^n P(x_k|y_i)}{P(x)} $

因为分母P(x)为常数,我们只需比较分子的大小即可。



参考文献

[1]. http://blog.csdn.net/polly_yang/article/details/8623268

[2]. Mireille Boutin, "ECE662: Statistical Pattern Recognition and Decision Making Processes," Purdue University, Spring 2014.






Questions and comments

If you have any questions, comments, etc. please post them on this page.


Back to ECE662, Spring 2014

Alumni Liaison

To all math majors: "Mathematics is a wonderfully rich subject."

Dr. Paul Garrett