贝叶斯公式是一个非常常用的概率论里的关于条件概率的公式,是数据科学面试中的常见题型。掌握贝叶斯公式的原理并且使用该公式解决这些问题是数据科学家求职者的必备技能。
条件概率(conditional probability)的定义
条件概率Pr[A|B]必须定义在两个事件A和B上,含义是在B发生的条件下,A发生的概率。
可以想象B是已经满足的条件,条件概率即是在给定条件下A事件的概率。除非A与B独立,否则B的发生会影响A,因此一定有 与 不想等。
数学上,
为A与B同时发生的概率与B发生的概率的比例。
条件概率的几何意义
几何上,可以用文恩图表示事件A与B:
B已经满足条件可以看作全集是B,即黑色圈出的区域,在该区域中发生A,对应A与B的交集区域。因此概率为A与B交际区域的面积与B的面积的比例。
全概率公式
全概率公式非常直观,其含义是如果有一些互斥的事件 , 它们的并集为全集。则任何事件A发生的概率可以拆分为每一个 的概率之和。
数学上,
由条件概率的定义,等价于
全概率公式的几何意义
A被 这些事件划分成了 ,因此A的面积为这些面积之和。
贝叶斯公式
贝叶斯公式对于两个事件A和B定义,只要事件B的概率非0,有如下关系:
推导非常容易:
例子
贝叶斯公式一般结合全概率公式使用,我们以一个简单的例子说明:
Q:
某城市发生了一起汽车撞人逃跑事件,该城市只有两种颜色的车,蓝20%绿80%,事发时现场有一个目击者,他指证是蓝车,但是根据专家在现场分析,当时那种条件能看正确的可能性是80%,那么,肇事的车是蓝车的概率是多少?
A: 目击者指证蓝车记为事件B, 肇事的车是蓝车记为事件A, 需要计算条件概率 。
由贝叶斯公式,只需要计算 ,以及 。
根据题目条件, 。
比较困难的是计算 本身。为了计算 ,我们使用全概率公式:
其中 为A的补事件,即肇事的车是绿车。
前面两项已经知道, ,关键是最后一项 ,即肇事的车是绿车的条件下,目击者指正该车为蓝车的概率。
这一概率就是目击者看错的概率0.2。
因此,我们有
根据贝叶斯公式
练习题
我们对贝叶斯公式的介绍到这里就告一段落,大家可以尝试以下这些练习题,都是知名互联网的面试真题哦。
* 有8个箱子,现在有一封信,这封信放在这8个箱子中每一个的概率均为1/10, 不放在任何一个箱子的概率为1/5,
现在我打开1号箱子发现是空的,求下面7个箱子中含有这封信的概率?
* 一个盒子里面有2张扑克牌有正反两面,有1张扑克牌只有正面。随机地取出了一张牌看到了正面,求该扑克牌的对面也是正面的概率。
*
你有三位好友,他们都在西雅图工作,西雅图是出了名的爱下雨,每天下雨的概率高达2/3。假设你的好友视力都不是很好并且办公室的视野也一般,因此以1/3的概率能正确地判断是否在下雨。假如他们中恰好有两位告诉你今天西雅图在下雨,问西雅图实际上在下雨的概率是多少?