干货丨学习机器学习前,你首先要掌握这些概率论基础知识

机器学习中有很多十分重要的核心基础概念,掌握这些概念对我们进行机器学习数据科学的相关工作十分重要,可以帮助我们发现一些以往容易被忽视的新线索。那么其中很重要的一个就是——概率。

如今概率已经深入到人工智能、粒子物理、社会科学、生物信息科学等方方面面,甚至我们日常生活中的点点滴滴。

概率和统计的概念如此重要,下面我们就为大家阐述概率相关的不同概率,希望大家可以对概率有更清晰的认识。

频率论概率

想象一下我们要测量一个硬币是否均匀,需要进行怎样的实验呢?我们需要不断的抛硬币,并记录每一次的朝向,重复1000次后让我们来看看实验的结果。如果结果是600次朝上400 次朝下,那么我们将得到60%和40%的概率。这个概率就可以作为硬币朝上或者朝下的概率,这样的方式成为频率派的概率观点。

条件概率

频率派的观点需要通过大量实验的记录来总结。但条件概率却是不一样的观点,在事件B发生的情况下A发生的概率。让我们来看两个例子:

我们看到电闪雷鸣的情况下下雨的概率是多少?

艳阳天下雨的概率是多少?

 在上面的欧拉图中我们可以看大P(Rain | Thunder) = 1, 意味着打雷就会下雨(假定100%),但对于 P(Rain | Sunny)呢?虽然这个概率很小,但是我们如何通过一个公式将它表达出来呢?这就引出了条件概率的表达式:

 我们通过将同时下雨和出太阳的概率除以出太阳的概率算出了出太阳的情况下会下雨的条件概率。

独立和依赖事件

如果某一事件发生的概率完全不受到其他事件的影响,我们就称其为独立事件。 例如我们在抛色子是,第一笔抛了2,第二次抛2 的概率,这两次抛是独立的,那么同时得到2 的概率可以写为:

但是为什么上面的公式是对的呢?我们首先将第一次和第二次抛色子事件分别写成A和B,并将同时得到2 的概率写成事件A和B的联合概率分布:

这时在等式两边除以P(B)并利用条件概率的定义我们得到下面的式子: 

我们发现 P(A | B) = P(A)。这意味着A与B是相对独立的,B的发生对A并不造成任何影响。

贝叶斯概率

频率派一般会利用统计的方法找出与模型的参数,而贝叶斯理论则认为模型的参数也满足一定的分布。在贝叶斯统计中,每一个参数拥有自己的统计分布,在一定的数据下给出参数的可能性的分布:

这一公式的基础就是上面提到的条件概率:

尽管表达式十分简单,但是贝叶斯理论十分强大,广泛应用在各个学科,甚至产生了一门称为贝叶斯统计的统计学分支。

分 布

有的小伙伴又会问了,贝叶斯概率很好,那到底什么是分布呢?分布其实是一个描述某一个量不同取值范围及其概率的(实验或者数学推导)函数,在函数中有一些参数可以调整这一分布的行为(范围和取值概率)。

当我们测量硬币正反的时候得到了一个分布,这称之为经验的概率分布。在现实生活中,很多类似事情是可以通过概率分布来描述的。例如抛硬币实验就满足伯努利分布,并可以利用这个分布来计算n次实验后哪一面朝上的概率。

在概率论中,还需要明确一个称为随机变量的概念。每一个随机变量都有自己的分布,我们一般约定俗成的将随机变量写成大写字母来表示,并用~来表示其所属的分布:

上式意味着随机变量X满足0.6的伯努利分布。

连续和离散分布

概率分布一般分为两种情况:离散分布和连续分布。离散分布是指随机变量只在一些有限的位置取值,例如抛硬币的伯努利分布,离散分布一般利用概率质量函数Probability Mass Functions (PMF) 来定义;而连续分布一般用来处理无穷多个随机变量取值的情况。例如测量带有噪音的速度就是一个连续分布的例子。连续分布一般利用概率密度函数Probability Density Functions (PDF) 来定义。

对应的概率离散利用连加∑ 符号,连续概率利用∫符号来描述。

样本和统计

想象一下我们想要进行一个人体身高的测量研究,我们在大街上随机的测量了一些陌生人的身高,那么这个测量可以看做是独立的。我们将从一个人群中随机选取样本的过程称为采样。统计的作用就是对这些数据进行总结和信息的提取,例如计算这些样本的均值:

 

样本的标准差是这样计算的:

这一公式用来描述数据点与其均值的偏差。

更多的进阶学习

学了这么多感觉不错吧?你一定想要进行更深入的学习吧!这些知识一定会让你在日后的研究工作中受益,并收获更深的理解。

入门级:Khan Academy很不错,深入浅出的讲解了很多相关的基础知识。

https://www.khanacademy.org/math/statistics-probability

进阶级:All of the Statistics是一个简洁的教程,包含了统计学的重要知识点,但需要注意的是你需要线性代数和微积分的基础知识才能顺利的完成学习。

https://www.amazon.com/All-Statistics-Statistical-Inference-Springer/dp/0387402721

相关文章
相关标签/搜索