概率论总结(部分)
概率论的基本概念
随机试验
- 确定性现象
在一定条件下必然发生的现象 - 随机现象
在实验或观察前无法预知出现什么结果 - 统计规律性
随机试验在一次实验或观察的结果具有不确定性,但是在大量重复实验或观察呈现出某种规律性,称为统计规律性 随机试验的特点
- 可在相同条件下重复进行
- 每次试验的结果可能不止一个,但能确定所有可能的结果
- 在一次试验之前无法确定具体是哪种结果出现
在概率论中,将具有上述三个特点的试验称为随机试验,简称试验
样本空间、随机事件
样本空间
- 定义
随机试验E的所有可能结果所组成的集合称为样本空间,记为S
样本空间的元素,即E的每个结果,称为样本点
随机事件
定义
试验E的样本空间S的子集为E的随机事件,简称事件
在每次试验中,当且仅当这一子集的一个样本点出现时,称这一事件发生基本事件
由一个样本点组成的单点集,称为基本事件
事件关系的运算
研究规则
事件间的关系和运算应该按照集合之间的关系和运算来规定运算法则
- 包含
若,则称事件B包含事件A,这是指事件A的发生必然导致事件B发生
若A\subset B且B\subset A,即A=B,则称事件A与事件B相等 - 和事件
事件A\cup B={ x|x\in A $或$x\in B}称为事件A与事件B的和事件。当且仅当A,B中至少有一个发生时事件A \cup B发生 - 积事件
事件A\cap B={ x|x\in A $且$x\in B}称为事件A与事件B的积事件。当且仅当A,B中同时发生时事件A \cap B发生,记作AB - 差事件
事件A - B={ x|x\in A $且$x\notin B}称为事件A与事件B的积事件。当且仅当A发生B不发生时事件A - B发生 - 互斥
若A\cap B=\phi,则称事件A与事件B是互不相容的,或互斥的,这指的是事件A与事件B不能同时发生
基本事件是两两互不相容的 - 逆事件
若A\cup B=S且A\cap B=\phi,则称事件A与事件B互为逆事件,又称事件A与事件B互为对立事件,记为\overline{A}, \overline{A}=S-A
按差事件和对立事件的定义,显然有A-B=A\overline{B}
- 包含
运算律
- 交换律
- 结合律
- 分配律
频率与概率
频率
定义
在相同条件下,进行了n次试验,在这n次试验中,事件A发生的次数n_A称为事件A发生的频数,记作f_n(A)性质
- 0 \leq f_n(A)\leq 1
- f_n(S)=1
- 若A_1, A_2,\dotsc,A_k是两两互不相容事件,即对于i\neq j,A_iA_j=\phi,i,j=1,2,\dotsc,k,则
概率
统计定义
在相同条件下,重复进行n次试验,若事件A发生的频率f_n(A)随着试验次数n的增大而稳定在某个常数p(0\leq p\leq 1)附近摆动,则称p为事件A发生的概率,记为p(A)定义
设E为随机试验,S是它的样本空间,对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率,如果集合函数P(\cdot)曼珠下列条件:- 非负性:对于每一个事件A,有P(A)>0
- 规范性:对于必然事件S,有P(S)=1
- 可列可加性:若A_1, A_2,\dotsc,A_k是两两互不相容事件,即对于i\neq j,A_iA_j=\phi,i,j=1,2,\dotsc,k,则
性质
- 性质1
- 性质2(有限可加性)
若A_1, A_2,\dotsc,A_n是两两互不相容事件,则 - 性质3
设A,B是两个事件,若A\subset B,则有 - 性质4
对于任一事件A,有
$$P(A)\leq 1$ - 性质5(逆事件概率)
对于任一事件A,有 - 性质6(加法公式)
对于任意两事件A,B有
等可能概型(古典概型)
定义
具有以下两个特点的试验称为等可能概型,也称为古典概型- 试验的样本空间只包含有限个元素
- 试验中每个基本事件发生的可能性相同
性质
- 设试验的样本空间S={e_1,e_2,\dotsm,e_n},则
- 若样本空间S包含n个基本事件,事件A包含k个基本事件,则
实际推断原理
概率很小的事件在一次试验中实际上几乎是不发生的,称为实际推断原理
条件概率
定义
一般地,设A、B是S中的两个事件,若P(A)>0,则称为在事件A发生的条件下事件B发生的条件概率
性质
条件概率P(\cdot|A)符合概率定义中的三个条件- 非负性:对任一事件B,有P(B|A)\geq 0
- 规范性:对于样本空间S,有P(S|A)=1
- 可列可加性:设B_1,B_2\dotsm是两两互斥事件,则
乘法定理
- 设P(A)>0,则有
- 设P(AB)>0,推广
- 一般地,设$A1,A_2,\dotsm,A_n为n个事件,n\geq 2,且P(A_1A_2\dotsm A{n-1})>0$,则有
划分
设S为试验E的样本空间,B_1,B_2,\dotsm B_n为E的一组事件,若- B_iB_j=\phi, i\neq j,~~i,j=1,2,\dotsm,n
- B_1\cup B_2\cup\dotsm\cup B_n=S
则称B_1,B_2,\dotsm B_n为样本空间的一个划分
全概率公式
设试验E的样本空间为S,A为E的事件,B_1,B_2,\dotsm B_n为S的一个划分,且P(B_i)>0~(i=1,2,\dotsm,n),则全概率公式为贝叶斯公式
设试验E的样本空间为S,A为E的事件,B_1,B_2,\dotsm B_n为S的一个划分,且P(B_i)>0~(i=1,2,\dotsm,n),则贝叶斯公式为总结
- 条件概率是求事件A发生条件下事件B发生的概率
- 乘法公式是求“几个事件同时发生”的概率
- 全概率公式是求“最后结果”的概率
- 贝叶斯公式是已知“最后结果”,求“原因”的概率
独立性
定义
设A,B是两个事件,如果满足等式
则称事件A、B相互独立,简称A、B独立相互独立与互不相容的区分
- A、B相互独立 \Longrightarrow P(AB)=P(A)P(B)
- A、B互不相容 \Longrightarrow AB=\phi \Longrightarrow P(AB)=0
若P(A)>0,P(B)>0则A、B相互独立与A、B互不相容不能同时成立
定理一
设A、B是两事件,且P(A)>0,若A、B相互独立,则P(B|A)=P(B)反之亦然定理二
设A、B是两事件,若A、B相互独立,则A与\overline{B},\overline{A}与B,\overline{A}与\overline{B}都相互独立多事件相互独立
一般地,设A_1,A_2,\dotsm,A_n (n\geq2)个事件,如果对其中任意2个,3个,\dotsm,n个事件的积事件概率,都等于各事件概率之积,则称事件A_1,A_2,\dotsm,A_n相互独立推论
若事件A_1,A_2,\dotsm,A_n (n\geq2)相互独立- 其中任意k(2\leq k\leq n)个事件也是相互独立的
- 则将A_1,A_2,\dotsm,A_n中任意多个换成它们的对立事件,所得的n个事件仍然相互独立
随机变量及其分布
随机变量
- 定义
设X=X(e)是定义在样本空间S上的单值实值函数,称X=X(e)为随机变量
随机变量通常用大写字母X,Y,Z,W\dotsm等表示
一般地,若L是一个实数集合,将X在L上取值写成{X\in L},它表示事件A={e|X(e)\in L},即A是由S中使得X(e)\in L的所有样本点e所组成的事件,此时有
离散型随机变量及其分布律
离散型随机变量的定义
随机变量的全部可能取值是有限个或者可列无限个,这种随机变量称为离散型随机变量分布律
设X所有可能取的值为x_k(k=1,2,\dotsm),而
p_k满足如下两个条件- p_k\geq 0, ~k=1,2,\dotsm
- \sum_{k=1}^{\infty}p_k=1
分布律也可以用表格表示
X|x_1|x_2|\dotsm|x_n|\dotsm
:-:|:-:|:-:|:-:|:-:|:-:
p_k|p_1|p_2|\dotsm|p_n|\dotsm
(0-1)分布
设随机变量X只可能取0与1两个值,则称X服从(0-1)分布或两点分布,它的分布律是
X | x_1 | x_2 |
---|---|---|
p_k | 1-p | p |
二项分布
- 伯努利试验
设试验E只有两个可能结果:A及\overline{A},则称E为伯努利试验
设P(A)=p~~~(0<p<1),此时P(\overline{A})=1-p
将E独立地重复进行n次试验,则称这一串重复的独立试验为n重伯努利试验
n重伯努利试验即为二项分布
- 二项分布
设随机变量X服从参数为n,p的二项分布,记作X\sim B(n,p)则
泊松分布
设随机变量X所有可能的值为0,1,2,\dotsm,而取各个值的概率为
其中\lambda>0是常数,则称X服从参数为\lambda的泊松分布,记为X\sim \pi(\lambda)
总结
- 二项分布\xrightarrow{n=1}两点分布
- 二项分布\xrightarrow{np\rightarrow\lambda(n\rightarrow\infty)}泊松分布
- 二项分布\xrightarrow{n\rightarrow\infty}正态分布
- 二项分布中,当n很大,p很小时,可近似为
随机变量的分布函数
定义
设X是一个随机变量,x是任意实数,函数F(x)=P{X\leq x}称为X的分布函数基本性质
- F(x)是一个不减函数
- 0\leq F(x)\leq 1,且
- F(x+0)=F(x),即F(x)是右连续的
一般地,设离散型随机变量X的分布律为
分布函数F(x)在x=x_k(k=1,2,\dotsm)处有跳跃,其跳越值为p_k=P{X=x_k}
连续型随机变量及其概率密度
定义
如果对于随机变量X的分布函数F(x),存在非负可积函数f(x),使对于任意实数x有则称X为连续型随机变量,其中函数f(x)称为X的概率密度函数,简称概率密度性质
- f(x)\geq 0
- \int_{+\infty}^{-\infty}f(x)dx=1
- 任意实数x_1,x_2,(x_1\leq x_2),则
- 若f(x)在点x连续,则有F’(x)=f(x)
- 对于任意可能值a,连续型随机变量取a的值为0,P{X=a}=0
- 连续型随机变量取值落在某一区间的概率与区间的开闭无关
均匀分布
设连续型随机变量X具有概率密度
则称X在区间(a,b)上服从均匀分布,记为X\sim U(a,b)
其分布函数为
指数分布
设连续型随机变量X具有概率密度
其中\theta>0为常数,则称X服从参数为\theta的指数分布
X的分布函数为
- X服从指数分布,则任给x,t>0,有
该性质称为无记忆性
正态分布
设连续型随机变量X具有概率密度
其中\mu, \sigma(\sigma>0)为常数,则称X服从参数为\mu,\sigma的正态分布或高斯分布,记为X\sim N(\mu, \sigma^2)
X的分布函数为
性质
- 曲线关于x=\mu对称
- 当x=\mu时取到最大值
- x离\mu越远,f(x)的值越小
- 在x=\mu\pm\sigma处曲线有拐点
- 曲线以Ox轴为渐近线
标准正态分布
特别地,称N\sim(0,1)为标准正态分布,其概率密度函数和分布函数常分别用\varphi(x)和\varPhi(x)表示任何一个一般的正态分布都可以转化为标准正态分布,即
若X\sim N(0,1),则
- \varPhi(-x)=1-\varPhi(x)
- P{a<X<b}=\varPhi(b)-\varPhi(a)
上\alpha分位点
设X\sim N(0,1),若z_\alpha满足条件则称点$z\alpha为标准正态分布的上\alpha分位点,可知z{1-\alpha}=-z_\alpha$
image
随机变量的函数的分布
定义
已知随机变量X,Y,X的分布律(概率密度)已知,Y=g(X),g为连续函数,则随机变量Y的分布就称为随机变量X的函数的分布离散型
若随机变量X为离散型,则直接代入计算Y的分布律,若有值相同的,合并即可连续型
设随机变量X具有概率密度f_X(x),其中-\infty<x<+\infty,设函数g(x)处处可导,且恒有g’(x)>0(或恒有g’(x)<0),则Y=g(X)也是连续型随机变量,其概率密度为其中\alpha=min(g(-\infty), g(+\infty)),\beta=max(g(-\infty), g(+\infty)),h(y)是g(x)的反函数
多维随机变量及其分布
二维随机变量
定义
设E是一个随机试验,其样本空间为S={e},设X=X(e)和Y=Y(e)是定义在S上的随机变量,由它们构成的一个向量(X,Y),叫做二维随机向量或二维随机变量联合分布函数
设(X,Y)是二维随机变量,对于任意实数x,y,二元函数: 称为二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数image
分布函数的性质
- F(x,y)是变量x,y的不减函数
- 0\leq F(x,y)\leq 1
- F(x,y)=F(x+0,y),F(x,y)=F(x,y+0)
二维离散型随机变量
定义
若二维随机变量(X,Y)全部可能取到的值的有限对或者可列无限多对,则称(X,Y)为二维离散型随机变量分布律
设二维随机变量(X,Y)所有可能取的值为(X_i,y_i),~i,j=1,2,\dotsm,记称上式为二维离散型随机变量(X,Y)的分布律,或随机变量X和Y的联合分布律,其中
分布函数
二维离散型随机变量的(X,Y)的分布函数为
上式是对一切满足x_i\leq x,y_i\leq y的i,j求和
二维连续型随机变量
定义
对于二维随机变量(X,Y)的分布函数F(x,y),如果存在非负可积的函数f(x,y)使对于任意x,y有则称(X,Y)是二维连续型随机变量,函数f(x,y)称为二维随机变量(X,Y)的概率密度,或称为随机变量X和Y的联合概率密度
性质
- f(x,y)\geq 0
- $\int{-\infty}^{+\infty}\int{-\infty}^{+\infty}f(x,y)dxdy=F(\infty,\infty)=1$
- 设G是xOy平面上的一个区域,点(X,Y)落在G内的概率为
- 若f(x,y)在(x,y)连续,则有\frac{\partial^2F(x,y)}{\partial x \partial y}=f(x,y)
边缘分布
边缘分布函数
二维随机变量(X,Y)作为一个整体,具有分布函数F(x,y),而X和Y都是随机变量,也有各自的分布函数,分别记为F_X(x),F_Y(y),依次称为二维随机变量(X,Y)关于x,y的边缘分布函数
离散型随机变量的边缘分布
设二维离散型随机变量(X,Y)的联合分布律为
记
分别称$p{i\cdot}和p{\cdot j}为(X,Y)关于X和关于Y$的边缘分布律
连续型随机变量的边缘分布
对于连续性随机变量(X,Y),设它的概率密度为f(x,y),则X,Y的边缘分布和边缘概率密度为
- 均匀分布
设G是平面上的有界区域,其面积为A,若二维随机变量(X,Y)具有概率密度则称(X,Y)在G上服从均匀分布 - 正态分布
太长了。。。就不写了
条件分布
设有两个随机变量X,Y,在Y取某个值或某些值的情况下,X的概率分布即为条件概率
二维离散型随机变量的条件分布
设(X,Y)是二维离散型随机变量,对于固定的j,若P{Y=y_i}>0,则称
为在$Y=y_i,i=1,2,\dotsm条件下随机变量X的条件分布律 同理,在X=x_i,i=1,2,\dotsm条件下随机变量Y$的条件分布律为
二维连续型随机变量的条件分布
设二维随机变量(X,Y)的概率密度为f(x,y),~(X,Y)关于Y的边缘概率密度为f_Y(y),若对于固定的y,f_Y(y)>0,则Y=y的条件下X的条件概率密度为
条件分布函数为
同理,在X=x的条件下Y的条件概率密度为
条件分布函数为
相互独立的随机变量
定义
设F(x,y)及F_X(x),F_Y(y)分别是二维随机变量(X,Y)的分布函数及边缘分布还是。若对于所有的x,y有
即
则称随机变量X,Y是相互独立的。离散型随机变量
若离散型随机变量X和Y的联合分布律为X和Y相互独立$\Leftrightarrow P{X=xi, Y=y_j}=P{X=x_i}{Y=y_j}\Leftrightarrow p{ij}=p{i\cdot}p{\cdot j}$
- 连续型随机变量
设(X,Y)是二维连续型随机变量,具有概率密度为f(x,y),边缘概率密度分别为f_X(x),f_Y(y)。
X和Y相互独立\Leftrightarrow f(x,y)=f_X(x)f_Y(y)
两个随机变量的函数的分布
Z=X+Y的分布
设(X,Y)是二维连续型随机变量,具有概率密度为f(x,y),则Z=X+Y的概率密度为若X和Y独立,设(X,Y)关于X,Y的边缘概率密度为f_X(x),f_Y(y),则
上式称为卷积公式
若X_i\sim N(\mu_i, \sigma_i^2), i=1,2,\dotsm,则
M=max(X,Y)和N=min(X,Y)的分布
设X和Y是两个相互独立的随机变量,它们的分布函数分别为F_X(x)和F_Y(y),则M=max(X,Y)和N=min(X,Y)的分布函数为
随机变量的数字特征
数学期望
离散型随机变量的数学期望
设X是离散型随机变量,它的分布律为
若级数$\sum{k=1}^\infty x_kp_k绝对收敛,则级数\sum{k=1}^\infty x_kp_k的和为随机变量X$的数学期望,简称期望,又称为均值
连续型随机变量的数学期望
设X是连续型随机变量,其概率密度函数为f(x),如果积分
绝对收敛,则称此积分值为X的数学期望,即
随机变量的函数的数学期望
设Y是随机变量X的函数:Y=g(X)(g是连续函数)
当X为连续型时,它的分布律为$P{X=xk}=p_k,~(k=1,2,\dotsm),若\sum{k=1}^\infty g(x_k)p_k$绝对收敛,则有
当X为连续型时,它的概率密度为f(x),若\int_{-\infty}^{+\infty} g(x)f(x)dx绝对收敛,则有
数学期望的性质
- 设C为常数,则E(C)=C
- 设k为常数,则E(kX)=kE(X)
- E(X+Y)=E(X)+E(Y)
- 设X和Y相互独立,则E(XY)=E(X)E(Y)
方差
定义
设X是一个随机变量,若E([X-E(X)]^2)存在,称E([X-E(X)]^2)为X的方差。记为D(X)或Var(X),即
方差的算术平方根\sqrt{D(X)}称为X的标准差或均方差,记为\sigma(X)
计算
由定义知,方差是随机变量X的函数g(X)=[X-E(X)]^2的数学期望
离散型
若X是离散型随机变量,它的分布律为P{X=x_k}=p_k,~k=1,2,\dotsm,则连续型
若X为连续型时,它的概率密度为f(x),则
性质
- 设C为常数,则D(C)=0, D(X+C)=D(X)
- 设k为常数,则D(kX)=k^2D(X)
- D(X+Y)=D(X)+D(Y)+2E([X-E(X)][Y-E(Y)])
- D(X)=0 \Leftrightarrow P{X=C}=1,这里C=E(X)
- 设X和Y相互独立,则D(X+Y)=D(X)+D(Y)
分布 | 参数 | 数学期望 | 方差 |
---|---|---|---|
两点分布 | 0<p<1 | p | p(1-p) |
二项分布 | n\geq 1,0<p<1 | np | np(1-p) |
泊松分布 | \lambda>0 | \lambda | \lambda |
均匀分布 | a<b | (a+b)/2 | (b-a)^2/12 |
指数分布 | \theta>0 | \theta | \theta^2 |
正态分布 | \mu, \sigma>0 | \mu | \sigma^2 |
切比雪夫不等式
设随机变量X具有数学期望E(X)=\mu,方差D(X)=\sigma^2,则对于任意正数\varepsilon,有不等式
由切比雪夫不等式可以看出,若\sigma^2越小,则事件{|X-E(X)|\geq \varepsilon}的概率越大
协方差及相关系数
协方差
定义
E([X-E(X)][Y-E(Y)])称为随机变量X和随机变量Y的协方差,记为Cov(X,Y),即性质
- Cov(X,Y)=Cov(Y,X)
- Cov(aX,bY)=ab~Cov(X,Y),a,b为常数
- Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)
- 若X与Y相互独立,Cov(X,Y)=0
- Cov(X,X)=E(X^2)-E(X)^2=D(X)
相关系数
定义
设D(X)>0,D(Y)>0,称为随机变量X和Y的相关系数,在不混淆的情况下,记\rho_{XY}为\rho
性质
- |\rho|\leq 1
- X和Y相互独立时,\rho=0,但其逆不真
- |\rho|=1\Leftrightarrow X,Y线性相关
矩、协方差矩阵
原点矩、中心矩
设X和Y是随机变量,若
存在,称它为X的k阶原点矩,简称k阶矩
若
存在,称它为X的k阶中心距
可见,均值E(X)是X的k阶中心矩,方差D(X)是X的二阶中心矩
协方差矩阵(不考)
大数定律及中心极限定理
大数定律
- 背景
大量随机试验中,事件发生的频率稳定于某一常数,测量值的算术平均值具有稳定性 - 概念
概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理,称为大数定律
依概率收敛
定义
设Y_1,Y_2,\dotsm,Y_n\dotsm是一个随机变量序列,a是一个常数。若对于任意正数\varepsilon,有则称序列Y_1,Y_2,\dotsm,Y_n\dotsm依概率收敛于a,记为
性质
设X_n\xrightarrow{P}a,Y_n\xrightarrow{P}b,设函数g(x,y)在点(a,b)连续,则
总结
设随机变量X_1,X_2,\dotsm,X_n,\dotsm相互独立
大数定律 | 表达式 | 条件 |
---|---|---|
伯努利大数定律 | ||
切比雪夫大数定律 | ||
辛钦大数定律 |
abs()代表绝对值
中心极限定理
独立同分布下的中心极限定理
设随机变量$X1,X_2,\dotsm,X_n,\dotsm相互独立,服从同一分布,具有数学期望和方差:E(X_k)=\mu,D(X_k)=\sigma^2,(k=1,2,\dotsm),则随机变量之和\sum{k=1}^n X_k的标准化变量的分布函数为F_n(x)对于任意x$满足李雅普诺夫定理
设随机变量$X1,X_2,\dotsm,X_n,\dotsm相互独立,服从同一分布,具有数学期望和方差:E(X_k)=\mu_k,D(X_k)=\sigma^2_k,(k=1,2,\dotsm),记B_n^2=\sum{k=1}^n\sigmak^2,则随机变量之和\sum{k=1}^n X_k的标准化变量的分布函数为F_n(x)对于任意x$满足棣莫弗-拉普拉斯定理
设随机变量\eta_n(n=1,2,\dotsm)服从参数n,p(0<p<1)的二项分布,对于任意x有定理表明,当n很大,0<p<1是一个定值时,二项分布的随机变量的\eta_n分布近似正态分布N(np,np(1-p)).
样本及抽样分布
随机样本
总体与个体
- 研究对象的全体称为总体
- 总体中每个成员称为个体
- 总体中所包含的个体的个数称为总体的容量
样本
- 总体中抽出若干个体而成的的集体,称为样本
- 样本所含个体的个数,称为样本容量
抽样分布
- 本文标题:概率论总结(部分)
- 本文作者:Shikang Xu
- 版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!