跳转至

概率统计

统计

定义 1. 抽样方法(人教A必修二P173)

简单随机抽样 :放回简单随机抽样和不放回简单随机抽样的统称. 不放回简单随机抽样中,未进入样本的个体被抽概率相等. 样本:通过简单随机抽样获得的样本为简单随机样

简单随机抽样 :放回简单随机抽样和不放回简单随机抽样的统称. 不放回简单随机抽样中,未进入样本的个体被抽概率相等. 样本:通过简单随机抽样获得的样本为简单随机样本. 分层随机抽样:按变量将总体划分为若干子总体(层),在各层独立进行简单随机抽样,合并样本作为总样本. 比例分配:若每层样本量与层的大小成比例,称比例分配.

定义 2. 随机数表抽样

随机数表抽样是简单随机抽样的实现方式之一,利用随机数表生成的等概率随机,确保总体中每个个体被抽取的概率 (P )相等(适用于N个个体的总体, (P = 1 N

随机数表抽样是简单随机抽样的实现方式之一,利用随机数表生成的等概率随机,确保总体中每个个体被抽取的概率 (P )相等(适用于N个个体的总体, (P = 1 N ) ),满足抽样的随机性与公平. 步骤1: 将总体 (N )个个体唯一编码(如编号为 (00, 01, , N-1 ),编码位数与随机数表位数匹配,若 (N=120 ),统一用 (3 )位编码: (000 )无效, (001 )至 (120 ) ). 步骤2: 随机选择行与列作为起始点(如闭眼指表、随机数生成器选坐标),消除人为选择偏差. 步骤3: 沿固定方向(如从左到右、从上到下)读取数表,提取符合编码范围的数(超出的数 跳过 ,重复数 去重 ) 步骤4: 持续读取至抽取 (n )个有效编码,对应个体组成样本.

定义 3. 总体均值与样本均值(简单随机抽样)

总体均值:总体有 (N ) 个个体,变量值为 (Y_1, Y_2, , Y_N ),则 ( Y = Y_1 + Y_2 + + Y_N N = 1 N _ i=

总体均值:总体有 (N ) 个个体,变量值为 (Y_1, Y_2, , Y_N ),则 ( Y = Y_1 + Y_2 + + Y_N N = 1 N _ i=1 ^ N Y_i ) 若不同值有 (k ) 个,频数为 (f_i ),则 ( Y = 1 N _ i=1 ^ k f_iY_i )(加权形式). 样本容量为 (n ),变量值 (y_1, y_2, , y_n ),则 ( y = y_1 + y_2 + + y_n n = 1 n _ i=1 ^ n y_i ), 常用 ( y ) 估计总体均值 ( Y ).

定义 4. 估计总体平均数的方法

简单随机抽样:从总体中用简单随机抽样抽取一个容量为 (n ) 的样本,它们的变量值分别为 (y_1,y_2, ,y_n ),则称 ( y = y_1 + y_2

简单随机抽样:从总体中用简单随机抽样抽取一个容量为 (n ) 的样本,它们的变量值分别为 (y_1,y_2, ,y_n ),则称 ( y = y_1 + y_2+ +y_n n ) 为样本均值,又称样本平均数,我们常用样本平均数 ( y ) 去估计总体平均数. 分层随机抽样:核心方法是用样本中各层的平均数估计总体中各层的平均数. 以将总体分 (2 ) 层为例, 设第 (1 ) 层各个个体的变量值分别为 (X_1,X_2, ,X_M ),从第 (1 ) 层中抽取的样本的变量值分别为 (x_1,x_2, ,x_m ), 则可用第 (1 ) 层的样本平均数 ( x = x_1 + x_2+ +x_m m ) 来估计第 (1 ) 层的总体平均数 ( X = X_1 + X_2+ +X_M M ) 设第 (2 ) 层的各个个体的变量值分别为 (Y_1,Y_2, ,Y_N ),从第 (2 ) 层中抽取的样本的变量值分别为 (y_1,y_2, ,y_n ), 则可用第 (2 ) 层的样本平均数 ( y = y_1 + y_2+ +y_n n ) 来估计第 (2 ) 层的总体平均数 ( Y = Y_1 + Y_2+ +Y_N N ). 所以总体的平均数的估计值为 [ M x +N y M + N = M M + N x + N M + N y ] 在按比例分配的分层随机抽样中, ( m M = n N = m + n M + N ),所以 ( M M + N = m m + n ), ( N M + N = n m + n ), 从而 [ M M + N x + N M + N y = m m + n x + n m + n y ],其中 ( m m + n x + n m + n y ) 即为总样本平均数, 故可用总样本平均数估计总体平均数.

结论 1. 分层抽样的均值和方差(人教A必修二P216-11)

若总体划分为两层, 第一层 ( m )个数,分别为 ( x_1, x_2, , x_m ),平均数为 ( x ),方差为 ( s_1^2 ); 第二层 ( n

若总体划分为两层, 第一层 ( m )个数,分别为 ( x_1, x_2, , x_m ),平均数为 ( x ),方差为 ( s_1^2 ); 第二层 ( n )个数,分别为 ( y_1, y_2, , y_n ),平均数为 ( y ),方差为 ( s_2^2 ). 记总的样本平均数为 ( ),样本方差为 ( s^2 ),则 = _ i=1 ^m x_i + _ i=1 ^n y_i m + n = m x + n y m + n s^2 = _ i=1 ^m (x_i - )^2 + _ i=1 ^n (y_i - )^2 m + n = _ i=1 ^m (x_i - x + x - )^2 + _ i=1 ^n (y_i - )^2 m + n = _ i=1 ^m (x_i - x )^2 + 2( x - ) _ i=1 ^m (x_i - x ) + m( x - )^2 + _ i=1 ^n (y_i - )^2 m + n = m [ s_1^2 + ( x - )^2 ] + n [ s_2^2 + ( y - )^2 ] m + n = m ( s_1^2 + x ^2 - ^2 ) + n ( s_2^2 + y ^2 - ^2 ) m + n 解释:点到总中心的距离平方 = 点到层中心的距离平方 + 层中心到总中心的距离平方, 总方差 = 各层内部波动的加权平均 + 各层中心相对于总中心的偏移带来的波动 同理,若层数分为3层,第1层、第2层和第3层的样本量、样本平均数和样本方差分别为 l, x ,s_x^2 ; m, y ,s_y^2 和 n, z ,s_z^2 .记总的样本平均数为 w ,样本方差为 s^2 ,则 s^2 = l l+m+n [ s_x^2 + ( x - w )^2 ] + m l+m+n [ s_y^2 + ( y - w )^2 ] + n l+m+n [ s_z^2 + ( z - w )^2 ].

定义 5. 频率分布直方图(人教A必修二P193)

0.69 绘制频率分布表和频率分布直方图的步骤: 第一步:求极差(即一组数据中最大值与最小值的差). 第二步:决定组距与组数. 组距是指每个小组的两个端点之间的

0.69 绘制频率分布表和频率分布直方图的步骤: 第一步:求极差(即一组数据中最大值与最小值的差). 第二步:决定组距与组数. 组距是指每个小组的两个端点之间的距离,极差、组距、组数之间有如下关系: [label=( )] 若 ( 极差 组距 )为整数,则 ( 极差 组距 = )组数; 若 ( 极差 组距 )不为整数,则 ( 极差 组距 + 1 = )组数.( ( x )表示不大于 (x )的最大整数) 第三步:将数据分组.对组内数据所在区间取左闭右开区间,最后一组取闭区间. 第四步:统计各组数据的频数,计算频率,完成频率分布表. 0.3 c c c 分组 频数 频率 ([a_0, a_1) ) (N_1 ) (f_1 ) ([a_1, a_2) ) (N_2 ) (f_2 ) ([a_2, a_3) ) (N_3 ) (f_3 ) ( ) ( ) ( ) ([a_ n - 2 , a_ n - 1 ) ) (N_ n - 1 ) (f_ n - 1 ) ([a_ n - 1 , a_n] ) (N_n ) (f_n ) 合计 (N ) (1 ) 第五步: 画频率分布直方图.根据频率分布表,画出频率分布直方图.在频率分布直方图中,纵轴表示 ( 频率 组距 ),各小长方形的面积表示相应各组的频率. 频率分布直方图的特征: 各个小矩形的面积和为 (1 ) . 纵轴的含义为 ( 频率 组距 ),矩形的面积 (= )组距 ( 频率 组距 = )频率.

定义 6. 百分位数

一组数据的第 (p ) 百分位数是这样一个值,它使得这组数据中至少有 (p % ) 的数据小于或等于这个值,且至少有 ((100 - p) % ) 的数据大于或

一组数据的第 (p ) 百分位数是这样一个值,它使得这组数据中至少有 (p % ) 的数据小于或等于这个值,且至少有 ((100 - p) % ) 的数据大于或等于这个值,其计算步骤为: [label=( )] % 带圈数字编号 按 从小到大 排列原始数据; 计算 (i = n p % ) ,其中 (n ) 为样本量; 若 (i ) 不是整数,而大于 (i ) 的比邻整数为 (j ),则第 (p ) 百分位数为 第 (j ) 项数据 ; 若 (i ) 是整数,则第 (p ) 百分位数为 第 (i ) 项和第 (i + 1 ) 项的平均数 . 常用的分位数有第25百分位数,第50百分位数(即中位数),第75百分位数.这三个分位数把一组 由小到大 排列后的数据分成四等份,因此称为四分位数. 其中第 25 百分位数也称为第一四分位数或下四分位数,第 75 百分位数也称为第三四分位数或上四分位数.

定义 7. 平均数

一组数据 (x_1,x_2, ,x_n ) 的平均数 ( x = x_1 + x_2+ +x_n n ). 由频率分布直方图估计样本平均数,常用每组区间 中点值

一组数据 (x_1,x_2, ,x_n ) 的平均数 ( x = x_1 + x_2+ +x_n n ). 由频率分布直方图估计样本平均数,常用每组区间 中点值 代表落在该区间的数据, 若设各组区间中点为 (x_1,x_2, ,x_n ),对应各组的频率为 (f_1,f_2, ,f_n ),则可估计样本平均数 ( x = _ i = 1 ^ n x_if_i ).

定义 8. 中位数

对于从小到大排列的一组数据,若数据个数为奇数,则中位数为最中间的一个数据;若数据个数为偶数,则中位数为中间两个数据的平均数. 由频率分布直方图估计样本中位数,应

对于从小到大排列的一组数据,若数据个数为奇数,则中位数为最中间的一个数据;若数据个数为偶数,则中位数为中间两个数据的平均数. 由频率分布直方图估计样本中位数,应在横轴上找到一个数,使其左右两侧面积各占 (0.5 ) .

定义 9. 众数

一组数据中出现次数最多的数据即为该组数据的众数,若有几个数据出现次数一样多,且都比其它数据多,则它们都是众数. 由频率分布直方图估计样本众数,取最高的小矩形区间

一组数据中出现次数最多的数据即为该组数据的众数,若有几个数据出现次数一样多,且都比其它数据多,则它们都是众数. 由频率分布直方图估计样本众数,取最高的小矩形区间中点即可.

定义 10. 极差

一组数据的最大值与最小值之差,它可以一定程度反映数据的离散程度.

一组数据的最大值与最小值之差,它可以一定程度反映数据的离散程度.

定义 11. 方差、标准差

方差、标准差:刻画数据的离散程度.方差、标准差越大,数据越分散,反之越集中. 一组数据 (x_1,x_2, ,x_n ) 的方差 [ s^ 2 = 1 n _

方差、标准差:刻画数据的离散程度.方差、标准差越大,数据越分散,反之越集中. 一组数据 (x_1,x_2, ,x_n ) 的方差 [ s^ 2 = 1 n _ i = 1 ^ n (x_i- x )^ 2 = 1 n _ i = 1 ^ n x_ i ^ 2 - x ^ 2 , ] 方差公式的两种形式都需掌握,计算或证明时都可能用到. 方差的算术平方根 (s ) 即为标准差. 若数据 (x_1,x_2, ,x_n ) 有重复,设其不重复的值为 (y_1,y_2, ,y_k ),对应的数据个数依次为 (f_1,f_2, ,f_k ),则 (s^ 2 = 1 n _ i = 1 ^ k f_i(y_i - x )^ 2 ). 由频率分布直方图估计样本方差,常用每组区间中点值代表落在该区间的数据, 若设各组区间中点为 (x_1,x_2, ,x_n ),对应各组的频率为 (f_1,f_2, ,f_n ),则可估计样本方差 [ s^ 2 = _ i = 1 ^ n (x_i- x )^ 2 f_i ]

结论 2. $ax_i+b$的数据计算

假设一组数据 x_1,x_2, ,x_n 的平均数为 x ,方差为 s_x^2 ,第 p 百分位数为 x_p ,众数为 x_0 ,极差为 x_ max - x_

假设一组数据 x_1,x_2, ,x_n 的平均数为 x ,方差为 s_x^2 ,第 p 百分位数为 x_p ,众数为 x_0 ,极差为 x_ max - x_ min ; 数据 y_1,y_2, ,y_n 的平均数为 y ,方差为 s_y^2 ,第 p 百分位数为 y_p ,众数为 y_0 ,极差为 y_ max - y_ min . 若 y_i = a x_i + b (i=1,2, ,n) ,则: y = a x + b , s_y^2 = a^2 s_x^2 , y_p = a x_p + b, y_0 = a x_0 + b, y_ max - y_ min = a(x_ max - x_ min ). 证明: s_ y ^ 2 = 1 n _ i = 1 ^ n y_ i ^ 2 - y ^ 2 = 1 n _ i = 1 ^ n (ax_i + b)^ 2 -(a x +b)^ 2 = 1 n _ i = 1 ^ n (a^ 2 x_ i ^ 2 +2abx_i + b^ 2 )-(a^ 2 x ^ 2 +2ab x +b^ 2 ) = 1 n _ i = 1 ^ n a^ 2 x_ i ^ 2 + 1 n _ i = 1 ^ n 2abx_i+ 1 n _ i = 1 ^ n b^ 2 -(a^ 2 x ^ 2 +2ab x +b^ 2 ) =a^ 2 1 n _ i = 1 ^ n x_ i ^ 2 +2ab x + 1 n nb^ 2 -(a^ 2 x ^ 2 +2ab x +b^ 2 ) =a^ 2 ( 1 n _ i = 1 ^ n x_ i ^ 2 - x ^ 2 )=a^ 2 s^ 2

概率

定义 1. 随机试验、样本点与样本空间(人教A必修二P228)

把对随机现象的实现和对它的观察称为随机试验,简称试验,常用字母 ( E )表示.具有以下特点: [label= ] % 带圈数字编号 相同条件下可重复进行 所有

把对随机现象的实现和对它的观察称为随机试验,简称试验,常用字母 ( E )表示.具有以下特点: [label= ] % 带圈数字编号 相同条件下可重复进行 所有可能结果是明确可知的,并且不止一个; 每次试验总是恰好出现这些可能结果中的一个,但事先不能确定出现哪一个结果. 样本点:把随机试验 ( E )的每个可能的 ( 基本结果 )称为样本点,一般地,用 ( )表示样本点. 样本空间:全体样本点的集合称为试验 ( E )的样本空间,一般地,用 ( )表示样本空间. 在本书中,我们只讨论 ( )为有限集的情况. 如果一个随机试验有 ( n )个可能结果 ( _1, _2, , _n ),则称样本空间 ( = _1, _2, , _n )为有限样本空间.

定义 2. 事件的分类

随机事件:可能发生也可能不发生的事件,称为随机事件,即样本空间的 的子集为随机事件,把只包含一个样本点的事件称为基本事件 必然事件:一定会发生的事件,称为必然事

随机事件:可能发生也可能不发生的事件,称为随机事件,即样本空间的 的子集为随机事件,把只包含一个样本点的事件称为基本事件 必然事件:一定会发生的事件,称为必然事件, 作为自身的子集,包含了所有的样本点,在每次试验中总有一个样本点发生,即样本空间 为必然事件.必然事件的概率 P( )=1 .但概率为1的事件不一定是必然事件. 不可能事件:一定不会发生的事件,称为不可能事件,即 不包含任何样本点,为不可能事件.不可能事件的概率 P( )=0 .但概率为0的事件不一定是不可能事件. 确定事件:必然事件与不可能事件统称为确定事件

定义 3. 事件的关系和运算

c c c c 事件的关系或运算 含义 符号表示 Venn图 包含 若 (A )发生,则 (B )必然发生 (A B ) [scale=0.7,yscale=0

c c c c 事件的关系或运算 含义 符号表示 Venn图 包含 若 (A )发生,则 (B )必然发生 (A B ) [scale=0.7,yscale=0.8, baseline=(current bounding box.center)] [thick] (0,0) rectangle (4,3); [thick] (2,1.5) circle (1.2); [thick] (2.3,1.5) circle (0.6); at (2.3,1.5) A ; at (1.2,1.5) B ; 并事件(和事件) (A )与 (B )至少有一个发生 (A B )或 (A + B ) [scale=0.7,yscale=0.8, baseline=(current bounding box.center)] [thick] (0,0) rectangle (4,3); [gray!40] (1.2,1.5) circle (1); [gray!40] (2.8,1.5) circle (1); [thick] (1.2,1.5) circle (1); [thick] (2.8,1.5) circle (1); at (0.7,1.5) A ; at (3.3,1.5) B ; 交事件(积事件) (A )与 (B )同时发生 (A B )或 (AB ) [scale=0.7,yscale=0.8, baseline=(current bounding box.center)] [thick] (0,0) rectangle (4,3); [thick] (1.2,1.5) circle (1); [thick] (2.8,1.5) circle (1); (1.2,1.5) circle (1); [gray!60] (2.8,1.5) circle (1); at (0.7,1.5) A ; at (3.3,1.5) B ; 互斥事件 (A )与 (B )不能同时发生 (A B= ) [scale=0.7,yscale=0.8, baseline=(current bounding box.center)] [thick] (0,0) rectangle (4,3); [thick] (1,1.5) circle (0.8); [thick] (3,1.5) circle (0.8); at (1,1.5) A ; at (3,1.5) B ; 互为对立 (A )与 (B )有且仅有一个发生 (A B= )且 (A B = ) [scale=0.7,yscale=0.8, baseline=(current bounding box.center)] [thick] (0,0) rectangle (4,3); [thick] (2,0) -- (2,3); at (1,1.5) A ; at (3,1.5) B ;

定义 4. 古典概型(人教A必修二P228)

样本空间的样本点只有有限个,每个样本点发生的可能性相等. 满足这两个特征的试验称为古典概型试验,其数学模型称为古典概型. 在古典概型中,事件 (A )发生的概率

样本空间的样本点只有有限个,每个样本点发生的可能性相等. 满足这两个特征的试验称为古典概型试验,其数学模型称为古典概型. 在古典概型中,事件 (A )发生的概率 [P(A)= n(A) n( ) ],其中 (n(A) )表示事件 (A )包含的样本点的个数, (n( ) )表示样本空间 ( )包含的样本点个数.

性质 1. 概率的基本性质

对任意随机事件 (A ),都有 (0 P(A) 1 ). 必然事件的概率为 (1 ),不可能事件的概率为 (0 ),即 (P( )=1 ), (P( )=0 )

对任意随机事件 (A ),都有 (0 P(A) 1 ). 必然事件的概率为 (1 ),不可能事件的概率为 (0 ),即 (P( )=1 ), (P( )=0 ). 互斥事件的概率加法公式:若事件 (A )与事件 (B )互斥,则 (P(A B)= P(A)+P(B) ). 若事件 (A )与事件 (B )互为对立事件,则 (P(A)=1 - P(B) ), (P(B)=1 - P(A) ),事件 (A )的对立事件一般记作 ( A ). 设 (A ), (B )是一个随机试验中的两个事件,则 (P(A B)= P(A)+P(B)-P(A B) =1 - P( A B ) ).

定义 5. 频率与概率(频率稳定性、随机模拟)(人教A必修二P253)

频率的稳定性:在 (n )次重复试验中,事件 (A )发生 (n_A )次,称 (f_n(A) = n_A n )为 (A )出现的频率. 当 (n )很大时,

频率的稳定性:在 (n )次重复试验中,事件 (A )发生 (n_A )次,称 (f_n(A) = n_A n )为 (A )出现的频率. 当 (n )很大时,频率 (f_n(A) )总在某个常数附近摆动并趋于稳定,这个常数就是事件 (A )的 概率 (P(A) ) . 用频率估计概率:在大量重复试验中,可用事件发生的 频率 作为其概率的估计值. 随机模拟(蒙特卡洛方法):用计算器或计算机产生的随机数来模拟随机试验,再以频率估计概率,是处理难以直接计算的概率(包括用面积比刻画的几何概型)的常用方法.

定义 6. 事件的独立性(人教A必修二P249)

如果事件 ( A )(或 ( B ))是否发生对事件 ( B )(或 ( A ))发生的概率没有影响,这样的两个事件叫做相互独立事件. 对任意两个事件 (A )

如果事件 ( A )(或 ( B ))是否发生对事件 ( B )(或 ( A ))发生的概率没有影响,这样的两个事件叫做相互独立事件. 对任意两个事件 (A )和 (B ),若 [ P(AB)=P(A)P(B) ],则称事件 (A )与事件 (B )相互独立. 当事件 (A )与 (B )独立时, ( A )与 (B ), (A )与 ( B ), ( A )与 ( B )也都相互独立. 证明:因为 ( A = AB A B ), ( AB ) 与 ( A B ) 互斥, ( P(A) = P (AB A B ) = P(AB) + P (A B ) = P(A)P(B) + P (A B ) ) ( P (A B ) = P(A) - P(A)P(B) = P(A) (1 - P(B) ) = P(A)P ( B ) ) 所以由独立性的定义, ( A ) 与 ( B ) 也相互独立. 如果事件 ( A_1, A_2, , A_n ) 相互独立,那么这 ( n ) 个事件同时发生的概率等于每个事件发生的概率的积,即 [ P(A_1 A_2 A_n) = P(A_1) P(A_2) P(A_n) ] 若三个事件 ( A,B,C ) 两两相互独立则 ( P(AB) = P(A)P(B) P(BC) = P(B)P(C) P(AC) = P(A)P(C) ) 此时 ( P(ABC) = P(A)P(B)P(C) )一般不成立.

随机变量及其分布

定义 1. 条件概率(人教A选必三P44)

0.7 一般地,设 (A ), (B )为两个随机事件,且 (P(A)>0 ),我们称 [ P(B A)= P(AB) P(A) ] 为在事件 (A )发

0.7 一般地,设 (A ), (B )为两个随机事件,且 (P(A)>0 ),我们称 [ P(B A)= P(AB) P(A) ] 为在事件 (A )发生的条件下,事件 (B )发生的条件概率,简称 条件概率 . 0.29 [scale=0.5] [thick] (0,0) rectangle (5,3.5); at (0.4, 3.1) ; (2,1.75) circle (1.3cm); [gray!50] (3.5,1.75) circle (1.3cm); [thick] (2,1.75) circle (1.3cm); [thick] (3.5,1.75) circle (1.3cm); at (1.2, 1.75) A ; at (4.3, 1.75) B ; 计算条件概率常用两种方法: 基于样本空间 ,分别计算 P(A) 和 P(AB) ,代入上述条件概率公式求 P(B A) ; 根据条件概率的直观意义,以事件 A 作为新的样本空间,求事件 B 发生的概率: P(B A) 即为“在 A 中考虑 B 发生的概率”,故 P(B A) 等于阴影部分的样本点个数除以事件 A 的样本点个数. 条件概率满足以下性质: P( A) = 1 ; P(B A) + P( B A) = 1 . 若 B, C 互斥,则 P(B C A) = P(B A) + P(C A) ;

定义 2. 乘法公式

对于任意两个事件 A 与 B ,若 P(A)>0,P(B)>0 ,则 P(AB) = P(A)P(B A) = P(B)P(A B) 我们称上式为概

对于任意两个事件 A 与 B ,若 P(A)>0,P(B)>0 ,则 P(AB) = P(A)P(B A) = P(B)P(A B) 我们称上式为概率的乘法公式,显然,若 P(A)>0 ,则当且仅当事件 A 与 B 相互独立时,等式 P(B A)=P(B) 成立. 实际应用时选择 A 还是 B 作为条件,要看问题中 P(B A) , P(A B) 哪个好算,通常情况下,已知前面的试验结果,计算后面试验结果的概率比较好算,所以常选择以前面的试验结果为条件. 对于任意三个事件 A,B,C ,当 P(AB)>0 时,有 P(ABC)=P(A)P(B A)P(C AB) 这个公式还可以推广到 n 个事件 A_1,A_2, ,A_n ,当 P(A_1A_2 A_ n-1 )>0 时,有 P(A_1A_2 A_n)=P(A_1)P(A_2 A_1)P(A_3 A_1A_2) P(A_n A_1A_2 A_ n-1 )

定义 3. 全概率公式

0.75 若把样本空间 按某一事件 A 是否发生来划分,即 A 与 A ,则对任意事件 B ,有 [ P(B) = P(A)P(B A) + P( A )P(B

0.75 若把样本空间 按某一事件 A 是否发生来划分,即 A 与 A ,则对任意事件 B ,有 [ P(B) = P(A)P(B A) + P( A )P(B A ) ] 这是全概率公式的最简单情况. 用此公式求概率,其本质是将事件 B 划分成互斥的两部分 AB 和 A B 分别求概率再相加. 0.24 [scale=0.6] [thick] (0,0) rectangle (6,4); at (0.5, 3.5) ; at (1.5, 0.5) A ; at (4.5, 0.5) A ; [thick, fill=gray!50] (3,2) ellipse (2cm and 1cm); [thick] (3,0) -- (3,4); at (2.2, 2) AB ; at (3.8, 2) A B ; 0.75 一般地,设 (A_1 ), (A_2 ), ( ), (A_n )是一组两两互斥的事件,且 (A_1 A_2 A_n = ), (P(A_i)>0 ), (i = 1, 2, , n ),则对任意的事件 (B ),有 [ P(B)= _ i = 1 ^ n P(A_i)P(B A_i). ] 建立全概率公式的过程,也就是寻找合适的划分样本空间的方法来解决复杂概率问题的过程. 0.24 [scale=0.6] [thick] (0,0) rectangle (6,4); at (0.5, 3) ; [thick, fill=gray!50] (3,2) ellipse (2cm and 1cm); [thick] (0,4) -- (6,0); [thick] (0,0) -- (6,4); at (3, 3.5) A_1 ; at (5.5, 2) A_2 ; at (3, 0.5) ; at (0.5, 2) A_n ; at (3, 2.6) A_1 B ; at (4, 2) A_2 B ; at (2, 2) A_n B ; at (3, 1.4) ; 贝叶斯公式 (Bayes formula):设 (A_1 ), (A_2 ), ( ), (A_n )是 一组两两互斥的事件, (A_1 A_2 A_n = ),且 (P(A_i)>0 ), (i = 1, 2, , n ),则对任意的事件 (B ), (P(B)>0 ),有 [ P(A_i B)= P(A_i)P(B A_i) P(B) = P(A_i)P(B A_i) _ k = 1 ^ n P(A_k)P(B A_k) , , i = 1, 2, , n. ]

定义 4. 离散型随机变量(人教A选必三P56)

一般地,对于随机试验样本空间 ( )中的每个样本点 ( ), 都有唯一的实数 (X( ) )与之对应,我们称 (X ) 为 随机变量 . 可能取值为有限个或可以

一般地,对于随机试验样本空间 ( )中的每个样本点 ( ), 都有唯一的实数 (X( ) )与之对应,我们称 (X ) 为 随机变量 . 可能取值为有限个或可以一一列举的随机变量,我们称 为 离散型随机变量 . 通常用大写 英文字母表示随机变量,例如 (X ), (Y ), (Z );用小写英文字母 表示随机变量的取值,例如 (x ), (y ), (z ). 一般地,设离散型随机变量 (X ) 的可能取值为 (x_1 ), (x_2 ), ( ), (x_n ),我们称 (X ) 取每一个 值 (x_i )的概率 [ P(X = x_i)=p_i, ;i = 1, 2, , n ] 为 (X ) 的 概率分布列 ,简称 分布列 .

定义 5. 分布列

一般地,若离散型随机变量 (X ) 的分布列如表所示, c c c c c (X ) (x_1 ) (x_2 ) ( ) (x_n ) (P ) (p_1 )

一般地,若离散型随机变量 (X ) 的分布列如表所示, c c c c c (X ) (x_1 ) (x_2 ) ( ) (x_n ) (P ) (p_1 ) (p_2 ) ( ) (p_n ) E(X)=x_1p_1 + x_2p_2+ + x_np_n = _ i = 1 ^ n x_ip_i 为随机变量 (X ) 的 均值 或 数学期望 ,数学期望简称期 望. 均值是随机变量可能取值关于取值概率的加权平均数,它综合了随机变量的取值和取 值的概率,反映了随机变量取值的平均水平. D(X)= (x_1 - E(X))^2p_1+(x_2 - E(X))^2p_2+ +(x_n - E(X))^2p_n = _ i = 1 ^ n (x_i - E(X))^2p_i 为随机变量 (X ) 的 方差 (variance),有时也记为 (Var(X) ),并称 ( D(X) )为随机变量 (X ) 的 标 准差 ,记为 ( (X) ). 随机变量的方差和标准差都可以度量随机变量取值与其均值的偏离程度,反映了随机变量取值的离散程度. 方差或标准差越小,随机变量的取值越集中;方差或标准差越大,随机变量的取值越分散.

性质 1. 均值、方差、标准差的性质

设 ( X ) 为离散型随机变量, ( a, b ) 为常数,则 ( D(X) = E (X^2 ) - [ E(X) ]^2 = _ i=1 ^n x_i^2

设 ( X ) 为离散型随机变量, ( a, b ) 为常数,则 ( D(X) = E (X^2 ) - [ E(X) ]^2 = _ i=1 ^n x_i^2 p_i - [ E(X) ]^2 ),这是方差的简化计算公式; ( E(aX + b) = aE(X) + b ); ( D(aX + b) = a^2 D(X) ), ( (aX + b) = a (X) ),这是期望和方差的性质.

定义 6. 伯努利试验

我们把只包含两个可能结果的试验叫做 伯努利试验 . 我们将一个伯努利试验独立地重复进行 (n ) 次所组成的随 机试验称为 (n ) 重伯努利试验 . 显然,

我们把只包含两个可能结果的试验叫做 伯努利试验 . 我们将一个伯努利试验独立地重复进行 (n ) 次所组成的随 机试验称为 (n ) 重伯努利试验 . 显然, (n ) 重伯努利试验具有如 下共同特征: (1) 同一个伯努利试验重复(“重复”意味着各次试验成功的概率相同)做 (n ) 次; (2) 各次试验的结果相互独立.

定义 7. 二项分布(人教A选必三P72)

一般地,在 (n ) 重伯努利试验中,设每次试验中事件 (A ) 发生的概率为 (p(0 < p < 1) ),用 (X ) 表示事件 (A ) 发

一般地,在 (n ) 重伯努利试验中,设每次试验中事件 (A ) 发生的概率为 (p(0 < p < 1) ),用 (X ) 表示事件 (A ) 发生的次数, 则 (X ) 的分布列为 [ P(X = k)= C_ n ^ k p^ k (1 - p)^ n - k , k = 0,1,2, ,n. ] 如果随机变量 (X ) 的分布列具有上式的形式,则称随机变量 (X ) 服从 二项分布 ,记作 (X B(n,p) ). 由二项式定理,容易得到 ( _ k = 0 ^ n P(X = k)= _ k = 0 ^ n C_ n ^ k p^ k (1 - p)^ n - k =[p+(1 - p)]^ n =1. )

结论 1. 二项分布的概率最大项

若 X B(n, p) ,要使得 P(X=k) 取得最大值,求 k . 通常通过作商法或作差法,即由 P(X=k) P(X=k-1) P(X=k) P(X=k+

若 X B(n, p) ,要使得 P(X=k) 取得最大值,求 k . 通常通过作商法或作差法,即由 P(X=k) P(X=k-1) P(X=k) P(X=k+1) ,解得 (n+1)p - 1 k (n+1)p .

性质 2. 二项分布的期望和方差

一般地,可以证明: 如果 (X B(n,p) ),那么 (E(X)= np ), (D(X)= np(1 - p) ). 下面我们对均值进行证明. 令 (q =

一般地,可以证明: 如果 (X B(n,p) ),那么 (E(X)= np ), (D(X)= np(1 - p) ). 下面我们对均值进行证明. 令 (q = 1 - p ),由 (kC_ n ^ k =nC_ n - 1 ^ k - 1 ),可得 [ E(X)= _ k = 0 ^ n kC_ n ^ k p^ k q^ n - k = _ k = 1 ^ n nC_ n - 1 ^ k - 1 p^ k q^ n - k =np _ k = 1 ^ n C_ n - 1 ^ k - 1 p^ k - 1 q^ n - 1-(k - 1) =np(p + q)^ n - 1 =np ]

定义 8. 超几何分布(人教A选必三P72)

一般地,假设一批产品共有 (N ) 件,其中有 (M ) 件次品. 从 (N ) 件产品中随机抽取 (n ) 件 (不放回),用 (X ) 表示抽取的 (n )

一般地,假设一批产品共有 (N ) 件,其中有 (M ) 件次品. 从 (N ) 件产品中随机抽取 (n ) 件 (不放回),用 (X ) 表示抽取的 (n ) 件产品中的次品数,则 (X ) 的分布列为 [ P(X = k)= C_ M ^ k C_ N - M ^ n - k C_ N ^ n , k = m,m + 1,m + 2, ,r. ] 其中 (n ), (N ), (M N ^* ), (M N ), (n N ), (m= 0,n - N + M ), (r= n,M ). 如果 随机变量 (X ) 的分布列具有上式的形式,那么称随机变量 (X ) 服从 超几何分布 . 二项分布与超几何分布的关系:对于不放回的抽取,当 ( n ) 远小于 ( N ) 时,每抽取一次后,对 ( N ) 的影响很小,此时,超几何分布可用二项分布近似.

结论 2. 超几何分布的概率最大项

若超几何分布 X 的分布列为 P(X = k)= C_ M ^ k C_ N - M ^ n - k C_ N ^ n ,要使得 P(X=k) 取得最大值,求

若超几何分布 X 的分布列为 P(X = k)= C_ M ^ k C_ N - M ^ n - k C_ N ^ n ,要使得 P(X=k) 取得最大值,求 k . 同样通过作差法或作商法,由 P(X=k) P(X=k-1) P(X=k) P(X=k+1) ,解得 (M+1)(n+1) N+2 - 1 k (M+1)(n+1) N+2 .

性质 3. 超几何分布的期望和方差

实际上,由随机变量均值的定义,令 (m= (0,n - N + M) ), (r= (n,M) ),有 [ E(X)= _ k = m ^ r k C_ M ^

实际上,由随机变量均值的定义,令 (m= (0,n - N + M) ), (r= (n,M) ),有 [ E(X)= _ k = m ^ r k C_ M ^ k C_ N - M ^ n - k C_ N ^ n =M _ k = m ^ r C_ M - 1 ^ k - 1 C_ N - M ^ n - k C_ N ^ n = M C_ N ^ n _ k = m ^ r C_ M - 1 ^ k - 1 C_ N - M ^ n - k = MC_ N - 1 ^ n - 1 C_ N ^ n = nM N =np ] [ D(X)= nM N (1- M N ) N-n N = nM(N-M)(N-n) N^2(N-1) ] 备注:方差的公式解答题中是不能直接使用的,了解即可.

定义 9. 连续型随机变量

现实中, 有大量问题中的随机变量不是离散型的,它们的取值往往充 满某个区间甚至整个实轴,但取一点的概率为0,我们称这 类随机变量为 连续型随机变量 .

现实中, 有大量问题中的随机变量不是离散型的,它们的取值往往充 满某个区间甚至整个实轴,但取一点的概率为0,我们称这 类随机变量为 连续型随机变量 .

定义 10. 正态分布(人教A选必三P83)

0.55 设函数 [ f(x)= 1 2 e ^ - (x - )^2 2 ^2 ,x R . ] 其中 ( R ), ( >0 ) 为参数. 显然,对任

0.55 设函数 [ f(x)= 1 2 e ^ - (x - )^2 2 ^2 ,x R . ] 其中 ( R ), ( >0 ) 为参数. 显然,对任意的 (x R ), (f(x)>0 ),它的图象在 (x ) 轴的 上方. 可以证明 (x ) 轴和曲线之间的区域的面积为1. 0.44 [>=stealth, scale=0.75] % Parameters 2.7 1.1 2.8 1.7 3.2 4.3 % Fills [cyan!30] (-1.0,0) -- plot[domain=-1.0: , smooth] ( , exp(-0.5*(( - )/ )^2) ) -- ( ,0) -- cycle; [magenta!20] ( ,0) -- plot[domain= : , smooth] ( , exp(-0.5*(( - )/ )^2) ) -- ( ,0) -- cycle; % Axes [->, thick] (-1.5,0) -- (7.5,0) node[below] x ; [->, thick] (0,-0.5) -- (0,3.8) node[left] f(x) ; [below left] at (0,0) O ; % Curve [magenta, thick] plot[domain=-1.2:6.6, smooth, samples=100] ( , exp(-0.5*(( - )/ )^2) ); % and max peak line [dashed, thick] ( ,0) node[below] -- ( , ); [dashed, thick] (0, ) node[left] 1 2 -- ( , ); % Area boundary lines [cyan, thick] ( ,0) node[black, below] x -- ( , exp(-0.5*(( - )/ )^2) ); [cyan, thick] ( ,0) node[black, below] a -- ( , exp(-0.5*(( - )/ )^2) ); [cyan, thick] ( ,0) node[black, below] b -- ( , exp(-0.5*(( - )/ )^2) ); % Region labels at (1.1, 0.5) A ; at (3.7, 0.5) B ; 我们称 (f(x) )为 正态密度函数 ,称它的图象为 正态密度曲线 ,简称 正态曲线 .若随机变量 (X ) 的概率分布密度 函数为 (f(x) ),则称随机变量 (X ) 服从 正态分布 ,记为 (X N( , ^ 2 ) ). 特别地,当 ( = 0 ), ( = 1 ) 时,称随机变量 (X ) 服从 标准正态分布 . 若 (X N( , ^ 2 ) ), (X ) 取值不超过 (x ) 的概率 (P(X x) )为图中区域 (A ) 的面积,而 (P(a X b) ) 为区域 (B ) 的面积.

性质 4. 正态曲线的性质

由 (X ) 的密度函数及图象可以发现,正态曲线还有以下特点: 曲线是单峰的,它关于直线 (x = ) 对称 曲线在 (x = ) 处达到峰值 ( 1 2 )

由 (X ) 的密度函数及图象可以发现,正态曲线还有以下特点: 曲线是单峰的,它关于直线 (x = ) 对称 曲线在 (x = ) 处达到峰值 ( 1 2 ) 当 ( x )无限增大时,曲线无限接近 (x ) 轴 当 ( ) 取定值时,因为曲线的峰值 ( 1 2 )与 ( ) 成反比,而且对任意的 ( >0 ),曲线与 (x ) 轴 围成的面积总为1. 当 ( ) 较 小 时,峰值高,曲线 “瘦高”,表示随机变量 (X ) 的分布 比较集中; 当 ( ) 较 大 时,峰值低,曲线 “矮胖”,表示随机变量 (X ) 的分布比较分散. 参数 ( ) 反映了正态 分布的集中位置, ( ) 反映了随机变量的分布相对于均值 ( ) 的 离散程度. 期望和方差: 若 (X N( , ^ 2 ) ),则 (E(X)= ), (D(X)= ^ 2 ).

性质 5. \(3\sigma\) 原则

假设 (X N( , ^ 2 ) ),可以证明:对给定的 (k N ^* ), (P( - k X + k ) )是一个只 与 (k ) 有关的定值. 特别地,

假设 (X N( , ^ 2 ) ),可以证明:对给定的 (k N ^* ), (P( - k X + k ) )是一个只 与 (k ) 有关的定值. 特别地, P( - X + ) 0.6827, P( - 2 X + 2 ) 0.9545, P( - 3 X + 3 ) 0.9973. 尽管正态变量的取值范围是 ((- ,+ ) ),但在一次试验中, (X ) 的取值 几乎总是落在区间 ([ - 3 , + 3 ] ) 内,而 在此区间以外取值的概率大约只有 (0.0027 ),通常认为这种情况几乎不可能发生. 在实际应用中,通常认为服从于正态分布 (N( , ^ 2 ) ) 的随机变量 (X ) 只取 ([ - 3 , + 3 ] )中的值,这在统计学中称为 (3 ) 原则 .

性质 6. 标准正态分布

在标准正态分布表中相应于 x_0 的值 (x_0) 是指总体取值小于 x_0 的概率,即 (x_0) = P(x < x_0) . x_0 0 时,则 (

在标准正态分布表中相应于 x_0 的值 (x_0) 是指总体取值小于 x_0 的概率,即 (x_0) = P(x < x_0) . x_0 0 时,则 (x_0) 的值可在标准正态分布表中查到; x_0 < 0 时,可利用其图象的对称性获得 (x_0) = 1 - (-x_0) 来求出, 区间概率公式: P(x_1 < < x_2) = P( < x_2) - P( < x_1) = (x_2) - (x_1) N( , ^2) 与 N(0,1) 的转换 若 N( , ^2) ,则 = - N(0,1) ,有 P( < x_0) = F(x_0) = ( x_0- ); 若 N( , ^2) ,则 P(x_1 < x < x_2) = ( x_2- ) - ( x_1- ).

定义 11. 单点分布

若随机变量 (X )的分布列为 [P(X = c) = 1 ],其中 (c )为常数,则称 (X )服从单点分布 .常数可看作服从单点分布的随机变量. 期望:根

若随机变量 (X )的分布列为 [P(X = c) = 1 ],其中 (c )为常数,则称 (X )服从单点分布 .常数可看作服从单点分布的随机变量. 期望:根据期望公式 (E(X)= _ i x_ i P(X = x_ i ) ),这里 (x_ i =c ), (P(X = c) = 1 ),所以 (E(X)=c 1 = c ). 方差:由方差公式 (D(X)=E[(X - E(X))^ 2 ] ),因为 (E(X)=c ),所以 (D(X)=(c - c)^ 2 1 = 0 ).这表明单点分布的随机变量没有波动,取值固定为 (c ).

定义 12. 两点分布

若随机变量 (X )的分布列为 [P(X = 1) = p, P(X = 0) = 1 - p (0 < p < 1) ],则称 (X )服从 (0

若随机变量 (X )的分布列为 [P(X = 1) = p, P(X = 0) = 1 - p (0 < p < 1) ],则称 (X )服从 (0 - 1 )分布(即两点分布 ). 常用于描述只有两种可能结果的伯努利试验,如抛一次硬币,正面记为 (1 )(概率为 (p ) ),反面记为 (0 )(概率为 (1 - p ) ). 期望:根据期望公式 (E(X)= _ i x_ i P(X = x_ i ) ), (E(X)=1 p + 0 (1 - p)=p ).它反映了在大量重复试验中,该随机变量取值的平均水平. 方差: (E(X^ 2 )=1^ 2 p + 0^ 2 (1 - p)=p ),由 (D(X)=E(X^ 2 ) - [E(X)]^ 2 ),得 (D(X)=p - p^ 2 =p(1 - p) ) .方差衡量了随机变量取值相对于期望的离散程度, (p(1 - p) )越大,说明随机变量取值的离散程度越大.

定义 13. 几何分布

在独立重复试验中,每次试验只有两种结果,即事件 (A )发生(概率为 (p ))和事件 (A )不发生(概率为 (1 - p )),设 (X )表示首次取得成功

在独立重复试验中,每次试验只有两种结果,即事件 (A )发生(概率为 (p ))和事件 (A )不发生(概率为 (1 - p )),设 (X )表示首次取得成功(即事件 (A )首次发生)时所进行的试验次数,则 (X )是一个离散型随机变量, (X )的概率分布为 [P(X = k)=(1 - p)^ k - 1 p ], (k = 1,2, ),其中 (0 < p < 1 ),称 (X )服从几何分布,记为 (X G(p) ). 几何分布具有如下特点: 无记忆性:如果 (X )服从几何分布,对于任意正整数 (m )和 (n ),有 (P(X>m + n X>m)=P(X>n) ).这意味着在已经进行了 (m )次试验且都失败的条件下,再进行 (n )次试验仍未成功的概率,与从一开始就进行 (n )次试验未成功的概率是一样的,即对过去的试验结果没有“记忆”. 期望与方差: 期望 (E(X)= 1 p ), 方差 (D(X)= 1 - p p^ 2 ). 【推导过程】 设 (q = 1 - p ),利用“错位相减法”求期望: E(X) = _ k=1 ^ kpq^ k-1 = p ( 1 + 2q + 3q^2 + + kq^ k-1 + ) q E(X) p = q + 2q^2 + + (k-1)q^ k-1 + 两式相减得: (1-q) E(X) p = 1 + q + q^2 + = 1 1-q 因为 (1-q=p ),所以 (p E(X) p = 1 p ),即 (E(X) = 1 p ). 类似地,求 (E(X(X-1)) = _ k=1 ^ k(k-1)pq^ k-1 ): 令 ( S = _ k=2 ^ k(k-1)q^ k-2 ),运用错位相减法或对无穷等比数列求二次导, 可化简得 ( S = 2 (1-q)^3 = 2 p^3 ). 从而 ( E(X^2 - X) = pq S = 2q p^2 ). 故方差 ( D(X) = E(X^2) - [E(X)]^2 = E(X^2-X) + E(X) - [E(X)]^2 = 2q p^2 + 1 p - 1 p^2 = 2q+p-1 p^2 = q p^2 = 1-p p^2 ). 【例】某人投篮命中率为 (0.3 ),设 (X )为首次投中所需次数,则 (X G(0.3) ). 第 (k )次才首次投中的概率为 (P(X = k) = 0.7^ k-1 0.3 ). 其期望为 (E(X) = 1 0.3 = 10 3 )(即平均需要投篮 ( 10 3 )次才能首次命中).

定义 14. 极大似然估计

设总体 (X )的概率密度为 (f(x; ) )(当 (X )为离散型时, (f(x; ) )为概率分布律), ( ),其中 ( )为待估的未知参数, ( )为

设总体 (X )的概率密度为 (f(x; ) )(当 (X )为离散型时, (f(x; ) )为概率分布律), ( ),其中 ( )为待估的未知参数, ( )为参数 ( )的可能取值所成的参数空间, (x_1,x_2, ,x_n )是总体样本 (X_1,X_2, ,X_n )的一组观察值,称 [L( )= _ i = 1 ^ n f(x_i; ) ] 为样本的 似然函数 ;若存在 ( ),使得 (L( )= _ L( ) )成立,则称 ( )为参数 ( )的 极大似然估计值 ,而称 ( (X_1,X_2, ,X_n) )为 ( )的 极大似然估计量 .当 (L( ) )往往是关于 ( )可微时,一般 ( )可由方程组 ( dL( ) d =0 )解得,又由于 (L( ) )与 ( L( ) )同时取得最大值,故等价地可由方程组 ( d L( ) d =0 )求得,这两个方程都称为似然方程.当 (L( ) )关于 ( )不可微或上述方程组无解时,需根据极大似然估计的定义和 ( )的取值范围 ( )求 ( ).

性质 7. 极大似然估计的性质

渐近无偏性:在一定条件下,极大似然估计量随着样本容量 (n )的增大,其期望趋近于真实参数值,即 ( _ n E( ) = ) 这意味着当样本数据足够多时,极大

渐近无偏性:在一定条件下,极大似然估计量随着样本容量 (n )的增大,其期望趋近于真实参数值,即 ( _ n E( ) = ) 这意味着当样本数据足够多时,极大似然估计得到的结果在平均意义上是接近真实参数的. 渐近有效性:随着样本容量增加,在所有的渐近无偏估计量中,极大似然估计量的方差会达到最小,也就是估计值更集中在真实参数附近,估计效果更好. 一致性:当样本容量趋向于无穷大时,极大似然估计量依概率收敛于真实参数值,即对任意正数 ( ),有 ( _ n P( - < ) = 1 ) ,表明样本量越大,估计值越接近真实参数. 【例】:2018年高考课标I卷第20题: 某工厂产品成箱包装,每箱 (20 )件,每件产品不合格概率为 (p ),各件产品是否不合格相互独立.从一箱产品中任取 (2 )件作检验,记 (2 )件产品中恰有 (1 )件不合格品的概率为 (f(p) ) . 【分析】:求 (f(p) )最大值点,实际就是在已知取 (2 )件产品恰有 (1 )件不合格品这一试验结果下,求不合格率 (p )的极大似然估计.此时总体是两点分布(产品合格或不合格),从一箱产品中取 (2 )件产品相当于进行两次独立试验,是总体的样本. 【解】: (f(p)=C_ 2 ^ 1 p(1 - p)=2p - 2p^ 2 ),令 (f^ (p)=2 - 4p = 0 ),解得 (p = 0.5 ) .当 (p < 0.5 )时, (f^ (p)>0 ), (f(p) )单调递增;当 (p > 0.5 )时, (f^ (p)<0 ), (f(p) )单调递减,所以 (f(p) )最大值点是 (p = 0.5 ),此 (p = 0.5 )就是不合格率 (p )的极大似然估计值.

定义 15. 马尔可夫链

马尔可夫链是一组具有无后效性的随机状态序列. 通俗地说,就是 将来只受现在影响,与过去无关 . 即系统在下一个时刻的状态,只由当前时刻的状态决定,而不依赖于以往

马尔可夫链是一组具有无后效性的随机状态序列. 通俗地说,就是 将来只受现在影响,与过去无关 . 即系统在下一个时刻的状态,只由当前时刻的状态决定,而不依赖于以往的历史状态. 这种性质称为马尔可夫性. 状态转移与转移图: 可以用带箭头的图直观地表示状态之间的转移过程:圆圈表示状态,箭头上的数字表示一步转移的概率. 【人教A选必三P50例4】某学校有 A , B 两家餐厅,王同学第 1 天午餐时随机地选择一家餐厅用餐.如果第 1 天去 A 餐厅,那么第 2 天去 A 餐厅的概率为 0.6 ;如果第 1 天去 B 餐厅,那么第 2 天去 A 餐厅的概率为 0.8 . 该过程的状态转移图和状态转移矩阵 P 可以表示为: [>=Stealth, node distance=2.5cm, state/.style= circle, draw, minimum size=1.2cm, thick, fill=cyan!10 ] [state] (A) 去 A ; [state, right=of A, fill=gray!20] (B) 去 B ; [->, thick, blue] (A) to[bend left=20] node[above] 0.4 (B); [->, thick, red] (B) to[bend left=20] node[below] 0.8 (A); [->, thick, blue] (A) edge[loop left] node 0.6 (A); [->, thick, red] (B) edge[loop right] node 0.2 (B); 若设王同学第 n 天去 A 餐厅的概率为 p_n ,那么第 n 天去 B 餐厅的概率为 1-p_n . 要计算第 n+1 天去 A 餐厅的概率 p_ n+1 ,同样根据全概率公式(分今日去 A 且明日去 A 、今日去 B 且明日去 A 两种情况): p_ n+1 = p_n 0.6 + (1-p_n) 0.8 化简便可得到从第 n 天到第 n+1 天的递推公式: p_ n+1 = -0.2p_n + 0.8 . 由此便可利用构造等比数列的方法求出 p_n 的通项公式及极限情况(稳态分布).

题型 1. 无吸收壁的一维随机游走

一维随机游走,指在一维空间中,即一条直线数轴上, 有一个可以任意移动的质点位于某处 (x = i )( (i Z ))的地方, 它能够以一定的概率向左、原地不动

一维随机游走,指在一维空间中,即一条直线数轴上, 有一个可以任意移动的质点位于某处 (x = i )( (i Z ))的地方, 它能够以一定的概率向左、原地不动或向右移动一个单位长度,每个单位时间移动一次. 该模型分为没有吸收壁和有吸收壁两种类型. 所谓吸收壁,就是数轴上某处 (x = m )( (m Z ))存在一个可以吸收质点的屏障, 当质点运动至 (x = m ) 时就被吸收,停止运动过程. 吸收壁这个概念并不是必要的,只是想刻意强调运动的边界性以及该运动存在尽头, 是一个终止条件,也可以直接定义说质点运动至 (x = m ) 就停止运动. 无吸收壁的一维随机游走 是上述一维随机游走的原始定义,没有边界,永远移动.这时候研究它的位置状态. 设 (P_i ) 为 质点在 (x = i ) 位置的概率 ,向左移动的概率为 (a ),原地不动的概率为 (b ),向右移动的概率为 (c ),其中 (a + b + c = 1 ). 质点在 (x = i ) 位置,有可能是之前它从 (i+1 ) 向左移动到 (i )(以 (a ) 的概率), 也有可能是之前它在 (i ) 原地不动(以 (b ) 的概率), 或是之前它从 (i-1 ) 向右移动到 (i )(以 (c ) 的概率).用全概率公式表述为: P( 当前在 , i) = P( 前一步在 , i+1) P( 当前在 , i 前一步在 , i+1) + P( 前一步在 , i) P( 当前在 , i 前一步在 , i) + P( 前一步在 , i-1) P( 当前在 , i 前一步在 , i-1) 因此质点在 (x = i ) 位置的概率递推式为: [ P_i = a P_ i+1 + b P_i + c P_ i-1 ] [>=Stealth, node distance=2cm, state/.style= circle, draw, minimum size=1cm, inner sep=0pt ] [state] (i-1) i-1 ; [state, right=of i-1] (i) i ; [state, right=of i] (i+1) i+1 ; [->] (i) to[bend left=15] node[above] c (i+1); [blue, ->] (i+1) to[bend left=15] node[below] a (i); [->] (i) to[bend left=15] node[below] a (i-1); [blue, ->] (i-1) to[bend left=15] node[above] c (i); [blue, ->] (i) edge[loop above] node[yshift=-4pt, fill=white, inner sep=1pt] b (i);

题型 2. 有吸收壁的一维随机游走

在原定义基础上,在某个位置 (x = m ) 添加吸收壁对运动进行限制. 可以在单独一侧放置吸收壁,也可以两侧都放上吸收壁. 放上吸收壁以后,原本单调的一维空间

在原定义基础上,在某个位置 (x = m ) 添加吸收壁对运动进行限制. 可以在单独一侧放置吸收壁,也可以两侧都放上吸收壁. 放上吸收壁以后,原本单调的一维空间就有了新的可以研究的东西.在有吸收壁的一维随机游走中,我们不再去关注它处在某一位置的概率, 因为这个一维空间变得不够自由,有吸收壁约束,原本的无吸收壁的递推式就不成立,研究位置概率并不好. 现在它在某位置 (x = i ) 开始不停随机运动,之后非常有可能撞上吸收壁.现在研究它从到达吸收壁的概率. 设 (P_i )为 质点从 (x = i ) 到吸收壁 (x = m ) 的概率 ,初始位置 (x = i ),吸收壁 (x = 0 ), (x = m ), 其中 (0 < i m )( (i, m Z )). 质点每个单位时间移动一次,要从 (x = i ) 到达 (x = m ) 的方式有很多种,它有可能先以 (a ) 的概率向左走一步到达 (i-1 ),再以 (p_ i-1 ) 的概率到达吸收壁 (x = m ); 也有可能以 (b ) 的概率原地不动,以本来的概率 (p_i ) 到达吸收壁 (x = m ); 或者是以 (c ) 的概率向右移动一步到达 (i+1 ),再以 (p_ i+1 ) 的概率到达吸收壁 (x = m ). 用全概率公式表述为: P( 从 , i , 到 , m) = P( 向左一步 )P( 从 , i , 到 , m 向左一步 ) + P( 原地不动 )P( 从 , i , 到 , m 原地不动 ) + P( 向右一步 )P( 从 , i , 到 , m 向右一步 ) 因此质点从 (x = i ) 到吸收壁 (x = m ) 的概率递推式为: [ P_i = a P_ i-1 + b P_i + c P_ i+1 ] [>=Stealth, node distance=1cm, state/.style= circle, draw, minimum size=1cm, inner sep=0pt ] [state] (0) 0 ; [state, right=of 0] (1) 1 ; [right=of 1] (d1) ; [state, right=of d1] (i-1) i-1 ; [state, right=of i-1] (i) i ; [state, right=of i] (i+1) i+1 ; [right=of i+1] (d2) ; [state, right=of d2] (m-1) m-1 ; [state, right=of m-1] (m) m ; % Transitions central part [blue, ->] (i) to[bend left=15] node[above] c (i+1); [->] (i+1) to[bend left=15] node[below] a (i); [blue, ->] (i) to[bend left=15] node[below] a (i-1); [->] (i-1) to[bend left=15] node[above] c (i); % Pi arrow directly to m % [->, dashed, thick, red] (i) to[bend right=25] node[below, red] P_i (m); [->, dashed, thick, red] (i.300) to[bend right=18] node[text=red, fill=white, inner sep=1pt] P_i (m.240); [->, dashed, thick, blue] (i-1.300) to[bend right=20] node[text=blue, fill=white, inner sep=1pt] P_ i-1 (m.240); [->, dashed, thick, blue] (i+1.310) to[bend right=15] node[text=blue, fill=white, inner sep=1pt] P_ i+1 (m.240); % Left side connections [->] (1) to[bend left=15] node[above] c (d1); [->] (d1) to[bend left=15] node[below] a (1); [->] (d1) to[bend left=15] node[above] c (i-1); [->] (i-1) to[bend left=15] node[below] a (d1); % Right side connections [->] (i+1) to[bend left=15] node[above] c (d2); [->] (d2) to[bend left=15] node[below] a (i+1); [->] (d2) to[bend left=15] node[above] c (m-1); [->] (m-1) to[bend left=15] node[below] a (d2); % End points [->] (1) to[bend left=15] node[below] a (0); % 1 -> 0 % 0 is absorbing state [->] (0) edge[loop above] node[yshift=-4pt, fill=white, inner sep=1pt] 1 (0); [->] (m-1) to[bend left=15] node[above] c (m); % m-1 -> m % m is absorbing state [->] (m) edge[loop above] node[yshift=-4pt, fill=white, inner sep=1pt] 1 (m); % Self loops (b) in 1, i-1, i+1, m-1 [->] ( ) edge[loop above] node[yshift=-4pt, fill=white, inner sep=1pt] b ( ); [blue, ->] (i) edge[loop above] node[yshift=-4pt, fill=white, inner sep=1pt] b (i); 注意:没有吸收壁的随机游走研究的是位置概率,有吸收壁的随机游走研究的是被吸收概率,所以它们的递推式才会不一样,思路也是不一样的.

例题 1.

【人教A选必三P81-3】如图,一个质点在随机外力的作用下,从原点 (0 ) 出发,每隔 (1 s ) 等可能地向左或向右移动一个单位, 求运动 (n ) 秒后

【人教A选必三P81-3】如图,一个质点在随机外力的作用下,从原点 (0 ) 出发,每隔 (1 s ) 等可能地向左或向右移动一个单位, 求运动 (n ) 秒后质点位于位置 (i ) 的概率 (P_ n, i ) : [>=Stealth, scale=0.8] [thick, <->] (-7, 0) -- (7, 0); in -6, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6 ( , 0) circle (3pt); at ( , -0.6) ; 解: 设第 n 秒后质点处于位置 i 的概率为 P_ n,i . 由于每次仅向左或向右等可能移动一个单位,即 a= 1 2 , b=0, c= 1 2 . 若第 n 秒质点处于位置 i ,那么在第 n-1 秒时,它必定只能位于 i-1 或 i+1 ,且各自向右或向左移动一步的概率均为 1 2 . 由全概率公式,可建立关于时间和位置的递推关系式: [ P_ n, i = 1 2 P_ n-1, i-1 + 1 2 P_ n-1, i+1 ] 为了使质点在 n 秒后到达位置 i ,设其中向右移动了 k 次,向左移动了 n-k 次,则有: ( k + (n-k) = n k - (n-k) = i k = n+i 2 ) 可知,质点要能到达位置 i ,必须满足 n 与 i 同奇偶,且 i n . 此时,路径组合数相当于从 n 步中挑出 n+i 2 步向右(即 C_n^ n+i 2 ),而每条特定路径的概率均为 ( 1 2 )^n . 因此通项公式为: [ P_ n, i = C_n^ n+i 2 ( 1 2 )^n, i n 且 n, i 同奇偶 ; 0, 其他. ]

成对数据的统计分析

定义 1. 变量相关性定义(人教A选必三P93)

如果当一个变量的值增加时,另一个变量的相应值呈现增加的趋势,就称这两个变量正相关. 如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负

如果当一个变量的值增加时,另一个变量的相应值呈现增加的趋势,就称这两个变量正相关. 如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关. 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.

定义 2. 样本相关系数公式

设变量 (x )和变量 (y )的样本数据为 ((x_1,y_1),(x_2,y_2), ,(x_n,y_n) ),样本均值分别为 ( x = 1 n _ i

设变量 (x )和变量 (y )的样本数据为 ((x_1,y_1),(x_2,y_2), ,(x_n,y_n) ),样本均值分别为 ( x = 1 n _ i = 1 ^ n x_i ), ( y = 1 n _ i = 1 ^ n y_i ), 样本相关系数 (r )的计算公式为: r= 1 n (x_1'y_1'+x_2'y_2'+ +x_n'y_n')= _ i = 1 ^ n (x_i- x )(y_i - y ) _ i = 1 ^ n (x_i- x )^2 _ i = 1 ^ n (y_i- y )^2 = _ i=1 ^n x_i y_i - n x y _ i=1 ^n x_i^2 - n x ^2 _ i=1 ^n y_i^2 - n y ^2 其中 (x_i'= x_i- x _ i = 1 ^ n (x_i- x )^2 ), (y_i'= y_i- y _ i = 1 ^ n (y_i- y )^2 ).

性质 1. 样本相关系数性质

当 (r > 0 )时,称成对样本数据 正 相关. 当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大

当 (r > 0 )时,称成对样本数据 正 相关. 当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大. 当 (r < 0 )时,称成对样本数据 负 相关. 当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小. 取值范围: (- 1 r 1 ). 当 ( r )越接近 (1 ) 时,成对样本数据的线性相关程度越强. 当 ( r )越接近 (0 ) 时,成对样本数据的线性相关程度越弱.

定义 3. 一元线性回归(人教A选必三P105)

用 (x ) 表示父亲身高, (Y ) 表示儿子身高, (e ) 表示随机误差.假定随机误差 (e ) 的均值为 (0 ),方差为与父亲身高无关的定值 ( ^2

用 (x ) 表示父亲身高, (Y ) 表示儿子身高, (e ) 表示随机误差.假定随机误差 (e ) 的均值为 (0 ),方差为与父亲身高无关的定值 ( ^2 ),则它们之间的关系可表示为: [ Y = bx + a + e, E(e)=0,~D(e)= ^2. ] 称此为 (Y ) 关于 (x ) 的一元线性回归模型.其中, (Y ) 为因变量/响应变量, (x ) 为自变量/解释变量; (a )(截距参数)和 (b )(斜率参数)为未知参数, (e ) 是 (Y ) 与 (bx + a ) 间的随机误差. 当 (a ), (b ) 取值为: [ b = _ i=1 ^ n (x_i - x )(y_i - y ) _ i=1 ^ n (x_i - x )^2 = _ i=1 ^n x_i y_i - n x y _ i=1 ^n x_i^2 - n x ^2 a = y - b x ] 时, (Q ) 达到最小. 将 ( y = b x + a ) 称为 (Y ) 关于 (x ) 的经验回归方程(也称经验回归函数/公式),其图形为经验回归直线.求经验回归方程的方法为最小二乘法, ( b ), ( a ) 为 (b ), (a ) 的最小二乘估计. 注: 上式中 ( _ i=1 ^n (x_i - x )(y_i - y ) = _ i=1 ^n x_i y_i - n x y ), ( _ i=1 ^n (x_i - x )^2 = _ i=1 ^n x_i^2 - n x ^2 ).这种公式转换需熟练掌握(可能题目给一种形式,计算时需用另一种).以下给出 ( _ i=1 ^n (x_i - x )(y_i - y ) = _ i=1 ^n x_i y_i - n x y ) 的证明: _ i=1 ^n (x_i - x )(y_i - y ) = _ i=1 ^n ( x_i y_i - y x_i - x y_i + x y ) = _ i=1 ^n x_i y_i - _ i=1 ^n y x_i - _ i=1 ^n x y_i + _ i=1 ^n x y = _ i=1 ^n x_i y_i - y _ i=1 ^n x_i - x _ i=1 ^n y_i + n x y = _ i=1 ^n x_i y_i - y n x - x n y + n x y = _ i=1 ^n x_i y_i - n x y 注意:回归方程一定通过样本点的中心 ( x , y ) ,可能不经过 (x_1, y_1) , (x_2, y_2) , , (x_n, y_n) 中的任何一点.

定义 4. 残差

对于响应变量 (Y ),观测数据为观测值,经验回归方程得到的 ( y ) 为预测值, 观测值 减 预测值 为残差(随机误差的估计结果). 用回归方程拟合变量 (

对于响应变量 (Y ),观测数据为观测值,经验回归方程得到的 ( y ) 为预测值, 观测值 减 预测值 为残差(随机误差的估计结果). 用回归方程拟合变量 ( x ) 和 ( y ) 时,对样本点 ( (x_1, y_1), (x_2, y_2), , (x_n, y_n) ),称 观测值 ( y_i ) 与预测值 ( y _i ) 的差 ( y_i - y _i ) 为样本点 ( (x_i, y_i) ) 的残差( ( i=1,2, ,n )). 将残差绘制成图称为残差图:若残差点均匀落在水平带状区域,且区域越窄,模型拟合效果越好. 例如:用线性回归模型 ( l_1 ) 和 ( l_2 ) 拟合同一数据,残差图显示 ( l_1 ) 的残差点分布在 ( x ) 轴附近更窄的带状区域,故 ( l_1 ) 拟合效果优于 ( l_2 ). [>=Stealth, scale=0.75] % ===== Scope 1: l₁ 拟合图 (左侧第一个图) ===== [xshift=0cm, yshift=0cm] % 坐标轴 [->] (0,0) -- (4,0) node[right] x ; [->] (0,0) -- (0,3.5) node[left] y ; at (0,0) [below left] O ; % 直线 l₁: y = 0.5 + 0.8x [blue, thick] (0.2, 0.66) -- (3.5, 3.3) node[right] l_1 ; % 散点 (准确计算,与残差相对应) (0.5, 0.98) circle (2pt); (1.0, 1.10) circle (2pt); (1.5, 1.85) circle (2pt); (2.0, 2.15) circle (2pt); (2.5, 2.35) circle (2pt); (3.0, 2.97) circle (2pt); % ===== Scope 2: l₁ 拟合残差图 (左侧第二个图) ===== [xshift=5cm, yshift=1.3cm] % 坐标轴 [->] (0,0) -- (4,0) node[right] x ; [->] (0,-0.8) -- (0,0.8) node[left] e ; at (0,0) [below left] O ; % 标题 at (2, 1.2) l_1 的拟合残差图 ; % 带状区域 [dashed, red, thick] (0, 0.2) -- (3.5, 0.2); [dashed, red, thick] (0, -0.2) -- (3.5, -0.2); % 残差点 (0.5, 0.08) circle (2pt); (1.0, -0.20) circle (2pt); (1.5, 0.15) circle (2pt); (2.0, 0.05) circle (2pt); (2.5, -0.15) circle (2pt); (3.0, 0.07) circle (2pt); % ===== Scope 3: l₂ 拟合图 (右侧第一个图) ===== [xshift=10cm, yshift=0cm] % 坐标轴 [->] (0,0) -- (4,0) node[right] x ; [->] (0,0) -- (0,3.5) node[left] y ; at (0,0) [below left] O ; % 直线 l₂: y = 0.8 + 0.7x [blue, thick] (0.2, 0.94) -- (3.5, 3.25) node[ right] l_2 ; % 散点 (准确计算,误差相较 l1 明显更大) (0.5, 0.95) circle (2pt); (1.0, 2.10) circle (2pt); (1.5, 1.35) circle (2pt); (2.0, 2.00) circle (2pt); (2.5, 3.05) circle (2pt); (3.0, 2.70) circle (2pt); % ===== Scope 4: l₂ 拟合残差图 (右侧第二个图) ===== [xshift=15cm, yshift=1.3cm] % 坐标轴 [->] (0,0) -- (4,0) node[right] x ; [->] (0,-0.8) -- (0,0.8) node[left] e ; at (0,0) [below left] O ; % 标题 at (2, 1.2) l_2 的拟合残差图 ; % 带状区域 [dashed, red, thick] (0, 0.6) -- (3.5, 0.6); [dashed, red, thick] (0, -0.6) -- (3.5, -0.6); % 残差点 (0.5, -0.20) circle (2pt); (1.0, 0.60) circle (2pt); (1.5, -0.50) circle (2pt); (2.0, -0.20) circle (2pt); (2.5, 0.50) circle (2pt); (3.0, -0.20) circle (2pt);

定义 5. 决定系数 \(R^2\)

[ R^2 = 1 - _ i=1 ^ n (y_i - y _i)^2 _ i=1 ^ n (y_i - y )^2 ] 分母 ( _ i=1 ^n (y_i

[ R^2 = 1 - _ i=1 ^ n (y_i - y _i)^2 _ i=1 ^ n (y_i - y )^2 ] 分母 ( _ i=1 ^n (y_i - y )^2 ):样本数据的总偏差平方和(固定值). 分子 ( _ i=1 ^n (y_i - y _i)^2 ):残差平方和. 比较回归模型时,可通过计算 ( R^2 ) 对比优劣. (R^2 ) 越 大 ,残差平方和越小,模型拟合效果越好; (R^2 ) 越 小 ,残差平方和越大,拟合效果越差.

题型 1. 非线性回归模型

通过变换(取对数、取指数、平方等)转化为线性回归模型计算,有关考题一般会给出参考数据. 例如下图的这组观测数据 ((x_1, y_1), (x_2, y_2),

通过变换(取对数、取指数、平方等)转化为线性回归模型计算,有关考题一般会给出参考数据. 例如下图的这组观测数据 ((x_1, y_1), (x_2, y_2), , (x_n, y_n) ),若用线性回归模型 y = b x + a 拟合,效果就比用指数模型 y = a e^ b x 拟合差. 而欲求模型 ( y = a e^ b x ) 中的 ( a ) 和 ( b ),可两端取自然对数,得到 y = b x + a .若设 z = y c = a , 则 ( z = b x + c ),这样就将 (y ) 关于 (x ) 的非线性拟合转化成了 (z ) 关于 (x ) 的线性拟合. 这里用到的变换,就是取对数,我们可以将观测数据 ((x_1, y_1), (x_2, y_2), , (x_n, y_n) ) 变换成 ((x_1, z_1), (x_2, z_2), , (x_n, z_n) ),再用最小二乘法求得 (z ) 关于 (x ) 的线性回归方程,最后将 (z ) 换回成 ( y ) 即可. [>=Stealth, scale=0.8] % ===== Scope 1: 散点图 ===== [xshift=0cm, yshift=0cm] [->] (0,0) -- (3.5,0) node[right] x ; [->] (0,0) -- (0,3.8) node[left] y ; at (0,0) [below left] O ; (0.5, 0.35) circle (2pt); (1.0, 0.55) circle (2pt); (1.5, 0.85) circle (2pt); (2.0, 1.30) circle (2pt); (2.5, 2.00) circle (2pt); (3.0, 3.20) circle (2pt); % ===== Scope 2: 直线拟合 ===== [xshift=5cm, yshift=0cm] [->] (0,0) -- (3.5,0) node[right] x ; [->] (0,0) -- (0,3.8) node[left] y ; at (0,0) [below left] O ; (0.5, 0.35) circle (2pt); (1.0, 0.55) circle (2pt); (1.5, 0.85) circle (2pt); (2.0, 1.30) circle (2pt); (2.5, 2.00) circle (2pt); (3.0, 3.20) circle (2pt); % 直线拟合的连线 [blue, thick] (0.4, 0.04) -- (3.3, 3.2) node[pos=0.85, left, black] y = b x+ a ; % ===== Scope 3: 指数拟合 ===== [xshift=10cm, yshift=0cm] [->] (0,0) -- (3.5,0) node[right] x ; [->] (0,0) -- (0,3.8) node[left] y ; at (0,0) [below left] O ; (0.5, 0.35) circle (2pt); (1.0, 0.55) circle (2pt); (1.5, 0.85) circle (2pt); (2.0, 1.30) circle (2pt); (2.5, 2.00) circle (2pt); (3.0, 3.20) circle (2pt); % 曲线指数拟合 y = 0.21 * e^ 0.91x [blue, thick, domain=0.2:3.1, smooth, variable= ] plot ( , 0.21*exp(0.91* ) ) node[right, black] y = a e^ b x ;

定义 6. 零假设 \(H_0\)

设 (X ) 和 (Y ) 为取值于 ( 0, 1 ) 的成对分类变量,零假设为: (H_0: P(Y = 1 X = 0) = P(Y = 1 X = 1)

设 (X ) 和 (Y ) 为取值于 ( 0, 1 ) 的成对分类变量,零假设为: (H_0: P(Y = 1 X = 0) = P(Y = 1 X = 1) ),等价于分类变量 (X ) 和 (Y ) 独立,即: [ P(X = 0, Y = 0) = P(X = 0)P(Y = 0) P(X = 0, Y = 1) = P(X = 0)P(Y = 1) P(X = 1, Y = 0) = P(X = 1)P(Y = 0) P(X = 1, Y = 1) = P(X = 1)P(Y = 1) ]

定义 7. \(2 \times 2\) 列联表

[ c c c c X Y = 0 Y = 1 合计 X = 0 a b a + b X = 1 c d c + d 合计 a + c b + d n = a

[ c c c c X Y = 0 Y = 1 合计 X = 0 a b a + b X = 1 c d c + d 合计 a + c b + d n = a + b + c + d ] (a, b, c, d ) 为事件 ( X = x, Y = y )( (x, y = 0, 1 ))的频数; (n ) 为样本容量.

定义 8. 卡方统计量与检验规则(人教A选必三P124)

[ ^2 = n(ad - bc)^2 (a + b)(c + d)(a + c)(b + d) ] [ c c c c c c 0.1 0.05 0.01 0

[ ^2 = n(ad - bc)^2 (a + b)(c + d)(a + c)(b + d) ] [ c c c c c c 0.1 0.05 0.01 0.005 0.001 x_ 2.706 3.841 6.635 7.879 10.828 ] 查表确定 x_ ,基于小概率值 ( ) 的检验规则: 当 ( ^2 ; ; x_ ) 时,推断 (H_0 ) 不成立,认为 (X ) 和 (Y ) 不独立,有关联,犯错误概率不超过 ( ); 当 ( ^2 ;< ; x_ ) 时,无充分证据推断 (H_0 ) 不成立,认为 (X ) 和 (Y ) 独立,没有关联.

结论 1. 独立性检验的基本步骤

根据小概率值 的独立性检验,基本步骤如下: 提出零假设 H_0 : X 和 Y 相互独立, 并给出在问题中的解释. 根据抽样数据整理出 2 2 列联表, 利用公

根据小概率值 的独立性检验,基本步骤如下: 提出零假设 H_0 : X 和 Y 相互独立, 并给出在问题中的解释. 根据抽样数据整理出 2 2 列联表, 利用公式计算 ^2 的值. 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 , 然后查表确定临界值 x_ . 当 ^2 x_ 时, 我们就推断 H_0 不成立, 即认为 X 和 Y 不独立, 该推断犯错误的概率不超过 ; 当 ^2 < x_ 时, 我们没有充分证据推断 H_0 不成立, 可以认为 X 和 Y 独立.