变量间的相关关系__统计案例
[知识能否忆起]
一、变量间的相关关系
1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
二、两个变量的线性相关
1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
2.回归方程为=x+,其中=,
=-.
3.通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
4.相关系数=,
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
三、独立性检验
1.2×2列联表:假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
2.用K2的大小可以决定是否拒绝原来的统计假设H0,若K2值较大,就拒绝H0,即拒绝事件A与B无关.
3.当K2>3.841时,则有95%的把握说事件A与B有关;
当K2>6.635时,则有99%的把握说事件A与B有关;
当K2>2.706时,则有90%的把握说事件A与B有关.
[小题能否全取]
1.(教材习题改编)观察下列各图形
其中两个变量x、y具有相关关系的图是( )
A.①② B.①④
C.③④ D.②③
解析:选C 由散点图知③④具有相关关系.
2.(教材习题改编)已知变量x,y之间具有线性相关关系,其回归方程为=-3+bx,若i=17,i=4,则b的值为( )
A.2 B.1
C.-2 D.-1
解析:选A 依题意知,==1.7,==0.4,而直线=-3+bx一定经过点(,),所以-3+b×1.7=0.4,解得b=2.
3.在一次对性别与说谎是否相关的调查中,得到如下数据:
说谎
不说谎
合计
男
6
7
13
女
8
9
17
合计
14
16
30
根据表中数据,得到如下结论中正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关
解析:选D 由于K2=≈0.0024,由于K2很小,因此,在此次调查中没有充分的证据显示说谎与性别有关.故选D.
4.某考察团对全国10大城市的居民人均工资收入x(万元/年)与居民人均消费y(万元/年)进行统计调查,发现y与x具有相关关系,且y对x的回归方程为=0.66x+1.562.若某城市居民人均消费为7.675(万元/年),估计该城市人均消费占人均工资收入的百分比约为________.
解析:因为当=7.675时,x=≈9.262,
则≈0.829≈83%.
答案:83%
5.已知x,y之间的数据如表所示,则回归直线过点________.
x
1
2
3
4
5
y
1.2
1.8
2.5
3.2
3.8
解析:=3,=2.5,
∴样本点中心为(3,2.5),回归直线过样本点中心.
答案:(3,2.5)
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.
3.使用K2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.
相关关系的判断
典题导入
[例1] (2012·新课标全国卷)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
[自主解答] 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.
[答案] D
由题悟法
1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断.
2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.
3.由相关系数r判断时|r|越趋近于1相关性越强.
以题试法
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
解析:选B 设回归方程为=bx+a.由散点图可知变量x、y之间负相关,回归直线在y轴上的截距为正数,所以b<0,a>0,因此其回归直线方程可能为=-1.5x+2.
回归方程的求法及回归分析
典题导入
[例2] (2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
[自主解答] (1)由于=(x1+x2+x3+x4+x5+x6)=8.5,
=(y1+y2+y3+y4+y5+y6)=80.
所以a=-b=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-202+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
由题悟法
1.最小二乘法估计的一般步骤:
(1)作出散点图,判断是否线性相关;
(2)如果是,则用公式求,,写出回归方程;
(3)根据方程进行估计.
2.回归直线方程必过定点(,).
以题试法
2.(2012·长春模拟)已知x、y取值如下表:
x
0
1
4
5
6
8
y
1.3
1.8
5.6
6.1
7.4
9.3
从所得的散点图分析可知:y与x线性相关,且=0.95x+a,则a=( )
A.1.30 B.1.45
C.1.65 D.1.80
解析:选B 依题意得,=×(0+1+4+5+6+8)=4,=×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线=0.95x+a必过中心点(,),即点(4,5.25),于是有5.25=0.95×4+a,由此解得a=1.45.
独立性检验
典题导入
[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
优秀
非优秀
合计
甲班
10
乙班
30
合计
110
(1)请完成上面的列联表;
(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”.
参考公式与临界值表:K2=
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
[自主解答] (1)列联表如下:
优秀
非优秀
合计
甲班
10
50
60
乙班
20
30
50
合计
30
80
110
(2)根据列联表中的数据,得到K2=≈7.486<10.828.
因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
由题悟法
1.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.
2.在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.
以题试法
3.(2012·嘉兴联考)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2=≈4.844,则认为选修文科与性别有关系出错的可能性约为________.
解析:由K2=4.844>3.841.
故认为选修文科与性别有关系出错的可能性约为5%.
答案:5%
【点此下载】