高考资源网(ks5u.com) 您身边的高考专家 12.3 抽样方法、总体分布的估计 一、知识梳理 (一)抽样 1.简单随机抽样:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样 ⑴用简单随机抽样从含有N个个体的总体中抽取一个容量为的样本时,每次抽取一个个体时任一个体被抽到的概率为;在整个抽样过程中各个个体被抽到的概率为; ⑵简单随机抽样的特点是,逐个抽取,且各个个体被抽到的概率相等; ⑶简单随机抽样方法,体现了抽样的客观性与公平性,是其他更复杂抽样方法的基础.(4).简单随机抽样的特点:它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样 简单抽样常用方法: (1)抽签法:先将总体中的所有个体(共有N个)编号(号码可从1到N),并把号码写在形状、大小相同的号签上(号签可用小球、卡片、纸条等制作), 然后将这些号签放在同一个箱子里,进行均匀搅拌,抽签时每次从中抽一个号签,连续抽取n次,就得到一个容量为n的样本  适用范围:总体的个体数不多时  优点:抽签法简便易行,当总体的个体数不太多时适宜采用抽签法.   (2)随机数表法: 随机数表抽样“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码  2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:①采用随机的方式将总体中的个体编号为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等 ②为将整个的编号分段(即分成几个部分),要确定分段的间隔k当(N为总体中的个体的个数,n为样本容量)是整数时,k=;当不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数能被n整除,这时k=.③在第一段用简单随机抽样确定起始的个体编号 ④按照事先确定的规则抽取样本(通常是将加上间隔k,得到第2个编号+k,第3个编号+2k,这样继续下去,直到获取整个样本)  ①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样; ②与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的. ③总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除在进行系统抽样  3.分层抽样: 当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层 常用的抽样方法及它们之间的联系和区别: 类别 共同点 各自特点 相互联系 适用范围  简单随机 抽样 抽样过程中每个个体被抽取的概率是相同的 从总体中逐个抽取  总体中的个数比较少  系统抽样  将总体均匀分成几个部分,按照事先确定的规则在各部分抽取 在起始部分抽样时采用简单随机抽样 总体中的个数比较多  分层抽样  将总体分成几层,分层进行抽取 各层抽样时采用简单抽样或者相同抽样 总体由差异明显的几部分组成  不放回抽样和放回抽样:在抽样中,如果每次抽出个体后不再将它放回总体,称这样的抽样为不放回抽样;如果每次抽出个体后再将它放回总体,称这样的抽样为放回抽样. 随机抽样、系统抽样、分层抽样都是不放回抽样 (二)总体分布 1.总体:在数理统计中,通常把被研究的对象的全体叫做总体. 2.频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示. 3.总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n的样本,就是进行了n次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布. 4.总体密度曲线:样本容量越大,所分组数越多,各组的频率就越接近于总体在相应各组取值的概率.设想样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,这条曲线叫做总体密度曲线.  它反映了总体在各个范围内取值的概率.根据这条曲线,可求出总体在区间(a,b)内取值的概率等于总体密度曲线,直线x=a,x=b及x轴所围图形的面积. 二、基础训练 1.一个总体中共有10个个体,用简单随机抽样的方法从中抽取一容量为3的样本,则某特定个体入样的概率是C A. B. C. D.  2.(2004年江苏,6)某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示.根据条形图可得这50名学生这一天平均每人的课外阅读时间为B A.0.6 h B.0.9 h C.1.0 h D.1.5 h 3.一个年级有12个班,每个班有50名同学,随机编号为1~50号,为了了解他们在课外的兴趣爱好,要求每班的33号学生留下来参加阅卷调查,这里运用的抽样方法是D A.分层抽样法 B.抽签法 C.随机数表法 D.系统抽样法 4.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列说法正确的是 A.1000名运动员是总体 B.每个运动员是个体 C.抽取的100名运动员是样本 D.样本容量是100 解析:这个问题我们研究的是运动员的年龄情况.因此应选D. 答案:D 5.一个容量为n的样本,分成若干组,已知某数的频数和频率分别为40、0.125,则n的值为 A.640 B.320 C.240 D.160 解析:∵=0.125,∴n=320.故选B. 答案:B 6.某单位有老年人27人,中年人54人,青年人81人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,在简单随机抽样、系统抽样、分层抽样这三种方法中较合适的抽样方法是___________. 解析:要研究的总体里各部分情况差异较大,因此用分层抽样. 答案:分层抽样 5.某班学生在一次数学考试中成绩分布如下表: 分数段 [0,80) [80,90) [90,100)  人数 2 5 6  分数段 [100,110) [110,120 [120,130)  人数 8 12 6  分数段 [130,140) [140,150)   人数 4 2   那么分数在[100,110)中的频率和分数不满110分的累积频率分别是______________、_______(精确到0.01). 解析:由频率计算方法知:总人数=45. 分数在[100,110)中的频率为 =0.178≈0.18. 分数不满110分的累积频率为=≈0.47. 答案:0.18 0.47 三、例题剖析 【例1】 (2004年湖南,5)某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是 A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法 C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法 剖析:此题为抽样方法的选取问题.当总体中个体较多时宜采用系统抽样;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样. 依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B. 答案:B 评述:采用什么样的抽样方法要依据研究的总体中的个体情况来定. 【例2】 (2004年福建,15)一个总体中有100个个体,随机编号为0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k小组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是___________. 剖析:此问题总体中个体的个数较多,因此采用系统抽样.按题目中要求的规则抽取即可. ∵m=6,k=7,m+k=13,∴在第7小组中抽取的号码是63. 答案:63 评述:当总体中个体个数较多而差异又不大时可采用系统抽样.采用系统抽样在每小组内抽取时应按规则进行. 【例3】 把容量为100的某个样本数据分为10组,并填写频率分布表,若前七组的累积频率为0.79,而剩下三组的频数成公比大于2的整数等比数列,则剩下三组中频数最高的一组的频数为___________. 剖析:已知前七组的累积频率为0.79,而要研究后三组的问题,因此应先求出后三组的频率之和为1-0.79=0.21,进而求出后三组的共有频数,或者先求前七组共有频数后,再计算后三组的共有频数. 由已知知前七组的累积频数为0.79×100=79,故后三组共有的频数为21,依题意=21,a1(1+q+q2)=21.∴a1=1,q=4.∴后三组频数最高的一组的频数为16. 答案:16 评述:此题剖析只按第二种思路给出了解答,你能按第一种思路来解吗? 【例4】 对某电子元件进行寿命追踪调查,情况如下: 寿命(h) 100~200 200~300 300~400 400~500 500~600  个 数 20 30 80 40 30  (1)列出频率分布表; (2)画出频率分布直方图和累积频率分布图; (3)估计电子元件寿命在100~400 h以内的概率; (4)估计电子元件寿命在400 h以上的概率. 剖析:通过本题可掌握总体分布估计的各种方法和步骤. 解:(1)频率分布表如下: 寿命(h) 频 数 频 率 累积频率  100~200 20 0.10 0.10  200~300 30 0.15 0.25  300~400 80 0.40 0.65  400~500 40 0.20 0.85  500~600 30 0.15 1  合 计 200 1   (2)频率分布直方图如下:   (3)由累积频率分布图可以看出,寿命在100~400 h内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400 h内的概率为0.65. (4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35. 评述:画频率分布条形图、直方图时要注意纵、横坐标轴的意义. 【例5】 某批零件共160个,其中,一级品48个,二级品64个,三级品32个,等外品16个.从中抽取一个容量为20的样本.请说明分别用简单随机抽样、系统抽样和分层抽样法抽取时总体中的每个个体被取到的概率均相同. 【例6】一个容量为100的样本,数据的分组和各组的一些相关信息如下: 分 组 频 数 频 率 累积频率  [12,15) 6    [15,18)  0.08   [18,21)   0.30  [21,24) 21    [24,27)   0.69  [27,30) 16    [30,33]  0.10   [33,36)   1.00  合 计 100 1.00   (1)完成上表; (2)画出频率分布直方图和累积频率分布图; (3)根据累积频率分布图,总体中小于22的样本数据大约占多大的百分比? 〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓 四、同步练习 g3.1099 抽样方法、总体分布的估计 1.某公司甲、乙、丙、丁四个地区分别有150 个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其收入和售后服务等情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是 ( B ) 分层抽样法,系统抽样法 分层抽样法,简单随机抽样法 系统抽样法,分层抽样法 简单随机抽样法,分层抽样法 2.已知样本方差由,求得,则  . 3.设有个样本,其标准差为,另有个样本,且 ,其标准差为,则下列关系正确的是 ( B )     4.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用右侧的条形图表示. 根据条形图可得这50名学生这一天平均每人的课外阅读时间为 ( B ) 0.6小时 0.9小时 1.0小时 1.5小时 5.是的平均数,是的平均数,是的平均数,则,,之间的关系为. 6.某校有老师200人,男学生1200人,女学生1000人.现用分层抽样的方法从所有师生中抽取一个容量为的样本;已知从女学生中抽取的人数为80人,则. 7.一个总体中有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小 组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为,那么在第组中抽取的号码个位数字与的个位数字相同,若,则在第7组中抽取的号码是 63 . 8.在样本的频率分布直方图中,共有个小长方形,若中间一个小长方形的面积等于其他个小长方形的面积之和的,且样本容量为,则中间一组的频数为 32 . 9.某中学有员工人,其中中高级教师人,一般教师人,管理人员人,行政人员人,从中抽取容量为的一个样本.以此例说明,无论使用三种常用的抽样方法中的哪一种方法,总体中的每个个体抽到的概率都相同. 10. 现有30个零件,需从中抽取10个进行检查,问如何采用简单随机抽样得到一个容量为10的样本? 11.质检部门对甲、乙两种日光灯的使用时间进行了破坏性试验,10次试验得到的两 种日光灯的使用时间如下表所示,问:哪一种质量相对好一些? 12. 下表给出了某学校120名12岁男生的身高统计分组与频数(单位:cm). 区间 [122,126) [126,130) [130,134) [134,138) [138,142) [142,146) [146,150) [150,154) [154,158)  人数 5 8 10 22 33 20 11 6 5  (1)列出样本的频率分布表(含累积频率); (2)画出频率分布直方图; (3)根据累积频率分布,估计小于134的数据约占多少百分比. 13. 为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次品4件。 (1)列出样本的频率分布表; (2)画出表示样本频率分布的条形图; (3)根据上述结果,估计此种产品为二级品或三级品的概率约是多少?

【点此下载】