知识点1 随机抽样
1.相关概念
(1)总体:一般把所有考察对象的某一数值指标的全体构成的集合看成总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:总体中抽取出若干个体组成的集合叫做样本.
2.随机抽样
设一个总体含有$N$个个体,从中逐个不放回抽取$n$个个体作为样本($n≤N$),且每次抽取时总体内的各个个体,被抽到的机会都是相等的抽样方法.
3.系统抽样(等距抽样)
把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本,第一个样本采用简单随机抽样的办法抽取.
4.分层抽样
先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本.
类别 | 共同点 | 各自特点 | 相互联系 | 适用范围 |
简单随机抽样 | 均为不放回抽样,且抽样过程中每个个体被抽取的机会相等 | 从总体中逐个抽取 | 是后两种方法的基础 | 总体中的个数较少 |
系统抽样 | 将总体均分成几部分,按事先确定的规则在各部分中抽取 | 在起始部分抽样时采用简单随机抽样 | 元素个数很多且均衡的总体抽样 | |
分层抽样 | 将总体分成几层,分层按比例进行抽取 | 各层抽样时采用简单随机抽样或系统抽样 | 总体由差异明显的几部分组成 |
知识点2 数据的分布表现
用样本的频率分布
(1)频率分布表;
(2)频率分布直方图;
(3)频率分布折线图;
(4)总体密度曲线;
(5)茎叶图.
1.众数:在一组数据中,出现次数比较多的数据.众数可能是一个或多个甚至没有.
2.中位数:将一组数据按照大小关小依次排列,把处在中间位置的一个数据(或中间两位数据的平均数)叫做这组数据的中位数.
3.平均数:一组数据的总和除以数据个数所得的商就是平均数.
4.标准差:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用$s$表示.假设样本数据$x_{1},x_{2},…,x_{n}$的平均数为$\bar{x}$,则标准差的计算公式是:
$s=\sqrt{\frac{\left(x_{1}-\bar{x}\right)^{2}+\left(x_{2}-\bar{x}\right)^{2}+···+\left(x_{n}-\bar{x}\right)^{2}}{n}}$
5.方差:方差是标准差的平方,同样反映样本数据的分散程度的大小.
6.极差:又称范围误差最大值与最小值之间的差距,即最大值减最小值后所得之数据.
7.平均数、中位数与众数的异同:
(1)平均数、众数和中位数都是描述一组数据集中趋势的量;
(2)平均数、众数和中位数都有单位;
(3)平均数反映一组数据的平均水平,与这组数据中的每个数都有关系,所以最为重要,应用最广;
(4)中位数不受个别偏大或偏小数据的影响;
(5)众数与各组数据出现的频数有关,不受个别数据的影响,有时是我们最为关心的数据.
1.画频率直方图的步骤:
第一步,求极差;
2.频率直方图的性质
(1)频率分布直方图中,小长方形的高=$\frac{频率}{组距}$;
(2)各小长方形的面积等于该数据段发生的频率;各长方形的面积之和等于1;
(3)频率直方图的众数:众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标;
(4)频率直方图的中位数:在样本数据中,有50%的个体小于或者等于中位数,同时也有50%的个体大于或者等于中位数,所以,在频率分布直方图中,在中位数的左边和右边直方图的面积是相等的.从而我们可以根据这个来估算出中位数的大小值.
1.作图步骤
第一步,将每个数据分为“茎”和“叶”两部分; 茎是指中间的一列数,表示数据的十位数,叶就是从茎的旁边生长出来的数,表示得分的个位数;
第二步,将各个数据的茎按大小次序(由小到大)排成一列;
第三步,将各个数据的叶按大小次序写在茎左(右)侧.
2.例
从两个班中各随机抽取10名学生,他们的数学成绩如下:
甲班:76 74 82 96 66 76 78 72 52 68
乙班:86 84 62 76 78 92 82 74 88 85