知识点1 变量的关系
1.变量的关系的分类
$\left\{\begin{array}{ll}确定性函数关系 \\ 相关关系 {\left\{\begin{array}{ll}线性相关 \\非线性相关 \end{array}\right.}\end{array}\right.$
函数关系是一种确定的变量关系,在统计中是一种理想模型.
2.相关关系
对于两个变量,当变量$x$取值一定时,变量$y$的取值带有一定随机性的两个变量之间的关系.
注:
(1)相关关系是一种不确定性关系.
(2)对具有相关关系的两个变量进行统计分析的方法叫回归分析.
(3)能用直线方程$\hat{y}=b x+a$ 近似表示的相关关系叫做线性相关关系.
(4)回归分析本质:寻找相关关系中非确定性关系的某种确定性.
知识点2 回归分析意义
相关关系到处存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系则是一种非常普遍关系.研究和学习相关关系,不仅可以使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度.
知识点3 散点图
1.定义:将样本中$n$个数据点$(x_{i},y_{i})$ $(i=1,2,…,n)$描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.
2.作用
(1)利用散点图从“形”上判断变量之间有无相关关系;
(2)是一种直观但粗略的判断方法;
(3)散点图形象地反映了各对数据的密切程度.
图一:
图二:
由图发现图二具有较强的线性相关性.
知识点1 回归直线方程
1.回归直线方程的思想方法
回归直线:观察散点图的特征,发现各点大致分布在一条直线的附近,就称这两个变量之间具有线性相关的关系,这条直线叫做回归直线.
可见,根据不同的标准可画出不同的直线来近似表示这种线性关系.比如,可以连接最左侧点和最右侧点得到一条直线;也可以让画出的直线上方的点和下方的点数目相等,.....这些办法,能保证各点与此直线在整体上是最接近的吗?它们虽然都有一定的道理,但总让人感到可靠性不强.
2.解决办法
(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.回归分析是对具有相关关系的两个变量进行统计分析的常用方法.对两个具有线性相关性关系的变量,利用回归分析的方法进行研究,其步骤为画散点图;求回归直线;并用回归直线进行预报.
(2)最小二乘法:实际上,求回归直线方程的关键是如何用数学的方法来刻画“ 从整体上看各点与此直线的距离最小”,即最贴近已知的数据点,最能代表变量$x$与$y$之间的关系.这种求“距离最小”的方法叫做最小二乘法.
知识点2 最小二乘法
求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
回归直线方程: $\hat{y}=bx+\hat{a}$ 被一组数据的变量满足:
注意: 线性回归直线经过定点$(\bar{x},\bar{y})$.
1.散点图只是形象地描述点的分布情况,它的“线性”是否明显只能通过观察,要想把握其特征,必须进行定量的研究。
如何对一组数据之间的线性相关程度作出定量分析?
此时需要对$x,y$的线性相关性进行检验.
2.相关性检验
对于变量$x$与$Y$随机取到$n$对数据$(x_{1},y_{1}),(x_{2},y_{2}),…,(x_{n},y_{n})$,则样本的线性相关系数:
(1)$r>0$时,变量 $x,y$ 正相关;$r$ <0 时,变量 $x,y$ 负相关.
(2)$|r|$越接近于1,两个变量的线性相关性越强;$|r|$接近于0时,两个变量之间几乎不存在线性相关关系.
知识点1 定义
利用随机变量$K^{2}$来判断两个分类变量有关系的方法.
知识点2 独立检验步骤
(1)列出$2X2$列联表;
(2)计算$K^{2}$的观测值$k$;
(3)查对临界值,作出判断.
知识点3 独立性检验思想
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量$K^{2}$的值,如果$K^{2}$值很大,说明假设不合理.$K^{2}$越大,两个分类变量有关系的可能性越大.
知识点4 独立性检验计算
(1)2×2联表
$y_{1}$ | $y_{2}$ | 总计 | |
$x_{1}$ | $a$ | $b$ | $a+b$ |
$x_{2}$ | $c$ | $d$ | $c+d$ |
总计 | $a+c$ | $b+d$ | $a+b+c+d$ |
(2)$K^{2}$=$\frac{n(ad-bc)^{2}}{(a+b)(c+c)(a+c)(b+d)}$.