中医参考H5版入口

二、回归分析(regression analysis)


医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。

直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。

  (一)直线回归方程式(linear regression equation)的计算


直线回归方程的通式为:

=a+bX 公式(22.3)

式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:

[img]/assets/zyimg/shu/yufangyixue/yufangyixue129.jpg[alt][/alt][/img]

公式(22.4)

公式(22.5)

对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:

Σ(X-x)(Y-Y)=41.2000

Σ(X-x)[SB]2[/SB]=677.4194

而Y=ΣY/n=99.2/31=3.2000

x=ΣY/n=534/31=17.2258

代入公式(22.4)

b=41.2000/677.4194=0.0608

代入公式(22.5)

a=3.2000-0.0608×17.2258=2.1527

代入公式(22.3)

=2.1527+0.0608X

  (二)样本回归系数的假设检验


样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。

检验步骤:

H[XB]0[/XB]:β=0 即b是由β=0的总体中随机抽样的样本回归系数。

H[XB]1[/XB]:β≠0

α=0.05

t检验:检验公式为

t[XB]b[/XB]=|b|/s[XB]b[/XB]公式(22.6)

式中s[XB]b[/XB]是回归系数的标准误,计算公式为

[img]/assets/zyimg/shu/yufangyixue/yufangyixue130.jpg[alt][/alt][/img]公式(22.7)

式中s[XB]y.x[/XB]为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:

[img]/assets/zyimg/shu/yufangyixue/yufangyixue131.jpg[alt][/alt][/img]

公式(22.8)

公式(22.9)

本例上述已算得

Σ(X-x)[SB]2[/SB]=677.4194

Σ(Y-Y)[SB]2[/SB]=6.7400

Σ(X-x)(Y-Y)=41.2000

分别代入公式(22.9),(22.8),(22.7)和(22.6)得

Σ(Y-Y)[SB]2[/SB]=6.7400-41.2000[SB]2[/SB]/677.4194=4.2343

[img]/assets/zyimg/shu/yufangyixue/yufangyixue132.jpg[alt][/alt][/img]

t[XB]b[/XB]=0.0608/0.01468=4.1417

分析评价 本例自由度v=31-2=29,查t值表,t[XB]0.01[/XB][XB](29)[/XB]=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。

  (三)描绘回归直线


根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X[XB]1[/XB]和X[XB]2[/XB]两值代入上式求得在图22-2中的P[XB]1[/XB](X[XB]1[/XB],Y[XB]1[/XB])和P[XB]2[/XB](X[XB]2[/XB],Y[XB]2[/XB])两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P[XB]1[/XB]、P[XB]2[/XB]两点最好距离远些,绘出的直线在坐标上误差就小些。

相关链接