逐步回归是回归分析中的重要内容,也是统计建模的主要实现手段之一,在大学的统计课程中是必讲的内容。不过,与简单线性回归相比,逐步回归的概念更为复杂,计算量也更加繁琐。虽然学校办公室的电脑里安装了
Minitab软件,计算起来方便了一些,但总觉得不顺手,很多要求都无法实现,讲课的时候学生也不容易理解。所以这两年来我一直在寻找一个理想的统计课程教学软件,并能更好地实现逐步回归的功能。
工夫不负有心人,一个偶然的机会北大有位老师向我推荐了SAS公司的
JMP软件, 效果果然不同凡响,试用一段时间就爱不释手了。下面就小心地以软件自带的案例数据为例,比较一下这两个软件吧。
例:初学统计学课程的学生参加了一个简单的试验。每个学生都记录了其身高、体重、性别、是否吸烟、平时活动水平以及静息脉搏。他们全都投掷了硬币,其硬币头像朝上的学生原地跑步一分钟。然后,整个班级的学生再次记录了其脉搏。现在要找出第二次脉搏的最佳预测变量。
先来看看Minitab。
菜单操作的路径是:Stat>Regression>Stepwise Regression,它的自定义功能(如是前向法、后向法、还是混合法,门限值分别是多少等等) 都是通过菜单对话框中一个叫“Methods”的选项来控制的(如图一)。输出结果出现在另一个Session窗口中,包括回归的最终次数(此例中为4次)、每次增减的变量(此例中分别为脉搏1、跑步、性别、活动)、变量的回归系数及其检验统计量(如图二)。
图一 Minitab逐步回归的自定义选项
图二 Minitab逐步回归的输出结果
这样的结果中规中矩,但最大的问题是无法让人体会到逐步回归是如何“逐步”实现的。对于初学者或者是具有钻研精神的学生来说,这不能不说是个缺憾。
再来看看JMP。
菜单操作的路径是:Analyze>Fit Model>Personality: Stepwise。从分析的初始界面(如图三)就可以看出JMP和一般统计软件的不同:JMP的逐步回归自定义选项(图三的上半部分)与最终回归变量的估计量(图三的下半部分)都是在同一个报表中出现的。而且通过一个“Step”的按钮把每一次回归模型改变后各个变量的估算结果(包括回归系数、平方和、F比率、P值等)一一表现出来,同步性和交互性非常强,可以让学生们迅速体会到逐步回归的工作原理,而不是仅仅得到一个最终结果。当然,如果觉得一步一步地做太慢,也不想观察逐步回归的具体过程,按一个“Go”的按钮就直接进行到最终的模型(如图四所示)。
图三 JMP逐步回归的初始界面
图四 JMP逐步回归的输出结果
JMP和Minitab的计算结果几乎完全一致(就是小数位数保留的不同,JMP更精确一些)。从操作界面的友好性来看,JMP更加人性化、客户化,更适合逐步回归的统计教学,这也正是我所迫切期望解决的一个问题。
以上主要是从提高教学质量的角度来比较两个软件的差异。其实,如果换个角度,从科学研究的角度看,JMP的分析功能更强大,优势很明显。例如,在JMP的逐步回归中,对变量类型没有特别的限制,但在Minitab中,只允许变量是离散变量,不然就根本无法执行下去。有兴趣的朋友试一下就知道了,我就不罗嗦了。
好东西自然要和大家分享,各位从事统计分析的同仁们,无论你是做理论研究的,还是做实际应用的,都会或多或少地接触到逐步回归,建议你也可以JMP(与JUMP谐音)一下。