实 验 一:一元线性回归模型的估计、检验和预测
【演示内容】 1、stata常用命令
Stata常用命令的介绍。 (1) 查找帮助: search [查找内容]
如:search save //查找用什么命令保存文档
(键盘上按“q”键可以停止显示搜索结果) (2) use \"路径+文件名\" use \"F:\\stata files\\2.6.dta\"
(3) 编辑数据
edit
(4) 删除数据表中的变量或一个观测值 drop 变量名1 变量名2 如:drop X Y
drop in 行数n //删除第n个观测之 如:drop in 32 //删除第32个观测值
(5) 保存数据文档 save \"文件路径+文件名\"
2、以教材P49 例2.6.1为例介绍用Eview实现一元线性回归的参数估计、检验和预测。
表2.6.1 中国各地区城镇居民家庭人均全年可支配收入与人均全年消费性支出(元) 地区 消费支出 可支配收入 地区 消费支出 可支配收入 Y 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海
X 19977.52 湖 北 14283.09 湖 南 10304.56 广 东 10027.70 广 西 10357.99 海 南 10369.61 重 庆 9775.07 四 川 9182.31 贵 州 20667.91 云 南 Y 7397.32 8169.30 12432.22 6791.95 7126.78 9398.69 7524.81 6848.39 7379.81 X 9802.65 10504.67 16015.58 98.75 9395.13 11569.74 9350.11 9116.61 10069. 1
14825.41 10548.05 7343.49 7170.94 7666.61 7987.49 7352. 6655.43 14761.75 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 9628.59 13348.51 7294.73 9807.71 65.54 8468.40 6685.18 14084.26 西 藏 18265.10 陕 西 9771.05 甘 肃 13753.28 青 海 9551.12 宁 夏 12192.24 新 疆 9810.26 6192.57 7553.28 6974.21 6530.11 7205.57 6730.01 41.08 9267.70 20.59 9000.35 9177.26 8871.27 资料来源:《中国统计年鉴》(2007)。
实验步骤
1.录入数据
点击菜单Data Editor,直接把数据拷贝进去并在右下边的variables的框中修改变量名为X和Y
2. 散点图 scatter Y X
4.按照关系式Y=C+X+ 进行OLS回归, regress Y X
5. 预测
(1) 求X=20000时,人均消费支出均值预测值的点估计值 . predict [type] newvar [,statistic]
举例:
先执行回归命令:
use \"F:\\stata files\\2.6\regress Y X
再用edit命令新增一个X值20000,在执行以下命令
predict yhat [,xb]
– 此命令意为:生成一个名为yhat的变量,该变量的取值为根据解释变量的
每组取值对应生成被解释变量的估计值,
(在最后一行可以看到X=20000所对应的Y的估计值)
(2)求当X=20000时,人均消费支出均值预测值和个值的\\95%的置信区间。
use \"F:\\stata files\\2.6.dta\
(1) regress Y X
(2) 然后在数据chapter9_1中增加一个X的取值为20000
(3) predict yhat
– 将每个x值对应的y的估计值存放在变量yhat中,则在X=20000的最后一
个观测值可以看到对应的Y的预测值的点估计值
2
(4) predict sef, stdf
– 生成一个名为sef的变量,该变量的取值为预测误差的标准差
(5) predict sep, stdp
– 生成一个名为sep的变量,该变量的取值为预测值的标准差
(6) scalar tc=invttail(29,0.025)
– 定义标量tc,其取值为自由度为29的t变量概率为0.025的临界值。
(7) gen lbm=yhat-tc*sep
gen ubm=yhat+tc*sep
– 生成y的均值预测值的95%置信区间的下界lbm和上界ubm。 (8) gen lb=yhat-tc*sef gen ub=yhat+tc*sef
生成y的个值预测值的95%置信区间的下界lb和上界ub。
6. 同时做出散点图和回归线 twoway (scatter Y X) (line yhat X)
3