树图思维导图提供 应用回归分析复习框架大全 在线思维导图免费制作,点击“编辑”按钮,可对 应用回归分析复习框架大全 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:448f54350a4f39066b92e32a141f6c71
回归分析思维导图模板大纲
回归分析与相关分析
区别
回归有归因,有截距项,误差项,自变量与因变量的关系不等同 相关只是两个变量之间,自变量与因变量的关系等同
联系
都是研究统计变量间关系的方法
古典线性回归模型满足的基本假定
1.自变量为非随机变量
2.误差项满足G-M条件
3.正态分布条件
4.n>p
样本量的个数要多余解释变量的个数
一元线性回归模型的数学形式
形式
理论回归模型: 理论回归方程: 一元线性样本回归模型: 样本回归方程: 一元线性经验回归方程:
基本假定
误差项满足G-M条件
正态分布假定
参数估计
普通最小二乘OLSE
原理
寻找参数β0,β1的估计值β0hat、β1hat,使观测值与估计的离差平方和达到最小
结果
性质
线性
无偏性
最小方差线性无偏估计
极大似然估计MLE
原理、参数估计结果、推导过程
原理
使观测到样本和的可能性达到最大
参数估计结果
性质
系数估计的性质
方差估计的性质
方程的显著性检验
方程的显著性检验:F检验
系数的显著性检验:t检验
残差分析
分析方法:残差图
残差性质(3条)
改进的残差
标准化残差
标准化残差使残差具有可比性,|ZREi|>3的相应的观测值即判定为异常值
学生化残差
学生化残差进一步解决了方差不等的问题,认为|SREi|>3的相应观测值为异常值
回归系数的区间估计
区间估计的意义:衡量参数估计的精度
估计区间计算过程(了解,记住结论)
预测和控制
预测
单值预测
用单个值作为因变量新值的预测值
区间预测
因变量新值的区间预测
因变量新值的平均值的区间预测
控制
一般模型形式
矩阵形式
基本假定
1.解释变量非随机,设计矩阵是满秩矩阵(rank(X)=p+1<n)
2.G-M条件
3.正态分布的假定
回归参数的估计
OLSE
原理、参数估计结果(推导过程)
MLE
原理,参数估计结果(推导过程,了解)
性质
5条性质熟记(部分证明)
βhat是随机变量y的一个线性变换
βhat是β的无偏估计
βhat的方差
Gauss-Markov定理
βhat与残差e的协方差为0
正态假设y服从正态分布时
回归方程的显著性检验
拟合优度检验(R方)
F检验(方差分析表)-F统计量
T检验-T统计量
系数的置信区间(记住公式)
相关矩阵和偏相关系数(了解意义)
样本相关阵
偏决定系数
偏相关系数
偏决定系数的平方
异方差性
产生的原因
某一因素或某些因素随着解释变量的观测值的变化而对被解释变量产生不同的影响
利用平均数作为样本数据,也容易出现异方差性
样本数据为截面数据时容易出现异方差性
带来的问题
参数估计值虽是无偏的,但不是最小方差线性无偏估计
方差的显著性检验失败
回归方程的应用效果并不理想
诊断的方法
残差图
等级相关系数法
解决的方法
WLS加权最小二乘
一元加权最小二乘估计
参数估计形式(推导过程)
权重的确定(m的确定方法)
多元加权最小二乘
参数估计形式(矩阵表示,推导过程)
权函数的确定方法(与残差绝对值的等级相关系数较大的自变量)
BOX-COX变换
方差稳定性变换法
自相关性
产生的原因
遗漏关键变量时会产生序列自相关性
经济变量的滞后性会给序列带来自相关性
采用错误的回归函数形式也可能引起自相关性
蛛网现象可能带来序列的自相关性
因对数据加工整理而导致误差之间产生序列相关性
带来的问题
参数的估计值不再具有最小方差线性无偏性
均方误差(MSE)可能严重低估误差项的方差
容易导致对t值评价过高,常用的F检验和t检验失效
当存在序列相关时,βhat仍是β的无偏估计,但在某一特定的样本中,βhat可能严重歪曲β的真实情况,即最小二乘估计量对抽样波动非常敏感
如果不加处理的运用普通最小二乘估计模型参数,那么用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释
诊断的方法
图示检验法
自相关系数法
DW检验
解决的方法
迭代法
差分法
异常值与强影响点
关于因变量异常
诊断方法-删除学生化方法SRE(i)
关于自变量异常
诊断方法
杠杆值hii(>2hba)-强影响点
库克距离
<0.5,非异常值点
>1,异常值点
解决办法
删除异常值点
加权最小二乘
对照表格找解决办法
有m个可供选择的变量x1,……xm,所有可能的回归方程就有2^m-1个
自变量的选择对估计与预测的影响
5条性质
自变量选择的几个准则
自由度调整复决定系数最大
赤池信息量AIC达到最小
Cp统计量最小
自变量选择方法(核心思想与步骤)
前进法
后退法
逐步回归法
产生的原因
当所研究的经济问题涉及时间序列资料时,由于经济变量往往随时间存在共同的变化趋势,他们之间容易出现共线性
对于许多利用横截面数据建立回归方程的问题,常常也存在自变量高度相关的情形
带来的影响
回归系数的估计值方差变大,回归系数的置信区间变宽,估计的精确性大幅度降低,使估计值稳定性变差
致使一些回归系数不通过显著性检验,回归系数的正负号也可能出现倒置,使回归方程无法得到合理的经济解释,直接影响到最小二乘法的应用效果,降低回归方程的应用价值
如果可以保证自变量的相关自变量的相关类型在预测其不变,即当初建模时自变量间的相关趋势在预测时仍保持不变,用具有较强的多重共线性的方程去做预测效果仍未不错,预测效果很不好
诊断的方法
方差扩大因子
VIFi>10存在多重共线性
特征根
缺点,当所有特征根接近时,此方法失效
条件数
10<ki<100存在多重共线性
ki>100存在严重的多重共线性
直观判断法
1. 当增加或剔除一个自变量,其他自变量的回归系数的估计值或显著性发生较大变化时,我们就认为回归方程存在严重的多重共线性
2.当定性分析认为一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性
3.当与因变量之间的简单相关系数绝对值很大的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性
4.当有些自变量的回归系数的数值大小与预期相差很大时,甚至正负号与定性分析结果相反时,存在严重的多重共线性问题
5.在自变量的相关矩阵中,当自变量间的相关系数较大时会出现多重共线性问题
6.当一些重要的自变量的回归系数的标准误较大时,我们认为可能存在多重共线性
解决的办法
删除变量
增大样本量
回归系数的有偏估计
主成分回归
主要思想
降维
基本性质
有偏估计
实际应用
偏最小二乘
基本思想
偏最小二乘算法
岭回归
定义
性质
1.岭回归是回归参数β的有偏估计
2.在认为岭参数k是与y无关的参数时,岭回归也是y的线性函数
性质3
4.以MSE表示估计向量的均方误差
子主题 6
岭迹分析
岭参数k的确定
岭迹法
方差扩大因子法
残差平法和方法
岭回归选择变量
选择变量的原则
1.在岭回归的计算中,假定设计矩阵X已经中心化和标准化,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量
2.当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k值得增大迅速趋于零。像这样岭回归系数不稳定、震动趋于零得自变量,我们也可以予以剔除
3.剔除标准化岭回归系数很不稳定得自变量,如果有若干个岭回归系数不稳定,究竟剔除几个变量,剔除哪几个变量,并无一般原则可循,需根据提出某个变量后重新进行岭回归分析的效果来确定
可化为线性回归的曲线回归
SPSS常见的10种
要会线性化
双曲函数
S形曲线
多项式回归
常见的几种多项式回归模型
形式
应用
一般非线性模型
非线性最小二乘-模型参数估计方法
模型的基本假定
自变量为非随机变量
误差项满足G-M条件
模型的衡量标准
相关指数(R方)
应用
其他形式的非线性回归
绝对值损失函数
含定性变量的回归模型
简单情况
2类取值,1个0-1变量
复杂情况
k类取值
k-1个0-1变量
自变量含定性变量的回归模型
分段函数
回归系数相等检验
因变量是定性变量的回归模型
定性因变量回归方程的意义
定性因变量回归的特殊问题
离散的非正态误差项
0均值异方差性
回归方程的限制
logistic回归模型
分组数据的logistic回归模型
未分组数据的logistic回归模型(模型求解过程)
probit回归模型
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc
树图思维导图提供 辊压断带分析 在线思维导图免费制作,点击“编辑”按钮,可对 辊压断带分析 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:55fdf0827fa2a220b0b4047d75df5032