缺失值的插补方法内容简述
树图思维导图提供 缺失值的插补方法 在线思维导图免费制作,点击“编辑”按钮,可对 缺失值的插补方法 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:66b48f621b0ef081a93c268389b8b100
缺失值的插补方法思维导图模板大纲
基本思想
通过合并其他变量的信息来产生缺失变量的插补值,建立缺失变量和已观测变量的回归方程,用缺失变量的预测值进行缺失值的差补。
步骤
数据准备
选择回归模型
模型训练
预测缺失值
插补缺失值
优点
充分利用已知数据信息 适用于变量强相关情况
适用于连续性变量
简单直观
局限性
依赖假设条件
过度拟合或欠拟合
忽略缺失机制
基本思想
随机回归插补是对回归插补的改进,在回归预测值上增加了一些随机因素,这样减弱了回归插补对原相关性的影响。
步骤
数据准备
特征选择
模型训练
预测缺失值
插补缺失值
优点
考虑随机因素
局限性
过度拟合或欠拟合
基本思想
多重插补是一种基于重复模拟处理缺失值的方法,它使用包含缺失值的原数据集,用蒙特卡罗方法重复多次生成若干组完整数据集,在每一组模拟出来的完整数据集上分别应用标准的统计方法,然后通过组合输出结果给出估计的效果以及引入缺失值后的置信区间。
步骤
数据准备
选择初始模型
预测缺失值
模型迭代
预测缺失值
合并插补结果
优点
充分利用数据信息
保持数据完整性
减少偏差
局限性
模型选择较为困难
解释性差,可能过拟合
计算成本高
基本思想
K近邻法利用样本观测之间的相关性来填补缺失值。假设两个观测是相似的,其中一个观测在某些变量上有缺失值,那么该缺失值很可能与另一个观测的值是相似的。
步骤
确定距离度量
确定K值
搜索临近样本
进行决策
分类结果
回归结果
优点
适应性强
无需训练
对异常值不敏感
易于理解和实现
局限性
计算量大
距离选择困难
需要对数据进行预处理
K值选择困难
距离度量思维导图模板大纲
树图思维导图提供 PRAGMATICS 在线思维导图免费制作,点击“编辑”按钮,可对 PRAGMATICS 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:5c88b9d082a71ef59715fa269758e09b
树图思维导图提供 卫生化学--元素和无机物分析 在线思维导图免费制作,点击“编辑”按钮,可对 卫生化学--元素和无机物分析 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4c942d0350c858e06a1f7ed29a86d096