数据清理与准备介绍
树图思维导图提供 数据清理与准备 在线思维导图免费制作,点击“编辑”按钮,可对 数据清理与准备 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:29d99e8aa0b2cfb856a66c3d028e08bc
数据清理思维导图模板大纲
单变量:明显高或低的值
多变量:值的奇怪组合,与其他观测明显不同
原因
过程性错误:录入、编码、缺失值定义错误——清除或变编码为缺失
异常事件:记录降水遇台风——视目的而定
异常的观测:无法解释,考虑是否代表总体中有效成分
组合值异常:5岁身高165cm——视分析方法决定是否保留
单变量
标准分数:小样本(80及以下)—2.5;大样本——最高4
盒式图(触须):+1.5IQR,1.5-3倍,温和异常值,空心点;3倍之外,极端异常值*
双变量
散点图,置信椭圆之外的是异常值
多变量
马氏距离/df近似t 分布,显著性检验。
处理方法
是否能代表目标总体的一部分,否的话,删除
是,转换变量、改变计分,降低影响
所有变量上都未缺失个案比例
设计上可忽略
设计的一部分,抽样非总体,截断数据(男飞行员身高估计男性—事件史分析、部分似然估计法)
专门技术、如统计推断
设计上不可忽略
已知:过程性因素;未知:被试原因,不愿填写等
检查缺失程度
每个个案在所有变量上缺失比例
每个变量上个案缺失比例
删除个案(随机缺失,比例10%,因变量有缺失,剩余个案足够多);删除变量(缺失比例15%-20%,数据中有可替代变量,二者相关足够高)
非随机缺失:与缺失数据本身存在关联,如题目过于敏感
随机缺失:缺失值依赖于其他变量而不依赖于缺失数据本身
Little's MCAR检验,显著,不是MCAR
完全随机缺失:缺失是完全随机的,不可预测,很少
Y有无缺失分2组,独立样本t检验其他变量在这两组上是否差异显著。不显著,符合MCAR
MACR
只使用有效数据
成列删除listwise: 删除包含缺失值的完全个案
成对删除pairwise: 变量相关可能超出范围,建构的方差/协方差矩阵可能不正定
使用替换值
使用已知值,少用
热卡插补(就近补齐)、冷卡插补(外部找)、个案替代(整体替换)
使用计算值/统计指标
均值替换:低估变量方差,扭曲实际的变量分布,减弱变量间的相关
回归插补:可能增强变量间关系,低估变量方差,除非估计值中加入了随机项;假定变量相关;样本足够大才可以;预测值可能不在有效范围内
MAR
一般使用专门设计的基于模型的方法,如极大似然性估计插补、多重插补、贝叶斯插补等,或直接将缺失数据作为分析的一部分加入模型
MNAR
最难,只能使用基于模型的方法,如基于选择模型的方法、基于模式混合模型的方法等,追踪数据用得多
树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a
树图思维导图提供 第六章 群体传播与组织传播_副本 在线思维导图免费制作,点击“编辑”按钮,可对 第六章 群体传播与组织传播_副本 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1672f555831e7d9a3bb2cf2fb792cb49