TreeMind树图在线AI思维导图
当前位置:树图思维导图模板IT互联网互联网干货数据清理与准备思维导图

数据清理与准备思维导图

  收藏
  分享
免费下载
免费使用文件
U867461707 浏览量:782024-05-24 17:07:49
已被使用13次
查看详情数据清理与准备思维导图

数据清理与准备介绍

树图思维导图提供 数据清理与准备 在线思维导图免费制作,点击“编辑”按钮,可对 数据清理与准备  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:29d99e8aa0b2cfb856a66c3d028e08bc

思维导图大纲

数据清理思维导图模板大纲

异常值的概念和产生原因

单变量:明显高或低的值

多变量:值的奇怪组合,与其他观测明显不同

原因

过程性错误:录入、编码、缺失值定义错误——清除或变编码为缺失

异常事件:记录降水遇台风——视目的而定

异常的观测:无法解释,考虑是否代表总体中有效成分

组合值异常:5岁身高165cm——视分析方法决定是否保留

检验与处理异常值的方法

单变量

标准分数:小样本(80及以下)—2.5;大样本——最高4

盒式图(触须):+1.5IQR,1.5-3倍,温和异常值,空心点;3倍之外,极端异常值*

双变量

散点图,置信椭圆之外的是异常值

多变量

马氏距离/df近似t 分布,显著性检验。

处理方法

是否能代表目标总体的一部分,否的话,删除

是,转换变量、改变计分,降低影响

所有变量上都未缺失个案比例

数据的缺失类型

设计上可忽略

设计的一部分,抽样非总体,截断数据(男飞行员身高估计男性—事件史分析、部分似然估计法)

专门技术、如统计推断

设计上不可忽略

已知:过程性因素;未知:被试原因,不愿填写等

检查缺失程度

缺失程度

每个个案在所有变量上缺失比例

每个变量上个案缺失比例

删除个案(随机缺失,比例10%,因变量有缺失,剩余个案足够多);删除变量(缺失比例15%-20%,数据中有可替代变量,二者相关足够高)

诊断数据缺失机制的方法

非随机缺失:与缺失数据本身存在关联,如题目过于敏感

随机缺失:缺失值依赖于其他变量而不依赖于缺失数据本身

Little's MCAR检验,显著,不是MCAR

完全随机缺失:缺失是完全随机的,不可预测,很少

Y有无缺失分2组,独立样本t检验其他变量在这两组上是否差异显著。不显著,符合MCAR

选择合适的插补方法

MACR

只使用有效数据

成列删除listwise: 删除包含缺失值的完全个案

成对删除pairwise: 变量相关可能超出范围,建构的方差/协方差矩阵可能不正定

使用替换值

使用已知值,少用

热卡插补(就近补齐)、冷卡插补(外部找)、个案替代(整体替换)

使用计算值/统计指标

均值替换:低估变量方差,扭曲实际的变量分布,减弱变量间的相关

回归插补:可能增强变量间关系,低估变量方差,除非估计值中加入了随机项;假定变量相关;样本足够大才可以;预测值可能不在有效范围内

MAR

一般使用专门设计的基于模型的方法,如极大似然性估计插补、多重插补、贝叶斯插补等,或直接将缺失数据作为分析的一部分加入模型

MNAR

最难,只能使用基于模型的方法,如基于选择模型的方法、基于模式混合模型的方法等,追踪数据用得多

相关思维导图模板

数据平台功能梳理思维导图

树图思维导图提供 数据平台功能梳理 在线思维导图免费制作,点击“编辑”按钮,可对 数据平台功能梳理  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1deaa73d08560fddecf412897d63a971

经验与教训思维导图

树图思维导图提供 经验与教训 在线思维导图免费制作,点击“编辑”按钮,可对 经验与教训  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:77a0c80d028e75ba247385489d0f5835