TreeMind树图在线AI思维导图
当前位置:树图思维导图模板管理/培训工作方法数据预处理思维导图

数据预处理思维导图

  收藏
  分享
免费下载
免费使用文件
Strive 浏览量:492023-05-11 19:54:26
已被使用2次
查看详情数据预处理思维导图

数据预处理

树图思维导图提供 数据预处理 在线思维导图免费制作,点击“编辑”按钮,可对 数据预处理  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:b366d12afd373ae15ea62515471057a3

思维导图大纲

数据预处理思维导图模板大纲

原始数据中存在的问题

数据不一致

噪声数据

缺失值

数据质量要求

准确性

完整性

一致性

时效性

可信性

可解释性

检测与处理缺失值

利用isnull()函数检测缺失值

利用isnull().sum()方法统计缺失值

利用info()方法查看DataFrame的缺失值

缺失值的处理

通过dropna()函数可以删除具有缺失值的行

how=“all”丢弃全为NA的行

axis=1,how=“all”丢弃全为NA的列

thresh=N 一行至少具有N个非NaN才能保留

通过fillna()函数可以实现对不同列填充不同的值

inplace=True 就地修改

通过replace()方法替换数据值

异常值检验

散点图方法

箱线图方法

利用pandas合并数据

使用merge()函数进行数据合并

how=“inner”合并不同列名

left,right,outer

DataFrame中没有连接键,使用concat()函数进行数据连接

scikit—learn实现鸢尾花数据进行降维,将原来的四维的数据降为二维

数量归约

用代替的、较小的数据表示形式换原始数据

数据的规范化

类别型数据的哑变量处理

使用pandas库中的get_dummies()函数对类别型数据进行哑变量处理

连续型变量的离散化

使用pandas库中的cut()函数进行连续型数据的等宽离散化

利用scikit—learn进行数据预处理

数据标准化、均值和方差缩放

scale()函数

MinMaxScale、MaxAbsScaler进行特征值缩放

QuantileTransformer()方法和quantile_transform提供非参数转换

使用Box—Cox转换将对数正态分布绘制的样本映射到正态分布

OneHotEncoder进行分类特征编码

相关思维导图模板

深入浅出MySQL数据库思维导图

树图思维导图提供 深入浅出MySQL数据库 在线思维导图免费制作,点击“编辑”按钮,可对 深入浅出MySQL数据库  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4973c1019c6e392a02790e406f45b609

物理层思维脑图思维导图

树图思维导图提供 物理层思维脑图 在线思维导图免费制作,点击“编辑”按钮,可对 物理层思维脑图  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:a065ab531b9a883de1735f955a7d614d